Introduction
Dans le contexte africain où les données deviennent un levier capital pour les processus de décision, savoir analyser et visualiser celles-ci peut transformer votre façon de travailler. Dans ce tutoriel, nous allons explorer Pandas et Matplotlib, deux bibliothèques populaires en Python, pour traiter, analyser et visualiser des données. Vous serez capable de manipuler des ensembles de données bruts et de produire des graphiques clairs et informatifs.
Objectifs d'apprentissage
- Comprendre les bases de l'analyse de données avec Pandas.
- Maîtriser la création de graphiques avec Matplotlib.
- Appliquer ces compétences à des cas pratiques.
Prérequis
- Installation de Python 3 sur votre machine.
- Environnement de développement (Jupyter Notebook recommandé).
- Connaissances de base en programmation Python.
Matériel requis
- Python installé : Télécharger Python
- Accès à un terminal ou IDE (comme Jupyter Notebook ou VSCode).
Étape 1 : Installer les bibliothèques nécessaires
Lancez votre terminal ou IDE et tapez les commandes suivantes pour installer les bibliothèques Pandas et Matplotlib :
pip install pandas matplotlib
Une fois les bibliothèques installées, testez-les en les important dans un script Python.
Créez un nouveau fichier appelé app.py et collez ce code:
import pandas as pd
import matplotlib.pyplot as plt
print("Bibliothèques installées avec succès !")
Voici comment j'ai structuré mes dossiers:
Étape 2 : Importer et explorer les données
Pour ce tutoriel, nous utilisons un fichier fictif nommé sales_data.csv
, simulant des données de ventes dans différents pays africains.
Téléchargez le fichier.
Charger un fichier CSV
# Charger le fichier CSV dans un DataFrame Pandas
data = pd.read_csv("sales_data.csv")
# Afficher les 5 premières lignes pour explorer les données
print(data.head())
Exemple de structure de données :
Pays | Produit | Ventes | Mois |
---|---|---|---|
Nigeria | Ordinateur | 500 | Janvier |
Kenya | Smartphone | 700 | Janvier |
Afrique du Sud | Tablette | 300 | Février |
Voici mes résultats:
Comprendre les données
Utilisez les fonctions suivantes pour mieux explorer votre DataFrame :
# Afficher les types de données
print(data.info())
# Statistiques de base
data.describe()
# Vérifier les valeurs manquantes
data.isnull().sum()
Étape 3 : Analyser les données avec Pandas
Pandas permet de manipuler les données facilement. Voici quelques opérations courantes :
Filtrage des données
Exemple : Obtenir uniquement les ventes de "Sénégal" :
senegal_data = data[data["Pays"] == "Sénégal"]
print(senegal_data)
Résumé agrégé par pays
# Calculer les ventes totales par pays
sales_by_country = data.groupby("Pays")["Ventes"].sum()
print(sales_by_country)
Étape 4 : Créer des visualisations avec Matplotlib
Graphique en barres : Ventes par pays
# Préparer les données
countries = sales_by_country.index
sales = sales_by_country.values
# Créer un graphique en barres
plt.bar(countries, sales, color='skyblue')
plt.xlabel("Pays")
plt.ylabel("Ventes Totales")
plt.title("Ventes Totales par Pays")
plt.show()
Voici le résultat:
Graphique linéaire : Tendances des ventes par mois
Pour afficher les tendances :
data_by_month = data.groupby("Mois")["Ventes"].sum()
data_by_month.plot(kind="line", marker="o", color="green")
plt.title("Tendances des ventes par mois")
plt.xlabel("Mois")
plt.ylabel("Ventes Totales")
plt.grid()
plt.show()
Étape 5 : Gérer les erreurs communes
Problème 1 : Données manquantes
Vous pouvez remplacer les valeurs nulles par 0 :
data.fillna(0, inplace=True)
Problème 2 : Erreurs d'importation de fichiers CSV
Vérifiez le chemin du fichier et son encodage :
data = pd.read_csv("sales_data.csv", encoding="utf-8")
Conclusion
Vous savez maintenant comment :
- Charger et explorer des données avec Pandas.
- Analyser et extraire des insights avec des opérations simples.
- Créer des visualisations claires avec Matplotlib.
Ces compétences vous aideront à résoudre de nombreux problèmes de données dans des contextes variés en Afrique. Nous vous encourageons à pratiquer et à élargir vos compétences en intégrant ces outils dans vos projets réels.
Ressources additionnelles
- Documentation Pandas : https://pandas.pydata.org/docs/
- Documentation Matplotlib : https://matplotlib.org/stable/contents.html
Exercices Pratiques
- Analyser les ventes pour un produit spécifique.
- Créer un graphique circulaire (pie chart) pour représenter la répartition des ventes par produit.
- Ajouter des annotations à vos graphiques Matplotlib pour enrichir vos visualisations.