Introduction

Dans le contexte africain où les données deviennent un levier capital pour les processus de décision, savoir analyser et visualiser celles-ci peut transformer votre façon de travailler. Dans ce tutoriel, nous allons explorer Pandas et Matplotlib, deux bibliothèques populaires en Python, pour traiter, analyser et visualiser des données. Vous serez capable de manipuler des ensembles de données bruts et de produire des graphiques clairs et informatifs.

Objectifs d'apprentissage

  • Comprendre les bases de l'analyse de données avec Pandas.
  • Maîtriser la création de graphiques avec Matplotlib.
  • Appliquer ces compétences à des cas pratiques.

Prérequis

  • Installation de Python 3 sur votre machine.
  • Environnement de développement (Jupyter Notebook recommandé).
  • Connaissances de base en programmation Python.

Matériel requis

  • Python installé : Télécharger Python
  • Accès à un terminal ou IDE (comme Jupyter Notebook ou VSCode).

Étape 1 : Installer les bibliothèques nécessaires

Lancez votre terminal ou IDE et tapez les commandes suivantes pour installer les bibliothèques Pandas et Matplotlib :

pip install pandas matplotlib

Une fois les bibliothèques installées, testez-les en les important dans un script Python.

Créez un nouveau fichier appelé app.py et collez ce code:

import pandas as pd
import matplotlib.pyplot as plt
print("Bibliothèques installées avec succès !")

Voici comment j'ai structuré mes dossiers:


Étape 2 : Importer et explorer les données

Pour ce tutoriel, nous utilisons un fichier fictif nommé sales_data.csv, simulant des données de ventes dans différents pays africains.
Téléchargez le fichier.

Charger un fichier CSV

# Charger le fichier CSV dans un DataFrame Pandas
data = pd.read_csv("sales_data.csv")

# Afficher les 5 premières lignes pour explorer les données
print(data.head())

Exemple de structure de données :

Pays Produit Ventes Mois
Nigeria Ordinateur 500 Janvier
Kenya Smartphone 700 Janvier
Afrique du Sud Tablette 300 Février

Voici mes résultats:

Comprendre les données

Utilisez les fonctions suivantes pour mieux explorer votre DataFrame :

# Afficher les types de données
print(data.info())

# Statistiques de base
data.describe()

# Vérifier les valeurs manquantes
data.isnull().sum()

Étape 3 : Analyser les données avec Pandas

Pandas permet de manipuler les données facilement. Voici quelques opérations courantes :

Filtrage des données

Exemple : Obtenir uniquement les ventes de "Sénégal" :

senegal_data = data[data["Pays"] == "Sénégal"]
print(senegal_data)

Résumé agrégé par pays

# Calculer les ventes totales par pays
sales_by_country = data.groupby("Pays")["Ventes"].sum()
print(sales_by_country)

Étape 4 : Créer des visualisations avec Matplotlib

Graphique en barres : Ventes par pays

# Préparer les données
countries = sales_by_country.index
sales = sales_by_country.values

# Créer un graphique en barres
plt.bar(countries, sales, color='skyblue')
plt.xlabel("Pays")
plt.ylabel("Ventes Totales")
plt.title("Ventes Totales par Pays")
plt.show()

Voici le résultat:

Graphique linéaire : Tendances des ventes par mois

Pour afficher les tendances :

data_by_month = data.groupby("Mois")["Ventes"].sum()
data_by_month.plot(kind="line", marker="o", color="green")

plt.title("Tendances des ventes par mois")
plt.xlabel("Mois")
plt.ylabel("Ventes Totales")
plt.grid()
plt.show()

Étape 5 : Gérer les erreurs communes

Problème 1 : Données manquantes

Vous pouvez remplacer les valeurs nulles par 0 :

data.fillna(0, inplace=True)

Problème 2 : Erreurs d'importation de fichiers CSV

Vérifiez le chemin du fichier et son encodage :

data = pd.read_csv("sales_data.csv", encoding="utf-8")

Conclusion

Vous savez maintenant comment :

  1. Charger et explorer des données avec Pandas.
  2. Analyser et extraire des insights avec des opérations simples.
  3. Créer des visualisations claires avec Matplotlib.

Ces compétences vous aideront à résoudre de nombreux problèmes de données dans des contextes variés en Afrique. Nous vous encourageons à pratiquer et à élargir vos compétences en intégrant ces outils dans vos projets réels.

Ressources additionnelles


Exercices Pratiques

  1. Analyser les ventes pour un produit spécifique.
  2. Créer un graphique circulaire (pie chart) pour représenter la répartition des ventes par produit.
  3. Ajouter des annotations à vos graphiques Matplotlib pour enrichir vos visualisations.