Comment visualiser des données avec Python et Matplotlib

3 minute de lecture
Comment visualiser des données avec Python et Matplotlib
Photo by Clay Banks / Unsplash

La visualisation des données est un moyen de communiquer des données dans un format visuel facile à comprendre et à interpréter.

Qu'est-ce que la visualisation de données ?

La visualisation des données est le processus d'affichage des données sous forme graphique, généralement de manière qu’elles puissent être facilement interprétées par le spectateur. L'objectif de la visualisation de données est de présenter des informations complexes d'une manière facile à comprendre et à interpréter.

Qu'est-ce que c’est Matplotlib?

Matplotlib est une bibliothèque python pour la visualisation de données. Il peut être utilisé pour créer des graphiques, des histogrammes, des spectres de puissance, des diagrammes à barres, des diagrammes de dispersion, etc.

Il fournit une grande variété de fonctions qui peuvent être utilisées pour personnaliser les tracés.

Cette bibliothèque est très populaire parmi les scientifiques des données et les experts en apprentissage automatique car elle prend en charge toutes sortes d'algorithmes d'analyse statistique et d'apprentissage automatique grâce à sa fonctionnalité de traçage intégrée.

Pourquoi utiliser Matplotlib ? Les avantages de Matplotlib.

Les avantages de Matplotlib sont infinis, mais voici quelques raisons pour lesquelles vous devriez utiliser Matplotlib dans votre prochain projet :

  • C'est gratuit et open source;
  • Simple et facile à prendre en main;
  • Il a une large gamme de fonctionnalités;
  • Vous pouvez changer votre style de tracé facilement.

Comment installer Matplotlib?

La façon la plus simple d’installer non seulement Panda, mais aussi Python et ses bibliothèques les plus populaires (IPython, NumPy, Matplotlib, ...) est d’utiliser Anaconda, une distribution Python multiplateforme (Linux, macOS, Windows) pour l’analyse de données et le calcul scientifique. Vous pouvez vous référer à l'article sur Pandas pour l'installation.

Démarrer avec JupyterLab

Pour démarrer avec JupyterLab, tapez sur votre terminal ❯ jupyter lab patientez quelques secondes, Jupyter va ouvrir une nouvelle fenêtre de navigation sur http://localhost:8888/lab.

Importer Pandas et Matplotlib

Nous allons utiliser Pandas pour lire notre fichier csv et Matplotlib pour la visualisation. Vous pouvez télécharger le fichier ici.

Ici, nous avons importé Pandas et Matplotlib, ensuite nous avons lu le fichier et enfin afficher les 5 premières lignes. En savoir plus.

Pylot

Pyplot est un module Matplotlib qui fournit une interface de type MATLAB.

Tracé linéaire

Line Plot dans Seaborn tracé à l’aide de la méthode lineplot() . En cela, nous ne pouvons également transmettre que l’argument de données.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


df = pd.read_csv("./tips-dataset.csv")
sns.lineplot(x='day', y='tip', data=df)

plt.show()

Graphique à barres

Bar Plot dans Seaborn peut être créé à l’aide de la méthode barplot() .

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


df = pd.read_csv("./tips-dataset.csv")
sns.barplot(x='day',y='tip', data=df,
            hue='sex')
plt.show()

Nous pouvons ajouter un titre aussi.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


df = pd.read_csv("./tips-dataset.csv")

plt.title("Graphique a barres")

sns.barplot(x='day',y='tip', data=df,
            hue='sex')
plt.show()

Histogramme

L’histogramme dans Seaborn peut être tracé à l’aide de la fonction histplot() .

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


df = pd.read_csv("./tips-dataset.csv")

plt.title("Histogramme")

sns.histplot(x='total_bill', data=df, kde=True, hue='sex')
plt.show()

Tracer les résidus du modèle

Seaborn utilise:set_theme(), residplot()

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


df = pd.read_csv("./tips-dataset.csv")

plt.title("Régression linéaire")

sns.residplot(x="total_bill", y="tip", data=df, lowess=True, color="g")
plt.show()

Matplotlib, c'est un outil très puissant avec d'autres bibliothèques intégrées. Pour aller plus loin, je vous conseille de consulter la documentation.

Vous avez aimé cet article ? Rejoignez le Bootcamp

Ce tutoriel devrait suffire à vous faire découvrir la puissance de Matplotlib. Si vous voulez aller plus loin, inscrivez-vous à notre prochaine cohorte.