Pandas est une puissante librairie Python pour la manipulation et l’analyse de données. Son cœur est le DataFrame, une structure de données étiquetée bidimensionnelle versatile. Fréquemment, vous aurez besoin de créer des DataFrames à partir de données existantes, et les listes offrent un point de départ commun et pratique. Cet article explore plusieurs méthodes efficaces pour construire des Pandas DataFrames à partir de diverses structures de listes.
Table des matières
- Méthode 1 : À partir d’une liste simple
- Méthode 2 : À partir d’une liste de listes
- Méthode 3 : À partir d’une liste de dictionnaires
- Méthode 4 : En utilisant les tableaux NumPy
- Conclusion
- FAQ
Méthode 1 : À partir d’une liste simple
L’approche la plus simple utilise une seule liste pour créer un DataFrame. Ceci est idéal pour les données représentant une seule colonne.
import pandas as pd
data = [10, 20, 30, 40, 50]
df = pd.DataFrame(data, columns=['Valeurs'])
print(df)
Ceci crée un DataFrame avec une colonne, ‘Valeurs’, remplie par les éléments de la liste data
.
Méthode 2 : À partir d’une liste de listes
Pour les DataFrames multi-colonnes, une liste de listes est plus versatile. Chaque liste interne représente une ligne.
import pandas as pd
data = [[1, 'Alice', 25], [2, 'Bob', 30], [3, 'Charlie', 28]]
df = pd.DataFrame(data, columns=['ID', 'Nom', 'Âge'])
print(df)
La liste externe contient les lignes, et columns
spécifie les noms des colonnes. Assurez-vous que chaque liste interne a la même longueur que le nombre de colonnes.
Méthode 3 : À partir d’une liste de dictionnaires
Cette méthode offre une meilleure lisibilité et flexibilité, particulièrement avec des colonnes nommées. Chaque dictionnaire représente une ligne, avec les clés comme noms de colonnes.
import pandas as pd
data = [{'ID': 1, 'Nom': 'Alice', 'Âge': 25},
{'ID': 2, 'Nom': 'Bob', 'Âge': 30},
{'ID': 3, 'Nom': 'Charlie', 'Âge': 28}]
df = pd.DataFrame(data)
print(df)
Les noms de colonnes sont automatiquement déduits des clés des dictionnaires. Ceci est généralement préféré pour la clarté, particulièrement avec des ensembles de données plus importants.
Méthode 4 : En utilisant les tableaux NumPy
Pour les données numériques, les tableaux NumPy offrent des avantages en termes de performance.
import pandas as pd
import numpy as np
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
print(df)
Le stockage efficace de NumPy améliore la vitesse de création du DataFrame, particulièrement avec des données numériques extensives.
Conclusion
Créer des Pandas DataFrames à partir de listes fournit un flux de travail flexible et efficace. La meilleure approche dépend de votre structure de données et de vos besoins en termes de performance. Les listes de dictionnaires offrent souvent le meilleur équilibre entre lisibilité et facilité d’utilisation, tandis que les tableaux NumPy sont idéaux pour l’optimisation des performances avec des ensembles de données numériques importants.
FAQ
- Q : Que se passe-t-il si les listes internes ont des longueurs variables ? R : Pandas lèvera une erreur
ValueError
. Maintenez des longueurs cohérentes pour toutes les listes internes. - Q : Puis-je créer un DataFrame avec une seule ligne ? R : Oui, utilisez n’importe quelle méthode avec une seule liste, une liste avec une liste interne, ou une liste avec un seul dictionnaire.
- Q : Comment Pandas gère-t-il les types de données mixtes ? R : Pandas déduit le type de données le plus approprié pour chaque colonne.
- Q : Comment représenter les données manquantes ? R : Utilisez
np.nan
(Not a Number) pour représenter les valeurs manquantes.