Este tutorial demuestra cómo importar eficientemente múltiples archivos CSV a un DataFrame de Pandas en Python. Cubriremos los fundamentos de Pandas, la lectura de archivos CSV individuales, la importación de múltiples archivos y, finalmente, la concatenación de estos en un único DataFrame unificado.
Tabla de Contenidos
- ¿Qué es Pandas?
- Leyendo un Archivo CSV Individual
- Leyendo Múltiples Archivos CSV
- Concatenando DataFrames
- Manejando Posibles Errores
1. ¿Qué es Pandas?
Pandas es una biblioteca fundamental en el ecosistema de ciencia de datos de Python. Proporciona estructuras de datos de alto rendimiento y fáciles de usar, así como herramientas de análisis de datos. La estructura de datos principal es el DataFrame, una estructura de datos etiquetada bidimensional similar a una hoja de cálculo o una tabla SQL. Pandas simplifica el trabajo con datos estructurados de diversas fuentes, incluyendo archivos CSV, hojas de cálculo de Excel y bases de datos.
2. Leyendo un Archivo CSV Individual
Antes de abordar múltiples archivos, leamos uno solo:
import pandas as pd
file_path = 'your_file.csv' # Reemplace con la ruta de su archivo
df = pd.read_csv(file_path)
print(df.head())
Esto importa Pandas, especifica la ruta del archivo, lee el CSV usando pd.read_csv()
y muestra las cinco primeras filas usando df.head()
.
3. Leyendo Múltiples Archivos CSV
Para leer múltiples archivos CSV desde un directorio, utilizamos el módulo glob
:
import pandas as pd
import glob
directory = 'path/to/your/csv/files/' # Reemplace con su directorio
csv_files = glob.glob(directory + '*.csv')
dfs = []
for file in csv_files:
try:
df = pd.read_csv(file)
dfs.append(df)
except pd.errors.EmptyDataError:
print(f"Advertencia: Omitiendo archivo vacío: {file}")
except pd.errors.ParserError:
print(f"Advertencia: Omitiendo archivo con errores de análisis: {file}")
print(f"Número de DataFrames leídos: {len(dfs)}")
Este código encuentra todos los archivos CSV en el directorio especificado, lee cada uno en un DataFrame y lo agrega a una lista. El bloque try-except
maneja posibles errores como archivos vacíos o errores de análisis, evitando que el script se bloquee.
4. Concatenando DataFrames
Finalmente, combinamos los DataFrames individuales:
combined_df = pd.concat(dfs, ignore_index=True)
print(combined_df.head())
combined_df.to_csv('combined_data.csv', index=False) #Opcional: Guardar en un nuevo CSV
pd.concat(dfs, ignore_index=True)
concatena todos los DataFrames en la lista dfs
. ignore_index=True
reinicia el índice para un índice limpio y continuo. El to_csv()
opcional guarda el resultado.
5. Manejando Posibles Errores
Los scripts robustos anticipan problemas. Agregar manejo de errores, como se muestra en la sección de lectura de múltiples archivos, es crucial. Considere agregar comprobaciones para la existencia del directorio y el manejo de diferentes tipos de errores de lectura de archivos (por ejemplo, delimitadores incorrectos, columnas faltantes). Esto asegura que su script sea más confiable y menos propenso a fallas inesperadas.