Data Science

Importación y Combinación Eficientes de Múltiples Archivos CSV con Pandas

Spread the love

Este tutorial demuestra cómo importar eficientemente múltiples archivos CSV a un DataFrame de Pandas en Python. Cubriremos los fundamentos de Pandas, la lectura de archivos CSV individuales, la importación de múltiples archivos y, finalmente, la concatenación de estos en un único DataFrame unificado.

Tabla de Contenidos

  1. ¿Qué es Pandas?
  2. Leyendo un Archivo CSV Individual
  3. Leyendo Múltiples Archivos CSV
  4. Concatenando DataFrames
  5. Manejando Posibles Errores

1. ¿Qué es Pandas?

Pandas es una biblioteca fundamental en el ecosistema de ciencia de datos de Python. Proporciona estructuras de datos de alto rendimiento y fáciles de usar, así como herramientas de análisis de datos. La estructura de datos principal es el DataFrame, una estructura de datos etiquetada bidimensional similar a una hoja de cálculo o una tabla SQL. Pandas simplifica el trabajo con datos estructurados de diversas fuentes, incluyendo archivos CSV, hojas de cálculo de Excel y bases de datos.

2. Leyendo un Archivo CSV Individual

Antes de abordar múltiples archivos, leamos uno solo:


import pandas as pd

file_path = 'your_file.csv'  # Reemplace con la ruta de su archivo
df = pd.read_csv(file_path)
print(df.head())

Esto importa Pandas, especifica la ruta del archivo, lee el CSV usando pd.read_csv() y muestra las cinco primeras filas usando df.head().

3. Leyendo Múltiples Archivos CSV

Para leer múltiples archivos CSV desde un directorio, utilizamos el módulo glob:


import pandas as pd
import glob

directory = 'path/to/your/csv/files/'  # Reemplace con su directorio
csv_files = glob.glob(directory + '*.csv')
dfs = []

for file in csv_files:
    try:
        df = pd.read_csv(file)
        dfs.append(df)
    except pd.errors.EmptyDataError:
        print(f"Advertencia: Omitiendo archivo vacío: {file}")
    except pd.errors.ParserError:
        print(f"Advertencia: Omitiendo archivo con errores de análisis: {file}")

print(f"Número de DataFrames leídos: {len(dfs)}")

Este código encuentra todos los archivos CSV en el directorio especificado, lee cada uno en un DataFrame y lo agrega a una lista. El bloque try-except maneja posibles errores como archivos vacíos o errores de análisis, evitando que el script se bloquee.

4. Concatenando DataFrames

Finalmente, combinamos los DataFrames individuales:


combined_df = pd.concat(dfs, ignore_index=True)
print(combined_df.head())
combined_df.to_csv('combined_data.csv', index=False) #Opcional: Guardar en un nuevo CSV

pd.concat(dfs, ignore_index=True) concatena todos los DataFrames en la lista dfs. ignore_index=True reinicia el índice para un índice limpio y continuo. El to_csv() opcional guarda el resultado.

5. Manejando Posibles Errores

Los scripts robustos anticipan problemas. Agregar manejo de errores, como se muestra en la sección de lectura de múltiples archivos, es crucial. Considere agregar comprobaciones para la existencia del directorio y el manejo de diferentes tipos de errores de lectura de archivos (por ejemplo, delimitadores incorrectos, columnas faltantes). Esto asegura que su script sea más confiable y menos propenso a fallas inesperadas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *