Data Science

Importando e Combinando Múltiplos Arquivos CSV com Pandas de Forma Eficiente

Spread the love

Este tutorial demonstra como importar eficientemente múltiplos arquivos CSV para um DataFrame Pandas em Python. Abordaremos os fundamentos do Pandas, a leitura de arquivos CSV únicos, a importação de múltiplos arquivos e, finalmente, a concatenação deles em um único DataFrame unificado.

Sumário

  1. O que é Pandas?
  2. Lendo um Único Arquivo CSV
  3. Lendo Múltiplos Arquivos CSV
  4. Concatenando DataFrames
  5. Tratando Erros Potenciais

1. O que é Pandas?

Pandas é uma biblioteca fundamental no ecossistema de ciência de dados do Python. Ele fornece estruturas de dados de alto desempenho e fáceis de usar e ferramentas de análise de dados. A estrutura de dados principal é o DataFrame, uma estrutura de dados rotulada bidimensional semelhante a uma planilha ou tabela SQL. O Pandas simplifica o trabalho com dados estruturados de várias fontes, incluindo arquivos CSV, planilhas Excel e bancos de dados.

2. Lendo um Único Arquivo CSV

Antes de lidar com vários arquivos, vamos ler um único CSV:


import pandas as pd

file_path = 'seu_arquivo.csv'  # Substitua pelo caminho do seu arquivo
df = pd.read_csv(file_path)
print(df.head())

Isso importa o Pandas, especifica o caminho do arquivo, lê o CSV usando pd.read_csv() e exibe as cinco primeiras linhas usando df.head().

3. Lendo Múltiplos Arquivos CSV

Para ler vários arquivos CSV de um diretório, utilizamos o módulo glob:


import pandas as pd
import glob

directory = 'caminho/para/seus/arquivos/csv/'  # Substitua pelo seu diretório
csv_files = glob.glob(directory + '*.csv')
dfs = []

for file in csv_files:
    try:
        df = pd.read_csv(file)
        dfs.append(df)
    except pd.errors.EmptyDataError:
        print(f"Aviso: Pulando arquivo vazio: {file}")
    except pd.errors.ParserError:
        print(f"Aviso: Pulando arquivo com erros de análise: {file}")

print(f"Número de DataFrames lidos: {len(dfs)}")

Este código encontra todos os arquivos CSV no diretório especificado, lê cada um em um DataFrame e o anexa a uma lista. O bloco try-except trata erros potenciais, como arquivos vazios ou erros de análise, evitando que o script trave.

4. Concatenando DataFrames

Finalmente, combinamos os DataFrames individuais:


combined_df = pd.concat(dfs, ignore_index=True)
print(combined_df.head())
combined_df.to_csv('dados_combinados.csv', index=False) #Opcional: Salva em um novo CSV

pd.concat(dfs, ignore_index=True) concatena todos os DataFrames na lista dfs. ignore_index=True reajusta o índice para um índice limpo e contínuo. O to_csv() opcional salva o resultado.

5. Tratando Erros Potenciais

Scripts robustos antecipam problemas. Adicionar tratamento de erros, como mostrado na seção de leitura de vários arquivos, é crucial. Considere adicionar verificações para a existência do diretório e o tratamento de diferentes tipos de erros de leitura de arquivos (por exemplo, delimitadores incorretos, colunas ausentes). Isso garante que seu script seja mais confiável e menos propenso a falhas inesperadas.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *