Importando e Combinando Múltiplos Arquivos CSV com Pandas de Forma Eficiente

Julho 28, 2025 - By admin

Spread the love

Este tutorial demonstra como importar eficientemente múltiplos arquivos CSV para um DataFrame Pandas em Python. Abordaremos os fundamentos do Pandas, a leitura de arquivos CSV únicos, a importação de múltiplos arquivos e, finalmente, a concatenação deles em um único DataFrame unificado.

1. O que é Pandas?

Pandas é uma biblioteca fundamental no ecossistema de ciência de dados do Python. Ele fornece estruturas de dados de alto desempenho e fáceis de usar e ferramentas de análise de dados. A estrutura de dados principal é o DataFrame, uma estrutura de dados rotulada bidimensional semelhante a uma planilha ou tabela SQL. O Pandas simplifica o trabalho com dados estruturados de várias fontes, incluindo arquivos CSV, planilhas Excel e bancos de dados.

2. Lendo um Único Arquivo CSV

Antes de lidar com vários arquivos, vamos ler um único CSV:


import pandas as pd

file_path = 'seu_arquivo.csv'  # Substitua pelo caminho do seu arquivo
df = pd.read_csv(file_path)
print(df.head())

Isso importa o Pandas, especifica o caminho do arquivo, lê o CSV usando pd.read_csv() e exibe as cinco primeiras linhas usando df.head().

3. Lendo Múltiplos Arquivos CSV

Para ler vários arquivos CSV de um diretório, utilizamos o módulo glob:


import pandas as pd
import glob

directory = 'caminho/para/seus/arquivos/csv/'  # Substitua pelo seu diretório
csv_files = glob.glob(directory + '*.csv')
dfs = []

for file in csv_files:
    try:
        df = pd.read_csv(file)
        dfs.append(df)
    except pd.errors.EmptyDataError:
        print(f"Aviso: Pulando arquivo vazio: {file}")
    except pd.errors.ParserError:
        print(f"Aviso: Pulando arquivo com erros de análise: {file}")

print(f"Número de DataFrames lidos: {len(dfs)}")

Este código encontra todos os arquivos CSV no diretório especificado, lê cada um em um DataFrame e o anexa a uma lista. O bloco try-except trata erros potenciais, como arquivos vazios ou erros de análise, evitando que o script trave.

4. Concatenando DataFrames

Finalmente, combinamos os DataFrames individuais:


combined_df = pd.concat(dfs, ignore_index=True)
print(combined_df.head())
combined_df.to_csv('dados_combinados.csv', index=False) #Opcional: Salva em um novo CSV

pd.concat(dfs, ignore_index=True) concatena todos os DataFrames na lista dfs. ignore_index=True reajusta o índice para um índice limpo e contínuo. O to_csv() opcional salva o resultado.

5. Tratando Erros Potenciais

Scripts robustos antecipam problemas. Adicionar tratamento de erros, como mostrado na seção de leitura de vários arquivos, é crucial. Considere adicionar verificações para a existência do diretório e o tratamento de diferentes tipos de erros de leitura de arquivos (por exemplo, delimitadores incorretos, colunas ausentes). Isso garante que seu script seja mais confiável e menos propenso a falhas inesperadas.

Sumário

1. O que é Pandas?

2. Lendo um Único Arquivo CSV

3. Lendo Múltiplos Arquivos CSV

4. Concatenando DataFrames

5. Tratando Erros Potenciais

Related posts:

Deixe um comentário Cancelar resposta