Este tutorial demonstra como importar eficientemente múltiplos arquivos CSV para um DataFrame Pandas em Python. Abordaremos os fundamentos do Pandas, a leitura de arquivos CSV únicos, a importação de múltiplos arquivos e, finalmente, a concatenação deles em um único DataFrame unificado.
Sumário
- O que é Pandas?
- Lendo um Único Arquivo CSV
- Lendo Múltiplos Arquivos CSV
- Concatenando DataFrames
- Tratando Erros Potenciais
1. O que é Pandas?
Pandas é uma biblioteca fundamental no ecossistema de ciência de dados do Python. Ele fornece estruturas de dados de alto desempenho e fáceis de usar e ferramentas de análise de dados. A estrutura de dados principal é o DataFrame, uma estrutura de dados rotulada bidimensional semelhante a uma planilha ou tabela SQL. O Pandas simplifica o trabalho com dados estruturados de várias fontes, incluindo arquivos CSV, planilhas Excel e bancos de dados.
2. Lendo um Único Arquivo CSV
Antes de lidar com vários arquivos, vamos ler um único CSV:
import pandas as pd
file_path = 'seu_arquivo.csv' # Substitua pelo caminho do seu arquivo
df = pd.read_csv(file_path)
print(df.head())
Isso importa o Pandas, especifica o caminho do arquivo, lê o CSV usando pd.read_csv()
e exibe as cinco primeiras linhas usando df.head()
.
3. Lendo Múltiplos Arquivos CSV
Para ler vários arquivos CSV de um diretório, utilizamos o módulo glob
:
import pandas as pd
import glob
directory = 'caminho/para/seus/arquivos/csv/' # Substitua pelo seu diretório
csv_files = glob.glob(directory + '*.csv')
dfs = []
for file in csv_files:
try:
df = pd.read_csv(file)
dfs.append(df)
except pd.errors.EmptyDataError:
print(f"Aviso: Pulando arquivo vazio: {file}")
except pd.errors.ParserError:
print(f"Aviso: Pulando arquivo com erros de análise: {file}")
print(f"Número de DataFrames lidos: {len(dfs)}")
Este código encontra todos os arquivos CSV no diretório especificado, lê cada um em um DataFrame e o anexa a uma lista. O bloco try-except
trata erros potenciais, como arquivos vazios ou erros de análise, evitando que o script trave.
4. Concatenando DataFrames
Finalmente, combinamos os DataFrames individuais:
combined_df = pd.concat(dfs, ignore_index=True)
print(combined_df.head())
combined_df.to_csv('dados_combinados.csv', index=False) #Opcional: Salva em um novo CSV
pd.concat(dfs, ignore_index=True)
concatena todos os DataFrames na lista dfs
. ignore_index=True
reajusta o índice para um índice limpo e contínuo. O to_csv()
opcional salva o resultado.
5. Tratando Erros Potenciais
Scripts robustos antecipam problemas. Adicionar tratamento de erros, como mostrado na seção de leitura de vários arquivos, é crucial. Considere adicionar verificações para a existência do diretório e o tratamento de diferentes tipos de erros de leitura de arquivos (por exemplo, delimitadores incorretos, colunas ausentes). Isso garante que seu script seja mais confiável e menos propenso a falhas inesperadas.