यह ट्यूटोरियल दर्शाता है कि पाइथन में पंडास डेटाफ्रेम में कई CSV फाइलों को कुशलतापूर्वक कैसे आयात किया जाए। हम पंडास के मूल सिद्धांतों, एकल CSV फाइलों को पढ़ने, कई फाइलों को आयात करने और अंत में, उन्हें एक एकल, एकीकृत डेटाफ्रेम में जोड़ने को कवर करेंगे।
विषयवस्तु की तालिका
- पंडास क्या है?
- एकल CSV फ़ाइल पढ़ना
- कई CSV फ़ाइलें पढ़ना
- डेटाफ्रेम को जोड़ना
- संभावित त्रुटियों को संभालना
1. पंडास क्या है?
पंडास पाइथन के डेटा साइंस इकोसिस्टम में एक आधारशिला पुस्तकालय है। यह उच्च-प्रदर्शन, उपयोग में आसान डेटा संरचनाएँ और डेटा विश्लेषण उपकरण प्रदान करता है। कोर डेटा संरचना डेटाफ्रेम है, जो एक स्प्रेडशीट या SQL तालिका के समान एक द्वि-आयामी लेबल वाली डेटा संरचना है। पंडास CSV फ़ाइलों, एक्सेल स्प्रेडशीट और डेटाबेस सहित विभिन्न स्रोतों से संरचित डेटा के साथ काम करना सरल बनाता है।
2. एकल CSV फ़ाइल पढ़ना
कई फ़ाइलों से निपटने से पहले, आइए एकल CSV पढ़ें:
import pandas as pd
file_path = 'your_file.csv' # अपनी फ़ाइल पथ से बदलें
df = pd.read_csv(file_path)
print(df.head())
यह पंडास आयात करता है, फ़ाइल पथ निर्दिष्ट करता है, pd.read_csv()
का उपयोग करके CSV पढ़ता है, और df.head()
का उपयोग करके पहली पाँच पंक्तियाँ प्रदर्शित करता है।
3. कई CSV फ़ाइलें पढ़ना
किसी निर्देशिका से कई CSV फ़ाइलें पढ़ने के लिए, हम glob
मॉड्यूल का उपयोग करते हैं:
import pandas as pd
import glob
directory = 'path/to/your/csv/files/' # अपनी निर्देशिका से बदलें
csv_files = glob.glob(directory + '*.csv')
dfs = []
for file in csv_files:
try:
df = pd.read_csv(file)
dfs.append(df)
except pd.errors.EmptyDataError:
print(f"चेतावनी: खाली फ़ाइल छोड़ रहा हूँ: {file}")
except pd.errors.ParserError:
print(f"चेतावनी: पार्सिंग त्रुटियों वाली फ़ाइल छोड़ रहा हूँ: {file}")
print(f"पढ़े गए डेटाफ्रेम की संख्या: {len(dfs)}")
यह कोड निर्दिष्ट निर्देशिका में सभी CSV फ़ाइलें ढूँढता है, प्रत्येक को एक डेटाफ्रेम में पढ़ता है, और इसे एक सूची में जोड़ देता है। try-except
ब्लॉक खाली फ़ाइलों या पार्सिंग त्रुटियों जैसी संभावित त्रुटियों को संभालता है, स्क्रिप्ट को क्रैश होने से रोकता है।
4. डेटाफ्रेम को जोड़ना
अंत में, हम अलग-अलग डेटाफ्रेम को मिलाते हैं:
combined_df = pd.concat(dfs, ignore_index=True)
print(combined_df.head())
combined_df.to_csv('combined_data.csv', index=False) #वैकल्पिक: एक नए CSV में सहेजें
pd.concat(dfs, ignore_index=True)
dfs
सूची में सभी डेटाफ्रेम को जोड़ता है। ignore_index=True
एक स्वच्छ, निरंतर अनुक्रमणिका के लिए अनुक्रमणिका को रीसेट करता है। वैकल्पिक to_csv()
परिणाम को सहेजता है।
5. संभावित त्रुटियों को संभालना
मजबूत स्क्रिप्ट मुद्दों का अनुमान लगाती हैं। कई फ़ाइल पढ़ने वाले अनुभाग में दिखाए गए अनुसार, त्रुटि हैंडलिंग जोड़ना महत्वपूर्ण है। निर्देशिका के अस्तित्व के लिए जांच जोड़ने और विभिन्न प्रकार की फ़ाइल पढ़ने की त्रुटियों (जैसे, गलत सीमांकक, गुम कॉलम) को संभालने पर विचार करें। यह सुनिश्चित करता है कि आपकी स्क्रिप्ट अधिक विश्वसनीय है और अप्रत्याशित विफलताओं से कम प्रवण है।