पांडा का उपयोग करके कई CSV फाइलों का कुशलतापूर्वक आयात और संयोजन

जुलाई 28, 2025 - By admin

Spread the love

यह ट्यूटोरियल दर्शाता है कि पाइथन में पंडास डेटाफ्रेम में कई CSV फाइलों को कुशलतापूर्वक कैसे आयात किया जाए। हम पंडास के मूल सिद्धांतों, एकल CSV फाइलों को पढ़ने, कई फाइलों को आयात करने और अंत में, उन्हें एक एकल, एकीकृत डेटाफ्रेम में जोड़ने को कवर करेंगे।

1. पंडास क्या है?

पंडास पाइथन के डेटा साइंस इकोसिस्टम में एक आधारशिला पुस्तकालय है। यह उच्च-प्रदर्शन, उपयोग में आसान डेटा संरचनाएँ और डेटा विश्लेषण उपकरण प्रदान करता है। कोर डेटा संरचना डेटाफ्रेम है, जो एक स्प्रेडशीट या SQL तालिका के समान एक द्वि-आयामी लेबल वाली डेटा संरचना है। पंडास CSV फ़ाइलों, एक्सेल स्प्रेडशीट और डेटाबेस सहित विभिन्न स्रोतों से संरचित डेटा के साथ काम करना सरल बनाता है।

2. एकल CSV फ़ाइल पढ़ना

कई फ़ाइलों से निपटने से पहले, आइए एकल CSV पढ़ें:


import pandas as pd

file_path = 'your_file.csv'  # अपनी फ़ाइल पथ से बदलें
df = pd.read_csv(file_path)
print(df.head())

यह पंडास आयात करता है, फ़ाइल पथ निर्दिष्ट करता है, pd.read_csv() का उपयोग करके CSV पढ़ता है, और df.head() का उपयोग करके पहली पाँच पंक्तियाँ प्रदर्शित करता है।

3. कई CSV फ़ाइलें पढ़ना

किसी निर्देशिका से कई CSV फ़ाइलें पढ़ने के लिए, हम glob मॉड्यूल का उपयोग करते हैं:


import pandas as pd
import glob

directory = 'path/to/your/csv/files/'  # अपनी निर्देशिका से बदलें
csv_files = glob.glob(directory + '*.csv')
dfs = []

for file in csv_files:
    try:
        df = pd.read_csv(file)
        dfs.append(df)
    except pd.errors.EmptyDataError:
        print(f"चेतावनी: खाली फ़ाइल छोड़ रहा हूँ: {file}")
    except pd.errors.ParserError:
        print(f"चेतावनी: पार्सिंग त्रुटियों वाली फ़ाइल छोड़ रहा हूँ: {file}")

print(f"पढ़े गए डेटाफ्रेम की संख्या: {len(dfs)}")

यह कोड निर्दिष्ट निर्देशिका में सभी CSV फ़ाइलें ढूँढता है, प्रत्येक को एक डेटाफ्रेम में पढ़ता है, और इसे एक सूची में जोड़ देता है। try-except ब्लॉक खाली फ़ाइलों या पार्सिंग त्रुटियों जैसी संभावित त्रुटियों को संभालता है, स्क्रिप्ट को क्रैश होने से रोकता है।

4. डेटाफ्रेम को जोड़ना

अंत में, हम अलग-अलग डेटाफ्रेम को मिलाते हैं:


combined_df = pd.concat(dfs, ignore_index=True)
print(combined_df.head())
combined_df.to_csv('combined_data.csv', index=False) #वैकल्पिक: एक नए CSV में सहेजें

pd.concat(dfs, ignore_index=True) dfs सूची में सभी डेटाफ्रेम को जोड़ता है। ignore_index=True एक स्वच्छ, निरंतर अनुक्रमणिका के लिए अनुक्रमणिका को रीसेट करता है। वैकल्पिक to_csv() परिणाम को सहेजता है।

5. संभावित त्रुटियों को संभालना

मजबूत स्क्रिप्ट मुद्दों का अनुमान लगाती हैं। कई फ़ाइल पढ़ने वाले अनुभाग में दिखाए गए अनुसार, त्रुटि हैंडलिंग जोड़ना महत्वपूर्ण है। निर्देशिका के अस्तित्व के लिए जांच जोड़ने और विभिन्न प्रकार की फ़ाइल पढ़ने की त्रुटियों (जैसे, गलत सीमांकक, गुम कॉलम) को संभालने पर विचार करें। यह सुनिश्चित करता है कि आपकी स्क्रिप्ट अधिक विश्वसनीय है और अप्रत्याशित विफलताओं से कम प्रवण है।

विषयवस्तु की तालिका

1. पंडास क्या है?

2. एकल CSV फ़ाइल पढ़ना

3. कई CSV फ़ाइलें पढ़ना

4. डेटाफ्रेम को जोड़ना

5. संभावित त्रुटियों को संभालना

Related posts:

प्रातिक्रिया दे जवाब रद्द करें