Data Science

पांडा का उपयोग करके कई CSV फाइलों का कुशलतापूर्वक आयात और संयोजन

Spread the love

यह ट्यूटोरियल दर्शाता है कि पाइथन में पंडास डेटाफ्रेम में कई CSV फाइलों को कुशलतापूर्वक कैसे आयात किया जाए। हम पंडास के मूल सिद्धांतों, एकल CSV फाइलों को पढ़ने, कई फाइलों को आयात करने और अंत में, उन्हें एक एकल, एकीकृत डेटाफ्रेम में जोड़ने को कवर करेंगे।

विषयवस्तु की तालिका

  1. पंडास क्या है?
  2. एकल CSV फ़ाइल पढ़ना
  3. कई CSV फ़ाइलें पढ़ना
  4. डेटाफ्रेम को जोड़ना
  5. संभावित त्रुटियों को संभालना

1. पंडास क्या है?

पंडास पाइथन के डेटा साइंस इकोसिस्टम में एक आधारशिला पुस्तकालय है। यह उच्च-प्रदर्शन, उपयोग में आसान डेटा संरचनाएँ और डेटा विश्लेषण उपकरण प्रदान करता है। कोर डेटा संरचना डेटाफ्रेम है, जो एक स्प्रेडशीट या SQL तालिका के समान एक द्वि-आयामी लेबल वाली डेटा संरचना है। पंडास CSV फ़ाइलों, एक्सेल स्प्रेडशीट और डेटाबेस सहित विभिन्न स्रोतों से संरचित डेटा के साथ काम करना सरल बनाता है।

2. एकल CSV फ़ाइल पढ़ना

कई फ़ाइलों से निपटने से पहले, आइए एकल CSV पढ़ें:


import pandas as pd

file_path = 'your_file.csv'  # अपनी फ़ाइल पथ से बदलें
df = pd.read_csv(file_path)
print(df.head())

यह पंडास आयात करता है, फ़ाइल पथ निर्दिष्ट करता है, pd.read_csv() का उपयोग करके CSV पढ़ता है, और df.head() का उपयोग करके पहली पाँच पंक्तियाँ प्रदर्शित करता है।

3. कई CSV फ़ाइलें पढ़ना

किसी निर्देशिका से कई CSV फ़ाइलें पढ़ने के लिए, हम glob मॉड्यूल का उपयोग करते हैं:


import pandas as pd
import glob

directory = 'path/to/your/csv/files/'  # अपनी निर्देशिका से बदलें
csv_files = glob.glob(directory + '*.csv')
dfs = []

for file in csv_files:
    try:
        df = pd.read_csv(file)
        dfs.append(df)
    except pd.errors.EmptyDataError:
        print(f"चेतावनी: खाली फ़ाइल छोड़ रहा हूँ: {file}")
    except pd.errors.ParserError:
        print(f"चेतावनी: पार्सिंग त्रुटियों वाली फ़ाइल छोड़ रहा हूँ: {file}")

print(f"पढ़े गए डेटाफ्रेम की संख्या: {len(dfs)}")

यह कोड निर्दिष्ट निर्देशिका में सभी CSV फ़ाइलें ढूँढता है, प्रत्येक को एक डेटाफ्रेम में पढ़ता है, और इसे एक सूची में जोड़ देता है। try-except ब्लॉक खाली फ़ाइलों या पार्सिंग त्रुटियों जैसी संभावित त्रुटियों को संभालता है, स्क्रिप्ट को क्रैश होने से रोकता है।

4. डेटाफ्रेम को जोड़ना

अंत में, हम अलग-अलग डेटाफ्रेम को मिलाते हैं:


combined_df = pd.concat(dfs, ignore_index=True)
print(combined_df.head())
combined_df.to_csv('combined_data.csv', index=False) #वैकल्पिक: एक नए CSV में सहेजें

pd.concat(dfs, ignore_index=True) dfs सूची में सभी डेटाफ्रेम को जोड़ता है। ignore_index=True एक स्वच्छ, निरंतर अनुक्रमणिका के लिए अनुक्रमणिका को रीसेट करता है। वैकल्पिक to_csv() परिणाम को सहेजता है।

5. संभावित त्रुटियों को संभालना

मजबूत स्क्रिप्ट मुद्दों का अनुमान लगाती हैं। कई फ़ाइल पढ़ने वाले अनुभाग में दिखाए गए अनुसार, त्रुटि हैंडलिंग जोड़ना महत्वपूर्ण है। निर्देशिका के अस्तित्व के लिए जांच जोड़ने और विभिन्न प्रकार की फ़ाइल पढ़ने की त्रुटियों (जैसे, गलत सीमांकक, गुम कॉलम) को संभालने पर विचार करें। यह सुनिश्चित करता है कि आपकी स्क्रिप्ट अधिक विश्वसनीय है और अप्रत्याशित विफलताओं से कम प्रवण है।

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *