Data Science

पांडास में डेटा प्रकार रूपांतरण में महारथ

Spread the love

पांडा डेटा हेरफेर और विश्लेषण के लिए एक शक्तिशाली पायथन लाइब्रेरी है। कुशल डेटा प्रोसेसिंग के लिए डेटा प्रकार प्रबंधन महत्वपूर्ण है। यह लेख आपके पांडा डेटाफ्रेम में कॉलम डेटा प्रकारों को प्रभावी ढंग से बदलने के विभिन्न तरीकों का पता लगाता है।

विषय-सूची

1. pd.to_numeric() के साथ संख्यात्मक प्रकारों में परिवर्तित करना

pd.to_numeric() फ़ंक्शन कॉलम को संख्यात्मक डेटा प्रकारों (int, float) में बदलने के लिए आदर्श है। यह उन कॉलम से निपटने में विशेष रूप से उपयोगी है जिनमें संख्याओं के स्ट्रिंग निरूपण होते हैं, जो अक्सर डेटा आयात करते समय सामने आते हैं।


import pandas as pd

data = {'col1': ['1', '2', '3', '4', '5'], 'col2': ['A', 'B', 'C', 'D', 'E']}
df = pd.DataFrame(data)

df['col1'] = pd.to_numeric(df['col1'])
print(df.dtypes)

errors पैरामीटर प्रबंधित करता है कि त्रुटियों को कैसे संभाला जाता है:

  • 'coerce': अमान्य मान NaN बन जाते हैं।
  • 'raise': अमान्य मानों के लिए एक अपवाद उठाता है।
  • 'ignore': अमान्य मानों को अनदेखा करता है।

data = {'col1': ['1', '2', 'a', '4', '5']}
df = pd.DataFrame(data)
df['col1'] = pd.to_numeric(df['col1'], errors='coerce')
print(df)

2. astype() के साथ लचीला प्रकार रूपांतरण

astype() विधि डेटा प्रकारों को बदलने के लिए एक सामान्य दृष्टिकोण प्रदान करती है। आप वस्तुतः किसी भी समर्थित प्रकार (int, float, str, bool, datetime, आदि) में परिवर्तित कर सकते हैं।


data = {'col1': [1, 2, 3, 4, 5], 'col2': [True, False, True, False, True]}
df = pd.DataFrame(data)

df['col1'] = df['col1'].astype(str)
df['col2'] = df['col2'].astype(int)
print(df.dtypes)

सावधानी: प्रकार रूपांतरण से डेटा हानि हो सकती है (जैसे, float को int में परिवर्तित करते समय दशमलव काटना)।

3. infer_objects() के साथ बुद्धिमान प्रकार अनुमान

“ऑब्जेक्ट” कॉलम में मिश्रित डेटा प्रकार वाले डेटाफ्रेम के लिए infer_objects() विधि उपयोगी है। यह प्रत्येक कॉलम के लिए सबसे उपयुक्त प्रकार का अनुमान लगाने का प्रयास करता है।


data = {'col1': ['1', 2, '3.14', 4], 'col2': ['A', 'B', 'C', 'D']}
df = pd.DataFrame(data)
df = df.infer_objects()
print(df.dtypes)

नोट: असंगत डेटा सफल प्रकार अनुमान को रोक सकता है।

4. डेटा प्रकार रूपांतरण के लिए सर्वोत्तम अभ्यास

परिवर्तनों को सत्यापित करने और अप्रत्याशित परिणामों से बचने के लिए हमेशा रूपांतरण से पहले और बाद में अपने डेटा का निरीक्षण करें। डेटा प्रकारों और लापता मानों की जांच करने के लिए .info() विधि का उपयोग करने पर विचार करें। pd.to_numeric() में errors पैरामीटर का उपयोग करके या समस्याग्रस्त मानों को हटाने या बदलने के लिए अपने डेटा को पूर्व-संसाधित करके संभावित त्रुटियों को सुचारू रूप से संभालें।

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *