Data Science

सूचियों से Pandas DataFrames का कुशलतापूर्वक निर्माण

Spread the love

पांडा डेटा हेरफेर और विश्लेषण के लिए एक शक्तिशाली पायथन लाइब्रेरी है। इसके मूल में DataFrame है, जो एक बहुमुखी द्वि-आयामी लेबल वाली डेटा संरचना है। अक्सर, आपको मौजूदा डेटा से DataFrames बनाने की आवश्यकता होगी, और सूचियाँ एक सामान्य और सुविधाजनक शुरुआती बिंदु प्रदान करती हैं। यह लेख विभिन्न सूची संरचनाओं से पांडा DataFrames के निर्माण के लिए कई कुशल विधियों का पता लगाता है।

विषयवस्तु की तालिका

विधि 1: एक साधारण सूची से

सबसे सरल तरीका DataFrame बनाने के लिए एकल सूची का उपयोग करता है। यह एकल कॉलम का प्रतिनिधित्व करने वाले डेटा के लिए आदर्श है।


import pandas as pd

data = [10, 20, 30, 40, 50]
df = pd.DataFrame(data, columns=['Values'])
print(df)

यह एक कॉलम, ‘Values’, के साथ एक DataFrame बनाता है, जो data सूची के तत्वों द्वारा आबाद है।

विधि 2: सूचियों की सूची से

बहु-स्तंभ DataFrames के लिए, सूचियों की सूची अधिक बहुमुखी है। प्रत्येक आंतरिक सूची एक पंक्ति का प्रतिनिधित्व करती है।


import pandas as pd

data = [[1, 'Alice', 25], [2, 'Bob', 30], [3, 'Charlie', 28]]
df = pd.DataFrame(data, columns=['ID', 'Name', 'Age'])
print(df)

बाहरी सूची पंक्तियों को रखती है, और columns कॉलम नाम निर्दिष्ट करता है। सुनिश्चित करें कि प्रत्येक आंतरिक सूची की लंबाई कॉलम की संख्या के समान है।

विधि 3: शब्दकोशों की सूची से

यह विधि बेहतर पठनीयता और लचीलापन प्रदान करती है, खासकर नामित कॉलम के साथ। प्रत्येक शब्दकोश एक पंक्ति का प्रतिनिधित्व करता है, जिसमें कुंजी कॉलम नाम के रूप में होती है।


import pandas as pd

data = [{'ID': 1, 'Name': 'Alice', 'Age': 25},
        {'ID': 2, 'Name': 'Bob', 'Age': 30},
        {'ID': 3, 'Name': 'Charlie', 'Age': 28}]
df = pd.DataFrame(data)
print(df)

कॉलम नाम स्वचालित रूप से शब्दकोश कुंजियों से अनुमानित होते हैं। यह आम तौर पर स्पष्टता के लिए पसंद किया जाता है, खासकर बड़े डेटासेट के साथ।

विधि 4: NumPy सरणियों का उपयोग करना

संख्यात्मक डेटा के लिए, NumPy सरणियाँ प्रदर्शन लाभ प्रदान करती हैं।


import pandas as pd
import numpy as np

data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
print(df)

NumPy का कुशल भंडारण DataFrame निर्माण गति में सुधार करता है, खासकर व्यापक संख्यात्मक डेटा के साथ।

निष्कर्ष

सूचियों से पांडा DataFrames बनाना एक लचीला और कुशल कार्यप्रवाह प्रदान करता है। सबसे अच्छा तरीका आपके डेटा संरचना और प्रदर्शन आवश्यकताओं पर निर्भर करता है। शब्दकोशों की सूचियाँ अक्सर पठनीयता और उपयोग में आसानी का सबसे अच्छा संतुलन प्रदान करती हैं, जबकि बड़े संख्यात्मक डेटासेट के साथ प्रदर्शन अनुकूलन के लिए NumPy सरणियाँ आदर्श हैं।

अक्सर पूछे जाने वाले प्रश्न (FAQ)

  • प्रश्न: क्या होगा यदि आंतरिक सूचियों की लंबाई अलग-अलग हो? उत्तर: पांडा एक ValueError उठाएगा। सभी आंतरिक सूचियों में सुसंगत लंबाई बनाए रखें।
  • प्रश्न: क्या मैं एकल पंक्ति के साथ एक DataFrame बना सकता हूँ? उत्तर: हाँ, एकल सूची, एक आंतरिक सूची वाली सूची, या एक शब्दकोश वाली सूची के साथ किसी भी विधि का उपयोग करें।
  • प्रश्न: पांडा मिश्रित डेटा प्रकारों को कैसे संभालता है? उत्तर: पांडा प्रत्येक कॉलम के लिए सबसे उपयुक्त डेटा प्रकार का अनुमान लगाता है।
  • प्रश्न: मैं लापता डेटा का प्रतिनिधित्व कैसे करूँ? उत्तर: लापता मानों का प्रतिनिधित्व करने के लिए np.nan (नंबर नहीं) का उपयोग करें।

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *