Pandas Tutorials

Pandas DataFrames में अनोखे मानों का कुशलतापूर्वक निष्कर्षण और क्रमबद्धता

Spread the love

Pandas डेटा हेरफेर और विश्लेषण के लिए एक शक्तिशाली Python लाइब्रेरी है। एक सामान्य कार्य DataFrame कॉलम से अद्वितीय मानों को निकालना और फिर उन्हें क्रमबद्ध करना शामिल है। यह लेख इसे पूरा करने के दो कुशल तरीकों का पता लगाता है।

विषय-सूची

unique() विधि के साथ अद्वितीय मान निकालना

unique() विधि Pandas सीरीज़ (एकल कॉलम) से अद्वितीय मान प्राप्त करने का एक संक्षिप्त तरीका प्रदान करती है। यह केवल अद्वितीय तत्वों वाले एक NumPy सरणी को वापस करती है, उनके मूल क्रम को संरक्षित करती है।


import pandas as pd

data = {'col1': ['A', 'B', 'A', 'C', 'B', 'D'],
        'col2': [1, 2, 1, 3, 2, 4]}
df = pd.DataFrame(data)

unique_values = df['col1'].unique()
print(unique_values)  # आउटपुट: ['A' 'B' 'C' 'D']

यह कोड एक नमूना DataFrame बनाता है और फिर ‘col1’ कॉलम पर unique() का उपयोग करता है। आउटपुट एक NumPy सरणी है जो उनके पहले दिखाई देने वाले क्रम में अद्वितीय मान दिखाती है।

drop_duplicates() विधि के साथ अद्वितीय मान निकालना

drop_duplicates() विधि अधिक लचीलापन प्रदान करती है, खासकर जब कई कॉलम से निपटते हैं। जबकि मुख्य रूप से डुप्लीकेट पंक्तियों को हटाने के लिए उपयोग किया जाता है, यह एकल कॉलम से अद्वितीय मानों को कुशलतापूर्वक निकाल सकता है।


import pandas as pd

data = {'col1': ['A', 'B', 'A', 'C', 'B', 'D'],
        'col2': [1, 2, 1, 3, 2, 4]}
df = pd.DataFrame(data)

unique_values = df['col1'].drop_duplicates().values
print(unique_values)  # आउटपुट: ['A' 'B' 'C' 'D']

यह उदाहरण सीधे ‘col1’ सीरीज़ पर drop_duplicates() लागू करता है। .values विशेषता परिणाम को NumPy सरणी में बदल देती है। अद्वितीय मानों का क्रम DataFrame में उनके पहले प्रकटन को दर्शाता है।

अद्वितीय मानों को क्रमबद्ध करना

ऊपर दी गई दोनों विधियाँ अद्वितीय मान लौटाती हैं, लेकिन जरूरी नहीं कि क्रमबद्ध क्रम में हों। क्रमबद्ध करने के लिए, NumPy के sort() फ़ंक्शन या Pandas के sort_values() विधि का उपयोग करें।


import pandas as pd
import numpy as np

data = {'col1': ['A', 'B', 'A', 'C', 'B', 'D'],
        'col2': [1, 2, 1, 3, 2, 4]}
df = pd.DataFrame(data)

# unique() और sort() का उपयोग करना
unique_values = np.sort(df['col1'].unique())
print(unique_values)  # आउटपुट: ['A' 'B' 'C' 'D']

# drop_duplicates() और sort_values() का उपयोग करना
unique_values = df['col1'].drop_duplicates().sort_values().values
print(unique_values)  # आउटपुट: ['A' 'B' 'C' 'D']

यह दोनों दृष्टिकोणों का उपयोग करके क्रमबद्ध करना दिखाता है। np.sort() unique() से NumPy सरणी पर काम करता है, जबकि sort_values() drop_duplicates() से Pandas सीरीज़ पर उपयोग किया जाता है। दोनों एक क्रमबद्ध सरणी देते हैं। sort_values() के साथ अवरोही क्रम के लिए, ascending=False का उपयोग करें।

संक्षेप में, unique() और drop_duplicates() दोनों कुशलतापूर्वक अद्वितीय मान निकालते हैं। इष्टतम विकल्प आपकी विशिष्ट आवश्यकताओं पर निर्भर करता है और आप एकल या कई कॉलम के साथ काम कर रहे हैं या नहीं। अपने इच्छित क्रम के लिए उपयुक्त विधि का उपयोग करके परिणामों को क्रमबद्ध करना याद रखें।

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *