Pandas डेटा हेरफेर और विश्लेषण के लिए एक शक्तिशाली Python लाइब्रेरी है। एक सामान्य कार्य DataFrame कॉलम से अद्वितीय मानों को निकालना और फिर उन्हें क्रमबद्ध करना शामिल है। यह लेख इसे पूरा करने के दो कुशल तरीकों का पता लगाता है।
विषय-सूची
unique()
विधि के साथ अद्वितीय मान निकालनाdrop_duplicates()
विधि के साथ अद्वितीय मान निकालना- अद्वितीय मानों को क्रमबद्ध करना
unique()
विधि के साथ अद्वितीय मान निकालना
unique()
विधि Pandas सीरीज़ (एकल कॉलम) से अद्वितीय मान प्राप्त करने का एक संक्षिप्त तरीका प्रदान करती है। यह केवल अद्वितीय तत्वों वाले एक NumPy सरणी को वापस करती है, उनके मूल क्रम को संरक्षित करती है।
import pandas as pd
data = {'col1': ['A', 'B', 'A', 'C', 'B', 'D'],
'col2': [1, 2, 1, 3, 2, 4]}
df = pd.DataFrame(data)
unique_values = df['col1'].unique()
print(unique_values) # आउटपुट: ['A' 'B' 'C' 'D']
यह कोड एक नमूना DataFrame बनाता है और फिर ‘col1’ कॉलम पर unique()
का उपयोग करता है। आउटपुट एक NumPy सरणी है जो उनके पहले दिखाई देने वाले क्रम में अद्वितीय मान दिखाती है।
drop_duplicates()
विधि के साथ अद्वितीय मान निकालना
drop_duplicates()
विधि अधिक लचीलापन प्रदान करती है, खासकर जब कई कॉलम से निपटते हैं। जबकि मुख्य रूप से डुप्लीकेट पंक्तियों को हटाने के लिए उपयोग किया जाता है, यह एकल कॉलम से अद्वितीय मानों को कुशलतापूर्वक निकाल सकता है।
import pandas as pd
data = {'col1': ['A', 'B', 'A', 'C', 'B', 'D'],
'col2': [1, 2, 1, 3, 2, 4]}
df = pd.DataFrame(data)
unique_values = df['col1'].drop_duplicates().values
print(unique_values) # आउटपुट: ['A' 'B' 'C' 'D']
यह उदाहरण सीधे ‘col1’ सीरीज़ पर drop_duplicates()
लागू करता है। .values
विशेषता परिणाम को NumPy सरणी में बदल देती है। अद्वितीय मानों का क्रम DataFrame में उनके पहले प्रकटन को दर्शाता है।
अद्वितीय मानों को क्रमबद्ध करना
ऊपर दी गई दोनों विधियाँ अद्वितीय मान लौटाती हैं, लेकिन जरूरी नहीं कि क्रमबद्ध क्रम में हों। क्रमबद्ध करने के लिए, NumPy के sort()
फ़ंक्शन या Pandas के sort_values()
विधि का उपयोग करें।
import pandas as pd
import numpy as np
data = {'col1': ['A', 'B', 'A', 'C', 'B', 'D'],
'col2': [1, 2, 1, 3, 2, 4]}
df = pd.DataFrame(data)
# unique() और sort() का उपयोग करना
unique_values = np.sort(df['col1'].unique())
print(unique_values) # आउटपुट: ['A' 'B' 'C' 'D']
# drop_duplicates() और sort_values() का उपयोग करना
unique_values = df['col1'].drop_duplicates().sort_values().values
print(unique_values) # आउटपुट: ['A' 'B' 'C' 'D']
यह दोनों दृष्टिकोणों का उपयोग करके क्रमबद्ध करना दिखाता है। np.sort()
unique()
से NumPy सरणी पर काम करता है, जबकि sort_values()
drop_duplicates()
से Pandas सीरीज़ पर उपयोग किया जाता है। दोनों एक क्रमबद्ध सरणी देते हैं। sort_values()
के साथ अवरोही क्रम के लिए, ascending=False
का उपयोग करें।
संक्षेप में, unique()
और drop_duplicates()
दोनों कुशलतापूर्वक अद्वितीय मान निकालते हैं। इष्टतम विकल्प आपकी विशिष्ट आवश्यकताओं पर निर्भर करता है और आप एकल या कई कॉलम के साथ काम कर रहे हैं या नहीं। अपने इच्छित क्रम के लिए उपयुक्त विधि का उपयोग करके परिणामों को क्रमबद्ध करना याद रखें।