किसी भी डेटा विश्लेषण कार्यप्रवाह में NaN (नॉट अ नंबर) मानों के रूप में प्रदर्शित लापता डेटा से निपटना एक महत्वपूर्ण कदम है। पांडा, डेटा हेरफेर के लिए एक शक्तिशाली पायथन लाइब्रेरी, डेटाफ्रेम के भीतर NaNs का पता लगाने और उन्हें संभालने के लिए कुशल तरीके प्रदान करता है। यह लेख दो प्राथमिक दृष्टिकोणों का पता लगाएगा: isnull()
और isna()
, व्यावहारिक उदाहरणों के साथ उनके उपयोग का प्रदर्शन करेगा।
विषयसूची
pandas.DataFrame.isnull()
विधिpandas.DataFrame.isna()
विधि- विशिष्ट स्तंभों में NaNs का पता लगाना
- NaN मानों को संभालना
pandas.DataFrame.isnull()
विधि
isnull()
विधि NaN मानों की पहचान करने के लिए एक मौलिक उपकरण है। यह एक पांडा डेटाफ्रेम पर संचालित होता है, जो समान आकार का एक बूलियन डेटाफ्रेम देता है। एक True
मान NaN की उपस्थिति को इंगित करता है, जबकि False
एक मान्य मान को इंगित करता है।
import pandas as pd
import numpy as np
# नमूना डेटाफ्रेम
data = {'A': [1, 2, np.nan, 4],
'B': [5, np.nan, 7, 8],
'C': [9, 10, 11, 12]}
df = pd.DataFrame(data)
# NaNs का पता लगाएँ
isnull_df = df.isnull()
print(isnull_df)
यह एक बूलियन डेटाफ्रेम आउटपुट करेगा जो NaN स्थानों को उजागर करता है।
संपूर्ण डेटाफ्रेम के भीतर किसी भी NaN के अस्तित्व की जांच करने के लिए, isnull()
को any()
विधि के साथ मिलाएँ:
has_nan = df.isnull().any().any()
print(f"क्या डेटाफ्रेम में कोई NaN मान है? {has_nan}")
pandas.DataFrame.isna()
विधि
isna()
विधि कार्यात्मक रूप से isnull()
के समान है। यह एक ही उद्देश्य को पूरा करता है – NaN मानों की पहचान करना और एक बूलियन डेटाफ्रेम लौटाना। दोनों के बीच चुनाव काफी हद तक व्यक्तिगत पसंद का मामला है; कई लोगों को isna()
अधिक पठनीय लगता है।
isna_df = df.isna()
print(isna_df)
विशिष्ट स्तंभों में NaNs का पता लगाना
अक्सर, आपको केवल विशिष्ट स्तंभों के भीतर NaNs की जांच करने की आवश्यकता होगी। यह किसी विशिष्ट कॉलम पर isnull()
या isna()
विधि को लागू करके प्राप्त किया जा सकता है:
has_nan_in_column_A = df['A'].isna().any()
print(f"क्या कॉलम 'A' में कोई NaN मान है? {has_nan_in_column_A}")
NaN मानों को संभालना
एक बार NaNs का पता चलने के बाद, उन्हें संभालने के लिए विभिन्न रणनीतियों को नियोजित किया जा सकता है। सामान्य दृष्टिकोणों में शामिल हैं:
- हटाना:
dropna()
का उपयोग करके NaNs युक्त पंक्तियों या स्तंभों को छोड़ना। - प्रतिस्थापन:
fillna()
का उपयोग करके NaNs को अनुमानित मानों (जैसे, माध्य, माध्यिका या एक स्थिरांक) से बदलना।
सर्वोत्तम दृष्टिकोण आपके डेटा की प्रकृति और विश्लेषण लक्ष्यों पर निर्भर करता है।
संक्षेप में, isnull()
और isna()
दोनों पांडा डेटाफ्रेम में लापता डेटा का प्रभावी ढंग से पता लगाने और प्रबंधित करने के लिए मूल्यवान उपकरण हैं। डेटा सफाई तकनीकों के साथ इन विधियों को मिलाने से आपके विश्लेषणों में डेटा की गुणवत्ता और सटीकता सुनिश्चित होती है।