अनूप शुक्ल: अच्छा गणितीय उपयोग है। निष्कर्ष के लिये गणित सहयोगी है लेकिन ये आंकड़े जुटाना अपने में कठिन काम है।
masijeevi: रोचक काम करते रहे हैं आप।
कुछ और ब्यौरे रहते तो और अच्छा होता- ब्लॉगवाणी जैसी झलकियॉं हो गईं इस बात से हम भी सहमत हैं।
कुछ और मॉडलों पर विचार करें- कैसे तय हो कि आज की सबसे अच्छी पोस्ट किसकी होगी... कौन सी पोस्टें पढी जाएंगी किन पर टिप्पणी मिलेंगी और ऐसी कितनी होंगी जिनपर टिप्पणी तो मिलेंगी लेकिन पढ़ी नहीं जाएंगी... मतलब ब्लॉगजगत का गणित :))
अनूप जी ने बिल्कुल सही बात कही है, हमें तो आंकड़े दे दिए गए थे, लेकिन अगर ऐसे निष्कर्षों तक पहुचने में कुछ सबसे ज्यादा दिक्कत काम है तो वो है आंकडा इकठ्ठा करना. अपने देश में और मुश्किल, अपने देश में मुश्किल इसलिए की चीज़ें थोडी अव्यवस्थित हैं... या यूँ कहें की एकाउंटएबिलिटी नहीं है हर चीज़ की.अब देखिये जैसे पिछली पोस्ट में बनिए की दूकान से डिटर्जेंट का आंकडा इकठ्ठा किया गया था कनाडा में. उसमे किस परिवार ने क्या खरीदा?, महीने के किस तारीख को खरीदा?, उस घर में कितने लोग है? कितनी आय है? इस प्रकार से खूब आंकड़े थे. इन्हें इकठ्ठा करना वहां आसान था, हर ग्राहक को एक स्मार्ट कार्ड बाँट दिया गया और फिर काम आसान हो गया. वैसे ही अगर किस राज्य में कितनी गाडियां बिकी... किसी एक साल में ये जानना हो तो अपने देश में हर आरटीओ जाकर हर वर्ग में रजिस्टर हुई गाड़ियों की संख्या पता करो या फिर हर तरह के गाड़ी निर्माताओं से संपर्क करो. ये जानकारी हासिल करना उन देशों में आसान हो जाता है जहाँ सबकुछ कम्प्यूटर की सहायता से होता है. ये भी एक कारण है की रिसर्च पेपर उन देशों के आंकडों से ज्यादा छपते है और अपने यहाँ पूरी तरह से प्रभावी नहीं होते. अभी तक सांख्यिकी पर कुछ लिखा ही नहीं गया इस श्रृंखला में. तो आंकडो की समस्या की चर्चा उस पोस्ट के लिए छोड़ देते हैं।
अब बात ब्लॉग जगत के गणित की, मसीजीवीजी के सारे सवालों के उत्तर बहुत आसान है, बस कमी है तो आंकडों की. आप आंकड़े ले आइये हम जवाब देते हैं :-) वैसे आंकडें न भी मिलें तो थियोरी तो दी ही जा सकती है तो चलिए कुछ साधारण बातों की चर्चा कर लेते हैं. यह मानते हुए की आंकड़े उपलब्ध है. वैसे इस प्रकार का काम खूब होता है आजकल. जैसे मान लीजिये रेडिफ.कॉम खोला आपने. हर एक विजीट और क्लिक की अनाल्य्सिस की जाती है. इस बात की भी अनाल्य्सिस की जाती है कौन से ऐडवटाइज्मेन्ट ज्यादा क्लिक होते हैं? और कैसी हेडलाइनें ज्यादा पढ़ी जाती है. अब रेडिफ.कॉम की घर की खेती है... सारे आंकड़े होते हैं उनके पास हमें आंकडें मिलेंगे कहाँ से?
इन सब में डाटा माइनिंग,पैटर्न मैचिंग और सांख्यिकी का खूब इस्तेमाल होता है. मेरे कई दोस्त इस तरह के काम भी करते हैं.
अब मान लीजिये की सारा आंकडा उपलब्ध है तो उसमें ट्रेंड निकालना बड़ी बात नहीं होती. और उससे कई तरह की जानकारी निकाली जा सकती है. और फिर जरुरत के हिसाब से मॉडल में सुधार भी किया जा सकता है. कुछ प्राथमिक जानकारी तो ऐसे ही मिल जायेगी जैसे:
- कितने प्रतिशत पोस्ट ऐसे हैं जिन पर टिपण्णी है.
- हर पोस्ट पर औसत कितनी टिपण्णी आती है (इसके साथ ही माध्यिका(median) और बहुलक(mode) भी निकाला जा सकता है).
- औसत अंतराल जिन पर टिपण्णी आती है किसी ब्लॉग पर.
- टिपण्णी की लम्बाई (उसका औसत, मध्यिका, मानक विचलन(standard deviation) इत्यादि)
अब वितरण भी निकाला जा सकता है... मेरे हिसाब से अगर टिपण्णीयों की संख्या का वितरण (distribution) निकाला जाय तो कुछ इस तरह का आना चाहिए. यहाँ एक्स-अक्सिस पर टिपण्णीयों की संख्या तथा वाय-अक्सिस पर ब्लोगों की संख्या है. इसे लम्बी पुँछ का वितरण (Long tail distribution) भी कहा जाता है.बात साफ़ है ज्यादा टिपण्णी वाले ब्लोगों की संख्या कम है और कम या फिर बिना टिपण्णी वाले ब्लॉग की संख्या ज्यादा. अगर टिपण्णी की लम्बाई ले तो भी ऐसा ही वितरण आना चाहिए यानी किसी ब्लॉग पर लम्बी टिपण्णी वाले पोस्ट कम और छोटी टिपण्णी वाले पोस्ट ज्यादा होंगे. (यहाँ एक्स-अक्सिस पर टिपण्णी की लम्बाई और वाय-अक्सिस पर पोस्ट की संख्या).अगर एक बार वितरण का अनुमान हो गया तो फिर कई सूत्र हैं जानकारी निकालने के लिए. अब इसमें कुछ आउटलायर भी होंगे, जैसे मान लीजिये किसी ने टिपण्णी करना ही डिसेबल कर दिया हो. या फिर ऐसे जिन्हें खूब टिपण्णी मिलती हो. वैसे बिना आंकडों के भी ऐसे आउटलायरों को तो हम जानते ही हैं :-)
अब आगे बढ़ते हैं अगले सवालों की तरफ़ अगर हम ब्लॉग पर आने वालों की संख्या तथा टिपण्णी की संख्यां के बीच सहसंबंध (correlation) निकाल लें तो ये भी बड़े काम की जानकारी होगी, इससे ये पता चलेगा की किसी ब्लॉग पर आने वाले लोग टिपण्णी करते हैं या नहीं (हिट्स बढ़ा लेने की लिए ब्लॉग पर कीवर्ड या विवादित शब्द डाले जा सकते हैं, पर इससे टिपण्णी की संख्या नहीं बढाई जा सकती !) अब इसमे भी वितरण निकालने पर आउटलायर निकाले जा सकते हैं, वैसे जिनपर लोग आते तो हैं पर टिपण्णी नहीं करते (इसका कारण मोडरेशन भी हो सकता है). और ऐसे भी जिन पर लोग तो कम आते हैं पर उस हिसाब से टिपण्णी ज्यादा ऐसा हिन्दी ब्लोग्स में अक्सर देखने को मिलता हैं जहाँ लोग एक मित्र मंडली की तरह ब्लॉग पढ़ते हैं और जो भी आता है एक टिपण्णी चटका जाता है. तो लोकप्रियता का बेहतर मापदंड केवल टिपण्णी या केवल ब्लॉग विजीट न होकर उनके बीच का सहसंबंध भी हो सकता है. अब ऐसा भी होता है की किसी एक ब्लॉग में कुछ पोस्ट ओउलायर होते हैं... इनको अलग करके इनमे पैटर्न निकाला जा सकता है. पैटर्न निकालने में एक उदहारण देना चाहूँगा मान लीजिये की हम देखते हैं की किसी ब्लॉग पर आई कुल टिपण्णीयों में कितने 'साधुवाद', फिर 'सहमत हूँ आपसे', 'धन्यवाद इस पोस्ट के लिए', 'रोचक जानकारी' जैसे हैं. इनकी संख्या तथा अन्य टिपण्णीयों की लम्बाई पर मॉडल बनाए जा सकते हैं. इसके अलावा इस बात की भी जांच की जा सकती है की कितने बजे छपने वाले पोस्ट पर कितनी टिपण्णी आती है. (इसके लिए एक ही ब्लॉग के पोस्ट के छपने का समय और आई टिपण्णीयों का सम्बन्ध भी मिल सकता है) बहुत तरह का गणित लगाया जा सकता है, जरुरत है तो सिर्फ़ आंकडों की !
आगे जिस सवाल की चर्चा होनी है वो गणित के एक हलके सवाल से शुरू हुआ और गणित का सबसे कठिन सवाल बन गया, इतना आसन की छठी कक्षा के छात्र को समझ में आ जाय और इतना कठिन की ४०० सालों तक कोई गणितज्ञ ना हल कर पाया. इतिहास के सबसे बड़े-बड़े गणितज्ञों ने हाथ आजमाया... क्या हुआ जानते हैं जल्दी ही.. !
~Abhishek Ojha~
इन आँकड़ों के जाल से कभी कभी खूबसूरत और कभी कभी बहुत बदसूरत जानकारियाँ निकलती हैं। हमारी समस्या यह है कि हम आंकड़ों की कल्पना करते हैं और आभासी सत्यों की रचना कर डालते हैं। उन्हीं में कलपते रह जाते हैं। गणित तो गणित है। वह गणित कर देगी। आंकड़े सत्य होंगे तो निष्कर्ष भी उस के करीब।
ReplyDeleteअच्छी जानकारियाँ हैं। कल बेटी एक नियोजन का फार्म भरते हुए बता रही थी कि विवाहितों से शादी का प्रमाण पत्र मांगा जा रहा है। मैं ने कहा इस लिए ताकि भरने वाला तो रजिस्ट्रेशन करा ले। कहने लगी उस का काम आसान हो जाएगा। आंकड़े कुछ अधिक विश्वसनीय मिलने लगेंगे।
आंकड़ों और विश्लेषण की तो भरमार है - स्टैटकाउण्टर, फीडबर्नर, गूगल एनेलेक्टिक्स विविध प्रकार के विश्लेषण निकालते जाते हैं।
ReplyDeleteपर अभिषेक, स्तरीय और नियमित लेखन से ये सब आंकड़े चमक जाते हैं।:)
बढ़िया पोस्ट गूगल रीडर में स्टारमार्क कर रहा हूं।
अभिषेक,
ReplyDeleteबेहतरीन पोस्ट । इस प्रकार का शोधकार्य हिन्दी ब्लाग जगत में हो तो मजा आ जाये ।
अगली पोस्ट का इन्तजार रहेगा और ४०० साल पुराने सवाल का भी ।
गणित से शुरुआती बैर है . पर उसका एक कारण यह भी हो सकता है कि मुझे गणित में रुचि जगाने वाले अच्छे अध्यापक न मिले हों .
ReplyDeleteअभिषेक की पोस्ट से यह जाहिर है कि गणित का अध्ययन या कम से कम मानविकी के हित में उसका अनुप्रयोग कितना रोचक हो सकता है . मानव के व्यवहार-प्रतिमानों के सही-सही आंकड़े, उनके विश्लेषण तथा प्रतिरूपण (मॉडलिंग) द्वारा गणित हमें सही निर्णय तक पहुंचने में बहुत मदद कर सकती है .
बेहतरीन लेख .
गणित कभी अच्छा नही लगा मुझे :) पर यहाँ यूँ पढ़ना रोचक लगा .यह बात और है कि इस को भी समझने के लिए मैंने इसको दो बार पढ़ा :) आप मुझे मेरे बचपन में गणित पढाते तो गणित यूँ होव्वा नही लगता :)
ReplyDelete'साधुवाद' वाली टिप्पणी को वेटेड एवरेज निकालने में कुछ तो वेट दो-ऐसे ही शून्य कर दोगे को देयता में तो हमारी गणना भी टिप्पणी न करने वालों में हो जायेगी.
ReplyDeleteबहुत अच्छा आँकलन है. इस पोस्ट के लिए 'साधुवाद'. :)
यह गणित कही भी पीछ नही छोडता यार, बचते बचाते यहां आये तो यहां भी गणित, बहुत अच्छा कथन लगा आप का धन्यवाद
ReplyDeleteगणित हर पल कितना खुबसुरत होता है, रोचक पोस्ट।
ReplyDeleteवाह अपने तो पहले से ही एक दिशा दे रखी है -काश इसे पहले पढ़ा होता !
ReplyDelete