Saturday, July 12, 2008

आंकडों की समस्या और ब्लॉगजगत का गणित (बातें गणित की भाग... VI)

पिछले पोस्ट पर आई दो टिपण्णीयाँ:

अनूप शुक्ल: अच्छा गणितीय उपयोग है। निष्कर्ष के लिये गणित सहयोगी है लेकिन ये आंकड़े जुटाना अपने में कठिन काम है।
masijeevi: रोचक काम करते रहे हैं आप।
कुछ और ब्‍यौरे रहते तो और अच्‍छा होता- ब्लॉगवाणी जैसी झलकियॉं हो गईं इस बात से हम भी सहमत हैं।
कुछ और मॉडलों पर विचार करें- कैसे तय हो कि आज की सबसे अच्‍छी पोस्‍ट किसकी होगी... कौन सी पोस्‍टें पढी जाएंगी किन पर टिप्‍पणी मिलेंगी और ऐसी कितनी होंगी जिनपर टिप्‍पणी तो मिलेंगी लेकिन पढ़ी नहीं जाएंगी... मतलब ब्‍लॉगजगत का गणित :))


अनूप जी ने बिल्कुल सही बात कही है, हमें तो आंकड़े दे दिए गए थे, लेकिन अगर ऐसे निष्कर्षों तक पहुचने में कुछ सबसे ज्यादा दिक्कत काम है तो वो है आंकडा इकठ्ठा करना. अपने देश में और मुश्किल, अपने देश में मुश्किल इसलिए की चीज़ें थोडी अव्यवस्थित हैं... या यूँ कहें की एकाउंटएबिलिटी नहीं है हर चीज़ की.अब देखिये जैसे पिछली पोस्ट में बनिए की दूकान से डिटर्जेंट का आंकडा इकठ्ठा किया गया था कनाडा में. उसमे किस परिवार ने क्या खरीदा?, महीने के किस तारीख को खरीदा?, उस घर में कितने लोग है? कितनी आय है? इस प्रकार से खूब आंकड़े थे. इन्हें इकठ्ठा करना वहां आसान था, हर ग्राहक को एक स्मार्ट कार्ड बाँट दिया गया और फिर काम आसान हो गया. वैसे ही अगर किस राज्य में कितनी गाडियां बिकी... किसी एक साल में ये जानना हो तो अपने देश में हर आरटीओ जाकर हर वर्ग में रजिस्टर हुई गाड़ियों की संख्या पता करो या फिर हर तरह के गाड़ी निर्माताओं से संपर्क करो. ये जानकारी हासिल करना उन देशों में आसान हो जाता है जहाँ सबकुछ कम्प्यूटर की सहायता से होता है. ये भी एक कारण है की रिसर्च पेपर उन देशों के आंकडों से ज्यादा छपते है और अपने यहाँ पूरी तरह से प्रभावी नहीं होते. अभी तक सांख्यिकी पर कुछ लिखा ही नहीं गया इस श्रृंखला में. तो आंकडो की समस्या की चर्चा उस पोस्ट के लिए छोड़ देते हैं।


आंकडों की समस्या बात उठ ही गई है तो आपको बताता चलूँ की वित्त और इनवेस्टमेंट बैंकिंग का एक मिनट भी आंकडों के बिना काम नहीं चल सकता. माइकल ब्लूमबर्ग सोलोमन ब्रदर्स नामक इनवेस्टमेंट बैंक में काम करते थे १९६६ से १९८१ तक. १५ वर्षों के अनुभव के बाद उन्हें आंकडों की समस्या हल करने की सूझी और उन्होंने १९८१ में ब्लूमबर्ग नाम की कंपनी खोली जिसका मुख्य काम हर तरह के आंकड़े और सुचना देना था. आज शायद ही कोई वित्तीय कम्पनी हो जो ब्लूमबर्ग के उत्पादों का इस्तेमाल ना करती हो. माइकल ब्लूमबर्ग अब दुनिया के सबसे अमीर आदमियों में से एक हैं फोर्ब्स के अनुसार उनकी संपत्ति ११.५ अरब अमेरिकी डालर के बराबर है.
अभी न्यूयार्क शहर के मेयर हैं और दानी होने तथा मात्र १ डालर वार्षिक आय लेने के कारण जाने जाते हैं. ९/११ की घटना के बाद अपनी कर्मठता के लिए भी जाने जाते है, अमेरिकी चुनाव में राष्ट्रपति पड़ के उमीद्वार होने की भी अटकलें लगाई गई. तो आंकड़े कमाल कर सकते हैं, आपको कहाँ से कहाँ पंहुचा सकते हैं ये तो आपने देख ही लिया. ब्लूमबर्ग तथा रॉयटर्स का एक तरह से वित्तीय आंकडों के बाजार में एकाधिकार है. (चित्र में: माइकल ब्लूमबर्ग और एक ब्लूमबर्ग टर्मिनल)
चित्र साभार: विकिपीडिया और http://blogs.pcworld.co.nz/pcworld/ck-live/bloomberg.jpg

अब बात ब्लॉग जगत के गणित की, मसीजीवीजी के सारे सवालों के उत्तर बहुत आसान है, बस कमी है तो आंकडों की. आप आंकड़े ले आइये हम जवाब देते हैं :-) वैसे आंकडें न भी मिलें तो थियोरी तो दी ही जा सकती है तो चलिए कुछ साधारण बातों की चर्चा कर लेते हैं. यह मानते हुए की आंकड़े उपलब्ध है. वैसे इस प्रकार का काम खूब होता है आजकल. जैसे मान लीजिये रेडिफ.कॉम खोला आपने. हर एक विजीट और क्लिक की अनाल्य्सिस की जाती है. इस बात की भी अनाल्य्सिस की जाती है कौन से ऐडवटाइज्मेन्ट ज्यादा क्लिक होते हैं? और कैसी हेडलाइनें ज्यादा पढ़ी जाती है. अब रेडिफ.कॉम की घर की खेती है... सारे आंकड़े होते हैं उनके पास हमें आंकडें मिलेंगे कहाँ से?

इन सब में डाटा माइनिंग,पैटर्न मैचिंग और सांख्यिकी का खूब इस्तेमाल होता है. मेरे कई दोस्त इस तरह के काम भी करते हैं.

अब मान लीजिये की सारा आंकडा उपलब्ध है तो उसमें ट्रेंड निकालना बड़ी बात नहीं होती. और उससे कई तरह की जानकारी निकाली जा सकती है. और फिर जरुरत के हिसाब से मॉडल में सुधार भी किया जा सकता है. कुछ प्राथमिक जानकारी तो ऐसे ही मिल जायेगी जैसे:
- कितने प्रतिशत पोस्ट ऐसे हैं जिन पर टिपण्णी है.
- हर पोस्ट पर औसत कितनी टिपण्णी आती है (इसके साथ ही माध्यिका(median) और बहुलक(mode) भी निकाला जा सकता है).
- औसत अंतराल जिन पर टिपण्णी आती है किसी ब्लॉग पर.
- टिपण्णी की लम्बाई (उसका औसत, मध्यिका, मानक विचलन(standard deviation) इत्यादि)

अब वितरण भी निकाला जा सकता है... मेरे हिसाब से अगर टिपण्णीयों की संख्या का वितरण (distribution) निकाला जाय तो कुछ इस तरह का आना चाहिए. यहाँ एक्स-अक्सिस पर टिपण्णीयों की संख्या तथा वाय-अक्सिस पर ब्लोगों की संख्या है. इसे लम्बी पुँछ का वितरण (Long tail distribution) भी कहा जाता है.बात साफ़ है ज्यादा टिपण्णी वाले ब्लोगों की संख्या कम है और कम या फिर बिना टिपण्णी वाले ब्लॉग की संख्या ज्यादा. अगर टिपण्णी की लम्बाई ले तो भी ऐसा ही वितरण आना चाहिए यानी किसी ब्लॉग पर लम्बी टिपण्णी वाले पोस्ट कम और छोटी टिपण्णी वाले पोस्ट ज्यादा होंगे. (यहाँ एक्स-अक्सिस पर टिपण्णी की लम्बाई और वाय-अक्सिस पर पोस्ट की संख्या).अगर एक बार वितरण का अनुमान हो गया तो फिर कई सूत्र हैं जानकारी निकालने के लिए. अब इसमें कुछ आउटलायर भी होंगे, जैसे मान लीजिये किसी ने टिपण्णी करना ही डिसेबल कर दिया हो. या फिर ऐसे जिन्हें खूब टिपण्णी मिलती हो. वैसे बिना आंकडों के भी ऐसे आउटलायरों को तो हम जानते ही हैं :-)

अब आगे बढ़ते हैं अगले सवालों की तरफ़ अगर हम ब्लॉग पर आने वालों की संख्या तथा टिपण्णी की संख्यां के बीच सहसंबंध (correlation) निकाल लें तो ये भी बड़े काम की जानकारी होगी, इससे ये पता चलेगा की किसी ब्लॉग पर आने वाले लोग टिपण्णी करते हैं या नहीं (हिट्स बढ़ा लेने की लिए ब्लॉग पर कीवर्ड या विवादित शब्द डाले जा सकते हैं, पर इससे टिपण्णी की संख्या नहीं बढाई जा सकती !) अब इसमे भी वितरण निकालने पर आउटलायर निकाले जा सकते हैं, वैसे जिनपर लोग आते तो हैं पर टिपण्णी नहीं करते (इसका कारण मोडरेशन भी हो सकता है). और ऐसे भी जिन पर लोग तो कम आते हैं पर उस हिसाब से टिपण्णी ज्यादा ऐसा हिन्दी ब्लोग्स में अक्सर देखने को मिलता हैं जहाँ लोग एक मित्र मंडली की तरह ब्लॉग पढ़ते हैं और जो भी आता है एक टिपण्णी चटका जाता है. तो लोकप्रियता का बेहतर मापदंड केवल टिपण्णी या केवल ब्लॉग विजीट न होकर उनके बीच का सहसंबंध भी हो सकता है. अब ऐसा भी होता है की किसी एक ब्लॉग में कुछ पोस्ट ओउलायर होते हैं... इनको अलग करके इनमे पैटर्न निकाला जा सकता है. पैटर्न निकालने में एक उदहारण देना चाहूँगा मान लीजिये की हम देखते हैं की किसी ब्लॉग पर आई कुल टिपण्णीयों में कितने 'साधुवाद', फिर 'सहमत हूँ आपसे', 'धन्यवाद इस पोस्ट के लिए', 'रोचक जानकारी' जैसे हैं. इनकी संख्या तथा अन्य टिपण्णीयों की लम्बाई पर मॉडल बनाए जा सकते हैं. इसके अलावा इस बात की भी जांच की जा सकती है की कितने बजे छपने वाले पोस्ट पर कितनी टिपण्णी आती है. (इसके लिए एक ही ब्लॉग के पोस्ट के छपने का समय और आई टिपण्णीयों का सम्बन्ध भी मिल सकता है) बहुत तरह का गणित लगाया जा सकता है, जरुरत है तो सिर्फ़ आंकडों की !
आगे जिस सवाल की चर्चा होनी है वो गणित के एक हलके सवाल से शुरू हुआ और गणित का सबसे कठिन सवाल बन गया, इतना आसन की छठी कक्षा के छात्र को समझ में आ जाय और इतना कठिन की ४०० सालों तक कोई गणितज्ञ ना हल कर पाया. इतिहास के सबसे बड़े-बड़े गणितज्ञों ने हाथ आजमाया... क्या हुआ जानते हैं जल्दी ही.. !


~Abhishek Ojha~

9 comments:

  1. इन आँकड़ों के जाल से कभी कभी खूबसूरत और कभी कभी बहुत बदसूरत जानकारियाँ निकलती हैं। हमारी समस्या यह है कि हम आंकड़ों की कल्पना करते हैं और आभासी सत्यों की रचना कर डालते हैं। उन्हीं में कलपते रह जाते हैं। गणित तो गणित है। वह गणित कर देगी। आंकड़े सत्य होंगे तो निष्कर्ष भी उस के करीब।
    अच्छी जानकारियाँ हैं। कल बेटी एक नियोजन का फार्म भरते हुए बता रही थी कि विवाहितों से शादी का प्रमाण पत्र मांगा जा रहा है। मैं ने कहा इस लिए ताकि भरने वाला तो रजिस्ट्रेशन करा ले। कहने लगी उस का काम आसान हो जाएगा। आंकड़े कुछ अधिक विश्वसनीय मिलने लगेंगे।

    ReplyDelete
  2. आंकड़ों और विश्लेषण की तो भरमार है - स्टैटकाउण्टर, फीडबर्नर, गूगल एनेलेक्टिक्स विविध प्रकार के विश्लेषण निकालते जाते हैं।
    पर अभिषेक, स्तरीय और नियमित लेखन से ये सब आंकड़े चमक जाते हैं।:)
    बढ़िया पोस्ट गूगल रीडर में स्टारमार्क कर रहा हूं।

    ReplyDelete
  3. अभिषेक,
    बेहतरीन पोस्ट । इस प्रकार का शोधकार्य हिन्दी ब्लाग जगत में हो तो मजा आ जाये ।
    अगली पोस्ट का इन्तजार रहेगा और ४०० साल पुराने सवाल का भी ।

    ReplyDelete
  4. गणित से शुरुआती बैर है . पर उसका एक कारण यह भी हो सकता है कि मुझे गणित में रुचि जगाने वाले अच्छे अध्यापक न मिले हों .

    अभिषेक की पोस्ट से यह जाहिर है कि गणित का अध्ययन या कम से कम मानविकी के हित में उसका अनुप्रयोग कितना रोचक हो सकता है . मानव के व्यवहार-प्रतिमानों के सही-सही आंकड़े, उनके विश्लेषण तथा प्रतिरूपण (मॉडलिंग) द्वारा गणित हमें सही निर्णय तक पहुंचने में बहुत मदद कर सकती है .

    बेहतरीन लेख .

    ReplyDelete
  5. गणित कभी अच्छा नही लगा मुझे :) पर यहाँ यूँ पढ़ना रोचक लगा .यह बात और है कि इस को भी समझने के लिए मैंने इसको दो बार पढ़ा :) आप मुझे मेरे बचपन में गणित पढाते तो गणित यूँ होव्वा नही लगता :)

    ReplyDelete
  6. 'साधुवाद' वाली टिप्पणी को वेटेड एवरेज निकालने में कुछ तो वेट दो-ऐसे ही शून्य कर दोगे को देयता में तो हमारी गणना भी टिप्पणी न करने वालों में हो जायेगी.

    बहुत अच्छा आँकलन है. इस पोस्ट के लिए 'साधुवाद'. :)

    ReplyDelete
  7. यह गणित कही भी पीछ नही छोडता यार, बचते बचाते यहां आये तो यहां भी गणित, बहुत अच्छा कथन लगा आप का धन्यवाद

    ReplyDelete
  8. गणित हर पल कितना खुबसुरत होता है, रोचक पोस्ट।

    ReplyDelete
  9. वाह अपने तो पहले से ही एक दिशा दे रखी है -काश इसे पहले पढ़ा होता !

    ReplyDelete