برخی آمارهای جالب از توییتر

متن زیر را در این وبلاگ دیدم .نویسنده متخصص آمار می باشد و دستی هم بر کد داشته .

تعطیلات آخر این هفته پروفایل های یک میلیون کاربر را به صورت رندم از توییتر گرفتم، این تعداد به این علت بود که من حساب کردم مقدار آنها برای پاسخ  دهی برخی سوالات جالب در باره توییتر کافی هست .در اینجا آنچه من انجام دادم هست ، به همراه برخی نتیجه گیری ها .

همان طور که احتمالا می دانید ، به هر کاربر توییتر یک شناسه عددی اختصاص داده شده است .این شناسه ها از عددهای بسیار کم شروع شده و همواره در حال افزایش هستند . بزرگترین شناسه کاربری هنگامی که من شروع به آزمایش ها  کردم حدود 637 میلیون بود (با سعی و خطا پیدا شد ). من حساب کردم بدلیل حذف کلان  اکانت های اسپم  شکاف های زیادی در شناسه های کاربران وجود داشته باشد،و با یک نمونه سریع تخمین زدم که شکاف ها حدود 20 درصد باشند . بنابراین  1.25 میلیون شناسه کاربری یکتا در محدوده 0-637 میلیون تولید کردم ، و سعی کردم که جزئیات پروفایل آنها را واکشی کنم .

رابط برنامه نویسی توییتر  اجازه درخواست  100 پروفایل کاربری با یک فراخوانی را می دهد،بنابر این این بدان معناست که من باید 12500 فرخوانی داشته باشم . توییتر تقاضاهای رابط برنامه نویسی از یک آدرس IP را به 150 بار در ساعت محدود کرده است (در عمل گاهی کمتر).برای واکشی تمام دیتا در طول تعطیلات آخر هفته  مجبور به استفاده از چند آدرس بودم (نکته ای که به دست آمد: بعضی از حامل های تلفن همراه IP شما را هر بار که به حالت هواپیما برید و برگردید تغییر می دهند ).

بعد از واکشی 12,500 دسته 1,039,556 پروفایل توییتر داشتم. این بدان معناست که باید حدود 530 میلیون حساب توییتر وجود داشته باشد: 83% از 637 میلیون . البته ، این عدد آن چیزی که بسیار می گویند نیست. بیایید با جزئیات بیشتری  به این حسابها نگاه کنیم .

نمودار الزامی: ثبت نام ها در طول زمان (ژوئیه 2012 ناقص است، به دلایلی فقط حسابهای ایجاد شده قبل از 18 ام ژوئیه واکشی شده اند).

من دوره ابتدایی توییتر را از سمت چپ نمودار خارج کردم (سالهای 2006 و 2007) بدلیل ناچیز بودن در مقایسه با گسترش زیاد سال 2009 .

توییت دارها و توییت ندارها

تقریبا نیمی از حساب ها حداقل یک توییت داشتند . نیم دیگر ممکن است که لارکر باشند.یا اینکه همچون نام دامنه های خوبی که خالی باشند و سریع پارک می شوند هستند.با این حال تعداد حسابهایی که اصلا توییتی نداشتند به طرز شگرفی بالا می باشد. علاوه بر این، 16 درصد کل حسابها (بیش از 80 میلیون)هیچ فالور و دوست و توییتی ندارند.ای کاش توییتر این اکانتها را آزاد می کرد.

به طور میانگین هر کاربر توییتر 307 توییت داشته . تعداد کل توییت ها از ابتدا تا کنون   163 میلیارد توییت بوده است .

اگر فقط کاربران را که حداقل یک بار توییت داشته اند را در نظر بگیریم میانگین توییت های هر کاربر 520 توییت خواهد بود .

ویژگی های نمودار

توزیع فالوئرهای برای هر اکانت یکی از علائم اقتدار می باشد. حسابهای با بیشتری فالوئر ده ها میلیون فالوئر دارند . میانه حسابها 1 می باشد. میانگین فالوئرهای کاربران 51 می باشد. یعنی ما در توییتر 33 میلیارد ارتباط داریم.

فالوئرها و دوستان

برای همه حسابها :میانه فالوئر ها= 1 ،میانه دوستان = 5 (برای هر دو میانگین 51 می باشد).

برای 272 میلیون حسابی که حداقل یک توییت داشته اند: میانه فالوئر ها=4 و میانه دوستان = 15 (میانگین هر دو 85 می باشد).

برای 80 میلیون حسابی که در یک ماه گذشته توییت کرده اند (چیزی که من نام آن رو کاربر فعال می گذارم): میانه فالوئرها =31 ، میانه دوستان 72 ( با میانگین های 235 و 188 ).

نام های کاربری

در زمان های ابتدایی توییتر (یعنی سال 2007) میانگین طول نام کاربری 8 حرف بود. در نیمه سال 2008 به 9 افزایش یافت . و در سال 2010 به 10 رسید. میانگین فعلی 11 می باشد.

خب اعداد کافیه ، معنی آنها چیست؟

برای من ، بیشترین چیزی که اعداد می گویند این است که تعداد افرادی که حداقل در ماه یک بار توییت می کنند 80 میلیون نفر می باشد. اما هنوز کسر کوچکی از اینترنت را تشکیل می دهد.البته ،نخبگان جهان به نسبت جمعیتی معمولا در توییتر هستند ، توییتر بلندگوی رایگانی برای آنهاست. آنها همچنین برای بسیاری از تبلیغات اولین شنودگان می باشند.

  • http://mesbahsoft.com/saber صابر

    همه دارن از جوزی دات آی آر حرف میزنن. ولی تو نشستی هر چی وقت داشتی واسه ما مقاله ترجمه کردی؟ ما روزی بیست تا پست ازت میخواهیم حسین. اینو هیچوخ فراموش نکن.

  • http://mesbahsoft.com/saber صابر

    Here’s my dataset if you’d like to run some experiments of your own [update 7/31/2012 12 pm: dataset removed per Twitter’s request