آنالیز ترافیک سایت با استفاده از خوشهها در علم داده
عوامل متعددی وجود دارد که بر میزان ترافیک یک سایت و فعالیت کاربران آن تاثیر میگذارد. در این مقاله مروری درباره مبحث خوشهبندی1 خواهیم داشت که یکی از تکنیکهای مفید برای ارزیابی ترافیک سایت2 میباشد.
خوشه بندی چیست؟
اگر بخواهیم که از دید تخصصی توضیح دهیم، باید بگوییم که خوشه بندی یک روش یادگیری ماشین3 است که موضوعات را از هم تفکیک میکند و موارد مشابه را در یک مجموعه قرار میدهد.
خوشهبندی میتواند به صورت نظارت شده4 و یا بدون نظارت5 انجام شود. خوشهبندی نظارت شده مانند مرتبسازی سکههای سالم است که فقط کار جداسازی آنها براساس واحد پول انجام میگیرد؛ در این نوع خوشه بندی از قبل میدانیم که دقیقاً چه خوشههایی وجود دارد. اما در عمل، بیشتر سکهها، کثیف یا آسیب دیده هستند و نمیتوان واحد پولی را فوراً مشخص کرد؛ به همین دلیل به یادگیری ماشین نیاز خواهیم داشت.
در خوشهبندی بدون نظارت، آیتمها به طور خودکار و براساس میزان تشابه دستهبندی میشوند. به طور معمول تعداد خوشههای مورد انتظار در انتهای اجرای عملیات را بایستی مشخص کنیم و این احتمال را هم به یاد داشته باشیم که بعضی از خوشهها ممکن است که معنا و کارایی مشخصی نداشته باشند (به عنوان نمونه، خروجی الگوریتم ممکن است به این شکل باشد: “سلام، من یک خوشه برای سکههای پوشیده از گل آلود هستم!”).
ما از خوشهبندی بدون نظارت استفاده میکنیم تا اطلاعاتی درباره موضوع فعالیت یک سایت بدست آوریم و ارتباط آن را با ترافیک سایت بررسی کنیم.
کشف الگوهای استفاده از اینترنت به کمک دستهبندی سایت
با استفاده از پنل اطلاعاتی هر سایت، یک درک کلی نسبت به ترافیک آن بدست میآید ولی برای ارزیابی تعداد کل کاربران اینترنت، به بررسی انبوهی از دادهها، داده تمام سایتهای فعال، نیاز خواهیم داشت. با شناخت بهتر الگوهای استفاده از اینترنت، میتوانیم اطلاعات مربوط به هر سایتی را سریعتر بدست آوریم. با طبقهبندی موضوع فعالیت سایتها، کاربرد هر سایتی سریعا مشخص میشود؛ اجازه دهید که ماجرا را با یک موضوع خوشبینانه توضیح دهم:
دستهبندی سایتها میتواند به ما بگوید که تعداد سایتهای فعال در حوزه علم داده ده برابر بیشتر از تعداد سایتهایی است که در مورد اسباب بازیهای بینی بیبیز (Beanie Babies) کار میکنند. هر آنچه که گفته شد، بدین معنی است که اگر تعداد سایتهای فعال با مضمون علوم داده6، با تعداد سایتهای دیده شده در حوزه اسباب بازیها برابر باشد، نمیتوان گفت که هنوز هم طرفداران زیادی هستند که به علم داده بها میدهند.
ممکن است که طبقهبندی سایتها کار آسانی به نظر برسد (البته که این کار برای یک سایت آسان است)، اما وقتی که بخواهیم تمامی سایتهای آنلاین را بررسی کنیم کار دشواری در پیش خواهد بود.
این نکته را نیز به یاد داشته باشید که تا زمانی که سایتها دستهبندی نشوند، نه خروجی مشخصی داریم و نه فرد خبرهای که این کار را کرده باشد.
نکات مهم در دستهبندی سایتها
در این قسمت به چند نکته مهم اشاره خواهیم کرد که باعث میشوند تا کار دستهبندی سایتها دشوارتر شود.
نکته اول این است که تعداد موضوعات برای فعالیت سایتها گسترده است و محدود به چند شاخه انگشت شمار نمیشود. به یاد داشته باشید که هر کلمه موجود در فرهنگ لغت میتواند معرف یک موضوع باشد، اما تعریف زیرشاخهها و موضوعات جزئی، کار دستهبندی سایتها را سختتر میکند (برای مثال، دستهبندی سایت براساس موضوع “ورزش” آسانتر از موضوعی همچون “مسابقات جهانی بالانس در زیر آب است که سال 1917 برگزار شد”). یکی از راههای غلبه بر سختی این کار، استفاده از خوشه بندی است تا با استفاده از یادگیری ماشین، کار دسته بندی سایتها راحتتر انجام شود؛ برای مثال، خوشه بدست آمده در حیطه مباحث ورزشی شامل عناوینی چون ورزشهای بیسبال، فوتبال، فوتبال آمریکایی، بالانس در زیر آب و هر ورزش دیگری که به سیستم یاد داده شود، خواهد بود.
با دقت بیشتر به مثالی که عنوان شد، متوجه نکته دوم خواهید شد: مشکلی که در مثال به چشم میخورد این است که یک سایت میتواند در چندین حیطه موضوع فعالیت کند که ارتباط معناداری نیز با هم نداشته باشند. چنانچه که مروری بر سایتهای Espn.com و Sportsauthority.com داشته باشیم، متوجه یک تضاد مشخص خواهیم شد؛ هر دو سایت در حیطه ورزش نیز فعالیت میکنند، با این تفاوت که یکی از آنها یک سایت خبری است (شامل انواع موضوعات دیگر) و دیگری یک سایت فروشگاه آنلاین است. چالشی که با آن سروکار داریم این است که باید اجازه دهیم که یک سایت در خوشههای متعددی حضور داشته باشد؛ برای مثال بگوییم که سایت Sportsauthority.com از یک طرف یک سایت فروشگاه است و از طرف دیگر بایستی در خوشه ورزشی نیز لحاظ شود.
شناسایی خوشهها
اجازه دهید که به موضوع شناسایی خوشهها بازگردیم و در مورد این کار صحبت کنیم. ذکر این نکته خالی از لطف نیست که علاقهای به آشنایی با نحوه گروهبندی سایتها (براساس محتوایشان) نداریم؛ دسترسی به دستهبندی سایتهایی اهمیت دارد که الگوهای ترافیکی مشابهی دارند و اطلاعات مفیدی را درمورد آنها در اختیارمان میگذارند.
اجازه دهید تا به صورت تصادفی یک سایت را انتخاب کنیم، سایتی که هیچ چیز در مورد آن نمیدانیم، مثلاً سایت Foobar.com گزینه مناسبی است. طبق اطلاعات قابل مشاهده در پنل، تعداد بازدیدهای سایتهای Foo.com و Bar.com از طرف افرادی که به سایت Foobar.com مراجعه کردهاند، بیشتر از تعداد افرادی است که هرگز به سایت Foobar.com مراجعه نکردهاند.
این اطلاعات دو نکته مهم را نشان میدهد:
1) سایتهای Foobar.com ،Foo.com و Bar.com در زمینه مشابهی فعالیت میکنند.
2) این سایتها به احتمال قوی دارای ترافیک بالا و البته تا حدودی مشابه هستند.
نکته دوم مهم است، اگر این امکان محاسبه ترافیک واقعی سایت Foobar.com وجود داشت، محاسبه میزان تقریبی ترافیک مربوط به سایتهای Foo.com و Bar.com نیز امکانپذیر میشد. همین مسئله در مورد شناسایی پیوندهای مشترک در این سایتها نیز صادق است (کاری که گوگل از سالیان پیش آن را انجام میدهد).
برای رسیدن به نتیجه مطلوب، خوشههای زیادی را با بکارگیری منابع داده ایجاد میکنیم و به کمک یادگیری ماشین، خوشههای ایجاد شده را بررسی میکنیم تا موارد مفید را شناسایی کنیم؛ خوشهها فقط یک زیر مجموعه از ویژگیها هستند (یک روش دیگر یادگیری ماشین که محبوب است، استفاده از Spreadsheet برای متغیرها، ویژگیها و ستونهای داده است) که به ما در ارزیابی معیارهای مختلف ترافیکی کمک میکنند. نحوه استفاده از این ویژگیها (Features) و چگونگی انتخاب آنها توسط الگوریتم نیز موضوع جالبی است که میتوان به طور جداگانه در مورد آن صحبت کرد.
در مجموع، استفاده از خوشههای موضوعی برای درک الگوهای بکار گرفته شده در سایتها مفید خواهد بود و کمک میکنند تا با استفاده از آنها مشخص کنیم که آیا مراجعات کاربران به یک سایت مداوم و به شکل روزانه است یا برای مثال یک بار در ماه از محتوای آن دیدن میکنند. این خوشهها علاوه بر بررسی رفتار کاربران، موضوع فعالیت سایتها مانند “ورزش” یا “اخبار فناوری” را نیز در نظر میگیرند. در مطالب آتی سعی خواهیم کرد تا مرور بیشتری درباره چگونگی ایجاد خوشهها و سایر ویژگیهای یک سایت داشته باشیم.
تا مقاله بعدی، پیشنهاد میکنیم که مطالعهای در حیطه علوم داده داشته باشید و بیشتر با اهمیت این علم آشنا شوید.
1: Clustering
2: Site Traffic
3: Machine Learning
4: Supervised
5: Unsupervised
6: Data Science