آنالیز ترافیک سایت با استفاده از خوشه‌ها در علم داده

25

عوامل متعددی وجود دارد که بر میزان ترافیک یک سایت و فعالیت کاربران آن تاثیر می­‌گذارد. در این مقاله مروری درباره مبحث خوشه‌بندی1 خواهیم داشت که یکی از تکنیک­‌های مفید برای ارزیابی ترافیک سایت2 می‌­باشد.

 

خوشه‌ ­بندی چیست؟

اگر بخواهیم که از دید تخصصی توضیح دهیم، باید بگوییم که خوشه ­بندی یک روش یادگیری ماشین3 است که موضوعات را از هم تفکیک می‌­کند و موارد مشابه را در یک مجموعه قرار می‌­دهد.

خوشه‌بندی می­‌تواند به صورت نظارت شده4 و یا بدون نظارت5 انجام شود. خوشه‌­بندی نظارت شده مانند مرتب‌سازی سکه‌های سالم است که فقط کار جداسازی آن­‌ها براساس واحد پول انجام می‌­گیرد؛ در این نوع خوشه­ بندی از قبل می­‌دانیم که دقیقاً چه خوشه­‌هایی وجود دارد. اما در عمل، بیشتر سکه­‌ها، کثیف یا آسیب دیده هستند و نمی‌­توان واحد پولی را فوراً مشخص کرد؛ به همین دلیل به یادگیری ماشین نیاز خواهیم داشت.‌

در خوشه­‌بندی بدون نظارت، آیتم‌­ها به طور خودکار و براساس میزان تشابه دسته‌­بندی می­‌شوند. به طور معمول تعداد خوشه­‌های مورد انتظار در انتهای اجرای عملیات را بایستی مشخص کنیم و این احتمال را هم به یاد داشته باشیم که بعضی از خوشه­‌ها ممکن است که معنا و کارایی مشخصی نداشته باشند (به عنوان نمونه، خروجی الگوریتم ممکن است به این شکل باشد: “سلام، من یک خوشه برای سکه­‌های پوشیده از گل آلود هستم!”).

ما از خوشه­‌بندی بدون نظارت استفاده می­‌کنیم تا اطلاعاتی درباره موضوع فعالیت یک سایت بدست آوریم و ارتباط آن را با ترافیک سایت بررسی کنیم.

کشف الگوهای استفاده از اینترنت به کمک دسته­‌بندی سایت­

با استفاده از پنل اطلاعاتی هر سایت، یک درک کلی نسبت به ترافیک آن بدست می­‌آید ولی برای ارزیابی تعداد کل کاربران اینترنت، به بررسی انبوهی از داده­‌ها، داده تمام سایت‌­های فعال، نیاز خواهیم داشت. با شناخت بهتر الگوهای استفاده از اینترنت، می‌­توانیم اطلاعات مربوط به هر سایتی را سریع‌تر بدست آوریم. با طبقه‌­بندی موضوع فعالیت سایت­‌ها، کاربرد هر سایتی سریعا مشخص می‌­شود؛ اجازه دهید که ماجرا را با یک موضوع خوش‌بینانه توضیح دهم:

دسته‌­بندی سایت­‌ها می‌­تواند به ما بگوید که تعداد سایت‌­های فعال در حوزه علم داده ده برابر بیشتر از تعداد سایت‌­هایی است که در مورد اسباب بازی‌های بینی بیبیز (Beanie Babies) کار می­‌کنند. هر آنچه که گفته شد، بدین معنی است که اگر تعداد سایت‌­های فعال با مضمون علوم داده6، با تعداد سایت­‌های دیده شده در حوزه اسباب بازی‌­ها برابر باشد، نمی­‌توان گفت که هنوز هم طرفداران زیادی هستند که به علم داده بها می‌­دهند.

ممکن است که طبقه‌­بندی سایت‌­ها کار آسانی به نظر برسد (البته که این کار برای یک سایت آسان است)، اما وقتی که بخواهیم تمامی سایت­‌های آنلاین را بررسی کنیم کار دشواری در پیش خواهد بود.

این نکته را نیز به یاد داشته باشید که تا زمانی که سایت­‌ها دسته‌­بندی نشوند، نه خروجی مشخصی داریم و نه فرد خبره‌­ای که این کار را کرده باشد.

دریافت مشاوره رایگان سئو

نکات مهم در دسته‌بندی سایت‌ها

در این قسمت به چند نکته مهم اشاره خواهیم کرد که باعث می‌­شوند تا کار دسته­‌بندی سایت­‌ها دشوارتر شود.

نکته اول این است که تعداد موضوعات برای فعالیت سایت­‌ها گسترده است و محدود به چند شاخه انگشت شمار نمی‌­شود. به یاد داشته باشید که هر کلمه­ موجود در فرهنگ لغت می‌­تواند معرف یک موضوع باشد، اما تعریف زیرشاخه‌­ها و موضوعات جزئی، کار دسته­‌بندی سایت‌­ها را سخت‌تر می­‌کند (برای مثال، دسته‌­بندی سایت براساس موضوع “ورزش” آسان‌­تر از موضوعی همچون “مسابقات جهانی بالانس در زیر آب است که سال 1917 برگزار شد”). یکی از راه­‌های غلبه بر سختی این کار، استفاده از خوشه ­بندی است تا با استفاده از یادگیری ماشین، کار دسته­‌ بندی سایت‌­ها راحت­‌تر انجام شود؛ برای مثال، خوشه بدست آمده در حیطه مباحث ورزشی شامل عناوینی چون ورزش‌­های بیس‌بال، فوتبال، فوتبال آمریکایی، بالانس در زیر آب و هر ورزش دیگری که به سیستم یاد داده شود، خواهد بود.

با دقت بیشتر به مثالی که عنوان شد، متوجه نکته دوم خواهید شد: مشکلی که در مثال به چشم می­‌خورد این است که یک سایت می‌­تواند در چندین حیطه موضوع فعالیت کند که ارتباط معناداری نیز با هم نداشته باشند. چنانچه که مروری بر سایت­‌های Espn.com و Sportsauthority.com داشته باشیم، متوجه یک تضاد مشخص خواهیم شد؛ هر دو سایت در حیطه ورزش نیز فعالیت می­‌کنند، با این تفاوت که یکی از آن­‌ها یک سایت خبری است (شامل انواع موضوعات دیگر) و دیگری یک سایت فروشگاه آنلاین است. چالشی که با آن سروکار داریم این است که باید اجازه دهیم که یک سایت در خوشه­‌های متعددی حضور داشته باشد؛ برای مثال بگوییم که سایت Sportsauthority.com از یک طرف یک سایت فروشگاه است و از طرف دیگر بایستی در خوشه ورزشی نیز لحاظ شود.

علم داده در ترافیک سایتخوشه بندی در ترافیک سایت

شناسایی خوشه­‌ها

اجازه دهید که به موضوع شناسایی خوشه‌ها بازگردیم و در مورد این کار صحبت کنیم. ذکر این نکته خالی از لطف نیست که علاقه‌­ای به آشنایی با نحوه گروه‌­بندی سایت­‌ها (براساس محتوای­شان) نداریم؛ دسترسی به دسته­‌بندی سایت­‌هایی اهمیت دارد که الگوهای ترافیکی مشابهی دارند و اطلاعات مفیدی را درمورد آن­‌ها در اختیارمان می­‌گذارند.

اجازه دهید تا به صورت تصادفی یک سایت را انتخاب کنیم، سایتی که هیچ چیز در مورد آن نمی­‌دانیم، مثلاً سایت Foobar.com گزینه مناسبی است. طبق اطلاعات قابل مشاهده در پنل، تعداد بازدیدهای سایت‌­های Foo.com و Bar.com از طرف افرادی که به سایت Foobar.com مراجعه کرده‌­اند، بیشتر از تعداد افرادی است که هرگز به سایت Foobar.com مراجعه نکرده­‌اند.

این اطلاعات دو نکته مهم را نشان می­‌دهد:

1) سایت­‌های Foobar.com ،Foo.com و Bar.com در زمینه مشابهی فعالیت می­‌کنند.

 

2) این سایت­‌ها به احتمال قوی دارای ترافیک بالا و البته تا حدودی مشابه هستند.

نکته دوم مهم است، اگر این امکان محاسبه ترافیک واقعی سایت Foobar.com وجود داشت، محاسبه میزان تقریبی ترافیک مربوط به سایت­‌های Foo.com و Bar.com نیز امکان­‌پذیر می‌­شد. همین مسئله در مورد شناسایی پیوندهای مشترک در این سایت­‌ها نیز صادق است (کاری که گوگل از سالیان پیش آن را انجام می­‌دهد).

برای رسیدن به نتیجه مطلوب، خوشه‌­های زیادی را با بکارگیری منابع داده ایجاد می‌­کنیم و به کمک یادگیری ماشین، خوشه‌­های ایجاد شده را بررسی می­‌کنیم تا موارد مفید را شناسایی کنیم؛ خوشه‌­ها فقط یک زیر مجموعه از ویژگی­‌ها هستند (یک روش دیگر یادگیری ماشین که محبوب است، استفاده از Spreadsheet برای متغیرها، ویژگی­‌ها و ستون­‌های داده است) که به ما در ارزیابی معیارهای مختلف ترافیکی کمک می­‌کنند. نحوه استفاده از این ویژگی‌­ها (Features) و چگونگی انتخاب آن­‌ها توسط الگوریتم نیز موضوع جالبی است که می‌­توان به طور جداگانه در مورد آن صحبت کرد.

در مجموع، استفاده از خوشه­‌های موضوعی برای درک الگوهای بکار گرفته شده در سایت‌ها مفید خواهد بود و کمک می‌­کنند تا با استفاده از آن­‌ها مشخص کنیم که آیا مراجعات کاربران به یک سایت مداوم و به شکل روزانه است یا برای مثال یک بار در ماه از محتوای آن دیدن می­‌کنند. این خوشه‌­ها علاوه بر بررسی رفتار کاربران، موضوع فعالیت سایت‌­ها مانند “ورزش” یا “اخبار فناوری” را نیز در نظر می‌­گیرند. در مطالب آتی سعی خواهیم کرد تا مرور بیشتری درباره چگونگی ایجاد خوشه­‌ها و سایر ویژگی­‌های یک سایت داشته باشیم.

تا مقاله بعدی، پیشنهاد می­‌کنیم که مطالعه‌­ای در حیطه علوم داده داشته باشید و بیشتر با اهمیت این علم آشنا شوید.


1: Clustering
2: Site Traffic
3: Machine Learning
4: Supervised
5: Unsupervised
6: Data Science

منبع Alexa

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.