آنالیز ترافیک سایت با استفاده از خوشه‌ها در علم داده

نویسنده: تیم تحریریه منتشر شده در دوشنبه, 26 خرداد 1399

عوامل متعددی وجود دارد که بر میزان ترافیک یک سایت و فعالیت کاربران آن تاثیر می‌گذارد. در این مقاله مروری درباره مبحث خوشه‌بندی¹ خواهیم داشت که یکی از تکنیک‌های مفید برای ارزیابی ترافیک سایت² می‌باشد.

خوشه‌ بندی چیست؟

اگر بخواهیم که از دید تخصصی توضیح دهیم، باید بگوییم که خوشه بندی یک روش یادگیری ماشین³ است که موضوعات را از هم تفکیک می‌کند و موارد مشابه را در یک مجموعه قرار می‌دهد.

خوشه‌بندی می‌تواند به صورت نظارت شده⁴ و یا بدون نظارت⁵ انجام شود. خوشه‌بندی نظارت شده مانند مرتب‌سازی سکه‌های سالم است که فقط کار جداسازی آن‌ها براساس واحد پول انجام می‌گیرد؛ در این نوع خوشه بندی از قبل می‌دانیم که دقیقاً چه خوشه‌هایی وجود دارد. اما در عمل، بیشتر سکه‌ها، کثیف یا آسیب دیده هستند و نمی‌توان واحد پولی را فوراً مشخص کرد؛ به همین دلیل به یادگیری ماشین نیاز خواهیم داشت.‌

در خوشه‌بندی بدون نظارت، آیتم‌ها به طور خودکار و براساس میزان تشابه دسته‌بندی می‌شوند. به طور معمول تعداد خوشه‌های مورد انتظار در انتهای اجرای عملیات را بایستی مشخص کنیم و این احتمال را هم به یاد داشته باشیم که بعضی از خوشه‌ها ممکن است که معنا و کارایی مشخصی نداشته باشند (به عنوان نمونه، خروجی الگوریتم ممکن است به این شکل باشد: “سلام، من یک خوشه برای سکه‌های پوشیده از گل آلود هستم!”).

ما از خوشه‌بندی بدون نظارت استفاده می‌کنیم تا اطلاعاتی درباره موضوع فعالیت یک سایت بدست آوریم و ارتباط آن را با ترافیک سایت بررسی کنیم.

کشف الگوهای استفاده از اینترنت به کمک دسته‌بندی سایت

با استفاده از پنل اطلاعاتی هر سایت، یک درک کلی نسبت به ترافیک آن بدست می‌آید ولی برای ارزیابی تعداد کل کاربران اینترنت، به بررسی انبوهی از داده‌ها، داده تمام سایت‌های فعال، نیاز خواهیم داشت. با شناخت بهتر الگوهای استفاده از اینترنت، می‌توانیم اطلاعات مربوط به هر سایتی را سریع‌تر بدست آوریم. با طبقه‌بندی موضوع فعالیت سایت‌ها، کاربرد هر سایتی سریعا مشخص می‌شود؛ اجازه دهید که ماجرا را با یک موضوع خوش‌بینانه توضیح دهم:

مطالب مرتبط:

راهنمای جامع درآمد سئو در سال 1404: حقوق کارشناس سئو چقدر است؟ + مسیر…

پنالتی گوگل: راهنمای جامع 2025 (دلایل، انواع، رفع + جلوگیری)

دسته‌بندی سایت‌ها می‌تواند به ما بگوید که تعداد سایت‌های فعال در حوزه علم داده ده برابر بیشتر از تعداد سایت‌هایی است که در مورد اسباب بازی‌های بینی بیبیز (Beanie Babies) کار می‌کنند. هر آنچه که گفته شد، بدین معنی است که اگر تعداد سایت‌های فعال با مضمون علوم داده⁶، با تعداد سایت‌های دیده شده در حوزه اسباب بازی‌ها برابر باشد، نمی‌توان گفت که هنوز هم طرفداران زیادی هستند که به علم داده بها می‌دهند.

ممکن است که طبقه‌بندی سایت‌ها کار آسانی به نظر برسد (البته که این کار برای یک سایت آسان است)، اما وقتی که بخواهیم تمامی سایت‌های آنلاین را بررسی کنیم کار دشواری در پیش خواهد بود.

این نکته را نیز به یاد داشته باشید که تا زمانی که سایت‌ها دسته‌بندی نشوند، نه خروجی مشخصی داریم و نه فرد خبره‌ای که این کار را کرده باشد.

دریافت مشاوره رایگان سئو

نکات مهم در دسته‌بندی سایت‌ها

در این قسمت به چند نکته مهم اشاره خواهیم کرد که باعث می‌شوند تا کار دسته‌بندی سایت‌ها دشوارتر شود.

نکته اول این است که تعداد موضوعات برای فعالیت سایت‌ها گسترده است و محدود به چند شاخه انگشت شمار نمی‌شود. به یاد داشته باشید که هر کلمه موجود در فرهنگ لغت می‌تواند معرف یک موضوع باشد، اما تعریف زیرشاخه‌ها و موضوعات جزئی، کار دسته‌بندی سایت‌ها را سخت‌تر می‌کند (برای مثال، دسته‌بندی سایت براساس موضوع “ورزش” آسان‌تر از موضوعی همچون “مسابقات جهانی بالانس در زیر آب است که سال 1917 برگزار شد”). یکی از راه‌های غلبه بر سختی این کار، استفاده از خوشه بندی است تا با استفاده از یادگیری ماشین، کار دسته‌ بندی سایت‌ها راحت‌تر انجام شود؛ برای مثال، خوشه بدست آمده در حیطه مباحث ورزشی شامل عناوینی چون ورزش‌های بیس‌بال، فوتبال، فوتبال آمریکایی، بالانس در زیر آب و هر ورزش دیگری که به سیستم یاد داده شود، خواهد بود.

با دقت بیشتر به مثالی که عنوان شد، متوجه نکته دوم خواهید شد: مشکلی که در مثال به چشم می‌خورد این است که یک سایت می‌تواند در چندین حیطه موضوع فعالیت کند که ارتباط معناداری نیز با هم نداشته باشند. چنانچه که مروری بر سایت‌های Espn.com و Sportsauthority.com داشته باشیم، متوجه یک تضاد مشخص خواهیم شد؛ هر دو سایت در حیطه ورزش نیز فعالیت می‌کنند، با این تفاوت که یکی از آن‌ها یک سایت خبری است (شامل انواع موضوعات دیگر) و دیگری یک سایت فروشگاه آنلاین است. چالشی که با آن سروکار داریم این است که باید اجازه دهیم که یک سایت در خوشه‌های متعددی حضور داشته باشد؛ برای مثال بگوییم که سایت Sportsauthority.com از یک طرف یک سایت فروشگاه است و از طرف دیگر بایستی در خوشه ورزشی نیز لحاظ شود.

شناسایی خوشه‌ها

اجازه دهید که به موضوع شناسایی خوشه‌ها بازگردیم و در مورد این کار صحبت کنیم. ذکر این نکته خالی از لطف نیست که علاقه‌ای به آشنایی با نحوه گروه‌بندی سایت‌ها (براساس محتوایشان) نداریم؛ دسترسی به دسته‌بندی سایت‌هایی اهمیت دارد که الگوهای ترافیکی مشابهی دارند و اطلاعات مفیدی را درمورد آن‌ها در اختیارمان می‌گذارند.

اجازه دهید تا به صورت تصادفی یک سایت را انتخاب کنیم، سایتی که هیچ چیز در مورد آن نمی‌دانیم، مثلاً سایت Foobar.com گزینه مناسبی است. طبق اطلاعات قابل مشاهده در پنل، تعداد بازدیدهای سایت‌های Foo.com و Bar.com از طرف افرادی که به سایت Foobar.com مراجعه کرده‌اند، بیشتر از تعداد افرادی است که هرگز به سایت Foobar.com مراجعه نکرده‌اند.

این اطلاعات دو نکته مهم را نشان می‌دهد:

1) سایت‌های Foobar.com ،Foo.com و Bar.com در زمینه مشابهی فعالیت می‌کنند.

2) این سایت‌ها به احتمال قوی دارای ترافیک بالا و البته تا حدودی مشابه هستند.

نکته دوم مهم است، اگر این امکان محاسبه ترافیک واقعی سایت Foobar.com وجود داشت، محاسبه میزان تقریبی ترافیک مربوط به سایت‌های Foo.com و Bar.com نیز امکان‌پذیر می‌شد. همین مسئله در مورد شناسایی پیوندهای مشترک در این سایت‌ها نیز صادق است (کاری که گوگل از سالیان پیش آن را انجام می‌دهد).

برای رسیدن به نتیجه مطلوب، خوشه‌های زیادی را با بکارگیری منابع داده ایجاد می‌کنیم و به کمک یادگیری ماشین، خوشه‌های ایجاد شده را بررسی می‌کنیم تا موارد مفید را شناسایی کنیم؛ خوشه‌ها فقط یک زیر مجموعه از ویژگی‌ها هستند (یک روش دیگر یادگیری ماشین که محبوب است، استفاده از Spreadsheet برای متغیرها، ویژگی‌ها و ستون‌های داده است) که به ما در ارزیابی معیارهای مختلف ترافیکی کمک می‌کنند. نحوه استفاده از این ویژگی‌ها (Features) و چگونگی انتخاب آن‌ها توسط الگوریتم نیز موضوع جالبی است که می‌توان به طور جداگانه در مورد آن صحبت کرد.

در مجموع، استفاده از خوشه‌های موضوعی برای درک الگوهای بکار گرفته شده در سایت‌ها مفید خواهد بود و کمک می‌کنند تا با استفاده از آن‌ها مشخص کنیم که آیا مراجعات کاربران به یک سایت مداوم و به شکل روزانه است یا برای مثال یک بار در ماه از محتوای آن دیدن می‌کنند. این خوشه‌ها علاوه بر بررسی رفتار کاربران، موضوع فعالیت سایت‌ها مانند “ورزش” یا “اخبار فناوری” را نیز در نظر می‌گیرند. در مطالب آتی سعی خواهیم کرد تا مرور بیشتری درباره چگونگی ایجاد خوشه‌ها و سایر ویژگی‌های یک سایت داشته باشیم.

تا مقاله بعدی، پیشنهاد می‌کنیم که مطالعه‌ای در حیطه علوم داده داشته باشید و بیشتر با اهمیت این علم آشنا شوید.

1: Clustering
2: Site Traffic
3: Machine Learning
4: Supervised
5: Unsupervised
6: Data Science

امتیاز دهید

منبع Alexa

آنالیز ترافیک سایت با استفاده از خوشه‌ها در علم داده

خوشه‌ ­بندی چیست؟

کشف الگوهای استفاده از اینترنت به کمک دسته­‌بندی سایت­

نکات مهم در دسته‌بندی سایت‌ها

شناسایی خوشه­‌ها

این اطلاعات دو نکته مهم را نشان می­‌دهد:

خوشه‌ بندی چیست؟

کشف الگوهای استفاده از اینترنت به کمک دسته‌بندی سایت

شناسایی خوشه‌ها

این اطلاعات دو نکته مهم را نشان می‌دهد: