راهنمای اخطار گوگل وبمستر

15

راهنمای اخطار گوگل وبمستر: “خزش انجام شد – هنوز ایندکس نشده است1

گزارش‌­های گوگل برای پوشش دادن ایندکس‌­ها بسیار مفید است و به سئو درک بهتری از خزش2 و ایندکس3 کردن­‌های گوگل می­‌دهند.

در گزارش­‌ها پیغام‌­های مختلفی وجود دارد که به وبمسترها اطلاعاتی درباره چگونگی بررسی محتوای سایت شما توسط گوگل می­‌دهد. در حالی که بسیاری از پیغام‌­ها درباره تصمیمات ایندکس گوگل و خزش است، در این میان پیغام “خزش انجام شده – هنوز ایندکس نشده” همچنان ناشناخته مانده است.

بسیاری از صاحبان سایت درباره معنی پیغام “خزش انجام شده – هنوز ایندکس نشده ” سؤال می­‌کنند.

تعریف گوگل:

طبق مستندات رسمی گوگل، این پیغام به معنی “این صفحه توسط خزنده­‌های گوگل مورد بررسی قرار گرفته است، اما ایندکس نشده است (در نتایج جستجو ظاهر نشده است). ممکن است در آینده ایندکس بشود یا نه. دیگر نیازی به ارسال مجدد URL برای خزش نیست. “

پس آنچه اساساً می­‌دانیم این است که:

  1. گوگل به صفحه دسترسی دارد.
  2. برای خزش صفحه گوگل به زمان نیاز دارد.
  3. بعد از خزش، گوگل تصمیم گرفته تا صفحه را ایندکس نکند.

برای فهم بهتر این پیغام، دلایلی را در نظر بگیرید که بر اساس آن گوگل تصمیم می­‌گیرد صفحه را ایندکس نکند. در واقع می‌­دانیم که گوگل مشکل پیدا کردن صفحه را ندارد، اما احساس می‌­کند که کاربران از پیدا کردن این صفحه سودی نمی‌­برند.

ممکن است علت ایندکس نشدن محتوای خود را ندانید و ناامید شوید. اکنون با دلایل متداولی که تیم ما تاکنون مشاهده کرده است توضیح می‌­دهیم که این پیغام عجیب چگونه بر وب سایت شما تأثیر می­‌گذارد.

 

 

1. ایندکس نشده‌های کاذب

احتمال: کم

اولین قدم قرار دادن چندین URL آزمایشی در بخشی که پیغام­‌های دریافتی “خزش انجام شده – هنوز ایندکس نشده (“Crawled — Currently Not Indexed”‌) است که ایندکس شوند. عجیب نیست URL هایی را بیابید که از ایندکس خارج شده‌اند اما در نهایت مشخص می­‌شود که گوگل آن­‌ها را ایندکس کرده است.

برای مثال این URL در قسمت ریپورت وب سایت ما، پرچم گرفته است.  https://gofishdigital.com/meetup/

اما اگر از یک اپراتور جستجوی سایت استفاده کنیم، می­‌بینید که URL در ایندکس گوگل قرار دارد. اگر خواستید شما هم این کار را انجام دهید، قبل از URL ،”site:”را وارد کنید.

URL در ایندکس گوگل

اگر برای URL های شما پیغام “Crawled — Currently Not Indexed” ظاهر شد، از اپراتور جستجوی سایت استفاده کنید و چک کنید که آیا URL های شما ایندکس شده هستند یا نه. گاهی URLها فقط به نظر می­‌رسد که ایندکس نشده‌اند در حالی که در ایندکس گوگل قرار دارند.

راه حل: هیچ کاری نکنید! اوضاع URL شما خوب است.

 

2. RSS‌ها از URL‌ها تغذیه می‌کنند

احتمال: کم

یکی از متداول­‌ترین نمونه­‌ها زمانی است که سایت خود را به یک RSS تجهیز می­‌کنید که ممکن است گوگل برای برخی از URLهای شما پیغام “خزش انجام شد – هنوز ایندکس  نشده” را نمایش دهد. در بسیاری از مواقع رشته “/ feed/” به انتهای URL ها متصل است و در گزارش‌­ها اینگونه ظاهر می‌­شوند:

RSS‌ها از URL‌ها تغذیه می‌کنند

گوگل RSS‌هایی را پیدا می‌­کند که از URL‌های لینک شده به صفحات اول تغذیه می‌­کنند. آن‌ها غالباً به عنصر “rel = alternate” متصل می­‌شوند. افزونه­‌های وردپرس مانند: یوست4 می­‌تواند این URL ها را خودکار تولید کنند.

راه حل: کاری نکنید! اوضاع URL شما خوب است.

احتمالاً گوگل به صورت گزینشی و با دلیل تصمیم گرفته است که این URL ها را ایندکس نکند. اگر به سراغ RSS هایی که از URL ها تغذیه می‌­کنند بروید، یک سند XML مانند سند زیر مشاهده خواهید کرد:

سند XML برای خوراک­‌های RSS

اگرچه این سند XML برای خوراک­‌های RSS مفید است اما گوگل آن را ایندکس نمی­‌کند. از آنجایی که محتوای سندها برای کاربران تعبیه نشده است، تجربه ضعیفی را ایجاد می­‌کند.

 

3. URL‌های صفحه بندی شده

احتمال: کم

از دیگر دلایل رایج ظهور پیغام “Crawled – currently not indexed”  و ایندکس نشدن، صفحه بندی5 است. می‌بینیم که تعداد زیادی URL‌های صفحه بندی شده در ریپورت ظاهر می­‌شود. در اینجا تعدادی URL ایندکس نشده یک سایت فروشگاهی بسیار بزرگ را می‌بینیم:

URL‌های صفحه بندی شده

راه حل: هیچ کاری نکنید! اوضاع URL های شما خوب است.

گوگل برای یک خزش کامل در سایت باید در URL‌های صفحه بندی شده خزش کند. این کار راهی برای دست یابی به صفحات طبقه‌بندی شده عمیق‌تر6 و یا صفحات توصیفی محصول7 است. اگرچه گوگل از صفحه‌بندی به عنوان مسیری برای دسترسی به محتوا استفاده می­‌کند، لزوما URL های صفحه‌بندی شده را ایندکس نمی­‌کند.

در هر صورت هیچ کاری برای تأثیر بیشتر خزش در صفحه‌بندی­‌ها انجام ندهید. تمام صفحه‌بندی شما باید یک تگ Self-Referential Canonical داشته باشد و تگ “Nofollow” نداشته باشد. صفحه‌بندی­‌ها یک راه میانبر برای گوگل هستند تا بر صفحات اصلی دیگر سایت شما خزش کند و شما مطمئناً می­‌خواهید گوگل همچنان کارش را ادامه دهد.

 

4. محصولات منقضی شده

احتمال: متوسط

مشکل شایع مشتری­‌ها هنگام بررسی موارد گزارش شده، URLهایی است که متنی با محتوای “منقضی8” یا “ناموجود9” دارند. گوگل موجودی محصولات در سایت­‌های تجارت الکترونیکی و فروشگاهی را هم بررسی می‌کند و اگر تشخیص دهد محصولی ناموجود است، سعی می‌کند آن محصول را از ایندکس خارج کند.

این کار از نظر تجربه کاربری10 منطقی است زیرا گوگل نمی‌­خواهد محتوایی را که کاربران قادر به خرید آن نیستند، ارائه دهد.

با این حال اگر محصولات در سایت شما موجود باشند فرصت سئو11 را از دست می­‌دهید. با حذف صفحات شما از ایندکس، محتوای شما حتی فرصت رتبه بندی را نیز پیدا نمی­‌کند.

بعلاوه گوگل فقط محتوای قابل مشاهده در صفحه شما را بررسی نمی­‌کند. مواردی هم بوده است که هیچ علامتی از عدم موجودی محصول در محتوای قابل مشاهده پیدا نکردیم اما هنگام بررسی داده‌­های ساختاریافته مشخص شده است که ویژگی “Availability” بر “ناموجود” بودن تنظیم شده است.

محصولات منقضی شده

به نظر می‌­رسد که گوگل سرنخ‌های موجودیت کالا را هم از محتوای قابل مشاهده و هم از داده‌های ساخت یافته به طور هم زمان جمع‌آوری می­‌کند. پس محتوا و اسکیما12 سایت، هر دو اهمیت دارد.

راه حل: موجودی کالاهای خود را بررسی کنید.

اگر کالاهایی که موجود است را در لیست گزارش‌­ها دیدید، بررسی کنید که آیا تمام محصولات شما به اشتباه بر حالت “ناموجود” تنظیم شده اند یا نه. سپس یک خزش بر سایت خود انجام دهید و از ابزارهای جذب اطلاعات مانند Screaming Frog’s برای برداشت اطلاعات از صفحات محصول خود استفاده کنید.

برای مثال اگر می‌خواهید همه URL‌ها که اسکیما تنظیم شده بر “ناموجود” دارند مشاهده کنید، می­‌توانید “Regex” را روی: “موجود” تنظیم کنید.

این می­‌تواند همه URL‌ها با این خاصیت را جمع آوری کند:

همه URL‌ها که اسکیما تنظیم شده بر "ناموجود" دارند

شما می‌توانید با استفاده از اکسل یا ابزارهای هوشمند تجاری این لیست و ارجاع کالاهای موجودی را استخراخ کنید. این کار به شما این امکان را می‌دهد تا به سرعت تفاوت اطلاعات ساختار یافته و محصولات موجود را بیابید. همچنین می‌­توان همین روند را برای مواردی که موجود بودن محتوای قابل مشاهده شما را نشان می­‌دهد، تکرار کرد.

5. تغییر مسیر 301

احتمال: متوسط

مثال جالبی که در این پیغام می‌بینیم، سرنوشت URL‌های صفحاتی است که ریدایرکت13 شده‌اند و  تغییر مسیر یافته اند. اغلب میبینیم که گوگل در URL های مقصد خزش می‌کند اما آن‌ها را ایندکس نمی‌­کند. با نگاهی به صفحه نتایج جستجو14 می‌فهمیم که گوگل URL هایی که تغییر یافته‌اند را ایندکس کرده است. از آنجایی که URL هایی که تغییر یافته اند ایندکس می‌­شوند، URL های مقصد ریپورت شده و پیغام “Crawled — currently not  indexed” ظاهر می­‌شود.

تغییر مسیر 301

مسئله این است که احتمال دارد گوگل هنوز این تغییر مسیر را تشخیص نداده باشد و در نتیجه URL مقصد را یک ” URL تکراری” بداند چراکه هنوز URL تغییر مسیر یافته ایندکس نشده است.

راه حل: یک نقشه موقت سایت xml ایجاد کنید.

اگر این اتفاق برای تعداد زیادی از URL‌ها افتاد نشان می­‌دهد که گوگل به موقع تغییر مسیر URL‌های شما را تشخیص نمی­‌دهد و به دلیل محتوای دوگانه URL‌های شما را ریپورت می‌­کند پس باید برای گوگل سیگنال‌­های جداگانه و قوی‌تری را ارسال کنید.

استراتژی پیشنهادی جان مولر “نقشه سایت موقتی” است. می­‌توانید با ایجاد نقشه سایت موقت، بر URL‌های تغییر مسیر یافته خزش سریع‌تری اعمال کنید.

برای ایجاد نقشه موقت سایت باید به این صورت تغییر مسیرهایی که در گذشته ایجاد کرده‌اید را مهندسی معکوس کنید:

  1. همه URL‌ها از ریپورت” Crawled — currently not indexed “خارج کنید.
  2. آن‌ها را در اکسل با تغییر مسیرهایی که قبلاً انجام شده، مطابقت دهید.
  3. همه تغییر مسیرهایی که در ریپورت” Crawled — currently not indexed ” URL مقصد دارند پیدا کنید.
  4. با استفاده از نرم افزار Screaming Frog از URL‌ها یک نقشه سایت استاتیک .xml ایجاد کنید.
  5. نقشه سایت را بارگذاری کرده و ریپورت ” Crawled — currently not indexed” را در Search Console نظارت کنید.

هدف این است که گوگل خزش پرتکرارتری بر URL های نقشه سایت موقت xml انجام دهد و سریع‌تر تغییر مسیرها را ادغام کند.

 

6. محتوایی با کیفیت پایین

احتمال: متوسط

گاهی URLهایی می‌بینیم که از نظر محتوا بسیار ضعیف هستند. در این صفحات ممکن است تمامی عناصر فنی به درستی تنظیم شده باشد و حتی ممکن است به درستی به هم لینک شده باشند، اما گوگل هنگام برخورد به این URL‌ها، محتوای بسیار کمی در صفحه بیابد. مثالی از صفحه دسته‌بندی محصولات داریم که در آن متنی خاص اما بسیار کوتاه دارد:

Crawled currently not indexed با محتوای کم

 این صفحه با ” Crawled – currently not indexed” نشانه گذاری شده است و که دلیل آن محتوای کم در صفحه است.

این صفحه احتمالاً یا محتوای ضعیفی دارد که گوگل فکر می­‌کند به درد نخور است یا محتوای کمی دارد که گوگل آن را نسخه‌ای تکراری از صفحه دیگر تلقی می­‌کند و نتیجه آن را از ایندکس حذف می­‌کند..

راه حل: محتوای بیشتری اضافه کنید و با نشانه‌های ایندکس شدن مطابق شوید.

مراحل بعدی به این بستگی دارد که ایندکس کردن صفحات چه قدر برایتان مهم است.

اگر فکر می­‌کنید که این صفحه حتما باید در ایندکس قرار بگیرد، محتوای بیشتری اضافه کنید تا گوگل صفحه شما را به عنوان تجربه بهتر به کاربران ارائه دهد.

اگر ایندکس کردن محتوایتان ضروری نیست، سؤال بزرگتری ایجاد می­‌شود که آیا باید تلاشی اضافی کرد و نشانه‌هایی برای ایندکس نشدن را در صفحه قرار داد یا نه؟ پیغام  ” Crawled — currently not indexed ” نشان می‌دهد که محتوا شرایط ایندکس شدن در گوگل را دارد اما گوگل تصمیم گرفته که آن را ایندکس نکند.

همچنین صفحاتی با کیفیت کمتر هستند که منطق گوگل برای آن‌­ها متفاوت است.

اگر باز هم با توجه به معیارهای بالا محتوای ایندکس شده دیدید، می‌توانید یک “site” کلی ایجاد کنید. اگر تعداد زیادی از این صفحات در ایندکس قرار گرفتند، ممکن است بخواهید ابتکارهای قوی برای حذف این صفحات از ایندکس به کار گیرید؛ مانند استفاده از برچسب “Noindex” یا خطای 404. همچنین می‌توانید اتصال لینک­‌های صفحات ایندکس شده به لینک‌های داخلی قطع کنید.

 

7. محتوای تکراری

احتمال: زیاد

هنگام بررسی ایندکس نشدن تعداد زیادی از مشتری‌ها، فهمیدیم که بالاترین آمار مربوط به محتوای تکراری است. اگر گوگل محتوای شما را تکراری فرض کند ممکن است که بر محتوای شما خزش کند و در نهایت تصمیم بگیرد که آن را ایندکس نکند. گوگل از این راه از SERPهای تکراری جلوگیری می­‌کند. گوگل با حذف محتوای تکراری از فهرست مطمئن می­‌شود که کاربران با تعداد بیشتری از صفحات منحصر به فرد روبرو می‌­شوند. همیشه هم این اتفاق نمی‌افتد اما گاهی اوقات ریپورت­‌ها، URL‌ها را با “Duplicate” برچسب می‌­زنند (گوگل با استانداردهای متفاوت‌تری از کاربران محتوای تکراری را مشخص می­‌کند”).

این موضوع مخصوصا در بسیاری از سایت‌های فروشگاهی، مسئله بسیار مهمی است. صفحات اصلی مانند: صفحات توضیح محصول، ممکن است شامل اطلاعات زیادی از محصول مشابه یا همان محصول را که مانند آن در بسیاری از صفحات وب پر است، باشد . اگر گوگل صفحات را چه از لحاظ محتویات درونی و چه خارجی مشابه تشخیص دهد، همه آن­‌ها را از ایندکس خارج می­‌کند.

راه حل: عناصر منحصر به فردی را به محتوای تکراری اضافه کنید

اگر فکر می­‌کنید که ممکن است این وضعیت برای سایت شما نیز صدق کند، سایتتان را امتحان کنید:

  1. تکه­‌ای از متن تکراری بالقوه را تهیه کرده و آن را در گوگل قرار دهید.
  2. به انتهای SERP URL این رشته را اضافه کنید: “& num = 100” که 100 نتیجه برتر را نشانتان می‌­دهد.
  3. از عملگر “FIND” مرورگر خود استفاده کنید تا ببینید که آیا نتیجه شما در 100 نتیجه برتر ظاهر می‌شود یا خیر. اگر اینگونه نباشد ممکن است صفحه شما ایندکس نشده باشد.
  4. به URL SERP برگردید و این رشته را به انتهای آن اضافه کنید: “& filter = 0” که گوگل باید نتیجه های فیلتر نشده شما را نشان دهد
  5. از تابع “Find” برای جستجوی URL استفاده کنید. اکنون اگر صفحه شما حضور دارد، نشانه خوبی است که محتوای شما از فیلتر ایندکس خارج شده است.

این روند را برای تعدادی از URL‌ها که محتوای تکراری یا بسیار مشابهی دارند و آن­‌ها را در ریپورت “Crawled — currently not indexed ” مشاهده می‌کنید، تکرار کنید.

محتوای تکراری در خطای وبمستر

اگر دائما می‌بینید که URL های شما ایندکس نمی­‌شوند، باید مطالب خود را منحصر به فرد کنید.

در حالی که برای رسیدن به هدف هیچ قانون دقیق و مناسب برای هر شرایطی وجود ندارد، در اینجا چند گزینه داریم:

  1. مطالب را مجددا بازنویسی کنید تا صفحات در اولویت بالا تر و منحصر به فرد تر قرار بگیرند.
  2. برای منحصر به فرد شدن محتوای خود به پویایی آن اضافه کنید.
  3. محتوایی که در چند صفحه شما تکرار شده است را حذف کنید. هرچه در صفحات به جای مطالب منحصر به فرد، از مطالب قالب‌بندی شده تر استفاده کنید، احتمال این که تکراری فرض شوند زیاد می‌­شود.
  4. اگر در سایت شما کاربر تولید محتوا می­‌کند، به آن­‌ها اطلاع دهید که محتوای ارائه شده نباید تکراری باشد. اینگونه می‌­توان از کاربرانی از یک محتوا در چندین صفحه یا دامنه استفاده می‌­کنند جلوگیری کرد.

 

8. محتوای شخصی

احتمال: زیاد

مواردی وجود دارد که ربات­‌های خزنده گوگل به محتوایی دسترسی پیدا می­‌کنند که نباید به آن­‌ها دسترسی داشته باشند. اگر گوگل سایت‌هایی با محیط‌های اختصاصی را یافت، می‌تواند URL‌های آن­‌ها را نیز ریپورت کند. ما حتی نمونه­‌هایی مشاهده کرده­‌ایم که گوگل بر زیر دامنه یک مشتری خاص خزش کرده است که برای تهیه بلیط‌های شرکت JIRA تنظیم شده بود و در نهایت این اتفاق باعث خزش انفجاری بر سایت شد یعنی بر URL که هرگز نباید ایندکس شوند، خزش کردند.

مسئله اینجاست که خزش گوگل متمرکز نیست و جستجوگرها زمانی را صرف خزش و سپس ایندکس کردن بالقوه URLها می‌­کنند که اصلا نباید این اتفاق می‌­افتاد. این اتفاق می‌­تواند بر بودجه خزش سایت تاثیر زیادی داشته باشد.

راه حل: استراتژی برای خزش و ایندکس کردن تنظیم کنید.

این راه‌حل کاملاً به شرایط و‌ همچنین دسترسی گوگل به لینک­‌ها بستگی دارد. معمولا در این نقطه اولین کاری که باید انجام دهید این است که  مشخص کنید گوگل چگونه URL های خصوصی را پیدا کرده است؛ مخصوصاً اگر از طریق لینک­‌های داخلی باشد.

با استفاده از نرم افزار Screaming Frog خزش را از صفحه اصلی زیر دامنه خود شروع کنید و ببینید که در یک خزش استاندارد آیا زیر دامنه­‌های نامطلوب در دسترس هستند یا نه. اگر اینگونه بود می‌­توان به راحتی گفت که ربات­‌های گوگل هم ممکن است مسیرهای مشابهی را پیدا کند. پس تمام لینک داخلی به این محتوا را حذف کنید تا دسترسی گوگل را قطع کنید.

مرحله بعد URL‌های ایندکس شده است که باید حذف شوند. آیا گوگل آن‌ها را از ایندکس خارج می‌کند یا برخی از URLها همچنان در ایندکس هستند؟ اگر گوگل مقدار زیادی از محتوا را ایندکس نکرده باشد می‌­توانید robots.txt را اعمال کنید تا فوراً خزش مسدود شود. اگر مقدار زیادی از این محتوا ایندکس شده باشد می­‌توانید تگ­‌های “Noindex” و Canonicals استفاده کنید. همچنین می­‌توانید صفحات محافظت شده با رمز عبور را به کار بگیرید.

 

نمونه کار: محتوایی که کاربر تولید می­‌کند را کپی کنید

اگر بخواهیم در دنیای واقعی مثال بزنیم می­‌توانیم به موردی که در سایت مشتری تشخیص دادیم، اشاره کنیم. مشتری داریم که یک سایت تجارت الکترونیک ‌دارد و بسیاری از محتوای آن را صفحات توضیح محصولات تشکیل می­‌دهد. همه محتوای صفحات توضیح محصولات، توسط کاربر تولید شده است.

در اصل شخص ثالث هم می‌تواند در سایت، لیست ایجاد کند. اینگونه که شخص ثالث اغلب توضیحات بسیار کوتاهی را به صفحات اضافه می­‌کند و در نتیجه محتوای ضعیفی تولید می‌­شود. مشکلی که پیش می‌­آید این است که صفحات توضیح محصولات که توسط کاربران تولید شده، گرفتار ریپورت ” Crawled — currently not indexed ” می­‌شوند و حتی صفحاتی که می‌­توانند ترافیک طبیعی ایجاد کنند، از ایندکس بیرون انداخته شده و فرصت بهینه سازی سایت نیز از دست می­‌رود.

پس از گذراندن مراحل بالا متوجه شدیم که صفحات توضیح محصول مشتری مقدار محتوای کمی دارند و گوگل صفحاتی را حذف می‌­کند که فقط یک پاراگراف دارند یا محتوای خاصی ندارند. بعلاوه تعداد زیادی از محتواهای دورن صفحه­‌ای، متن‌­هایی هستند که مانند آن نیز در همه صفحات وجود دارد. از آنجایی که محتوای خاصی در صفحات نیست، گوگل این صفحات را تکراری فرض می‌­کند و آن­‌ها را از ایندکس خارج کند و پیغام ” Crawled — currently not indexed ” برای شما ظاهر شود.

برای حل این مشکل با مشتری کار کردیم که به ما نشان دهد در هر صفحه توضیحات محصول، به چه محتوایی نیاز داریم و به چه محتوایی نیاز نداریم. اینگونه توانستیم محتوای قالبی غیرضروری را از هزاران URL حذف کنیم که باعث کاهش چشمگیر صفحات ریپورت شده و منجر به منحصر به فرد شدن صفحات در گوگل شد.

محتوایی که کاربر تولید می­‌کند را کپی کنید

نتیجه گیری

امیدوارم، این مقاله به بازاریابان موتور جستجو کمک کند تا پیغام مرموز ” Crawled — currently not indexed ” را درک کنند و متوجه شوند یکی از پیغام‌هایی است که ایندکس را پوشش می‌­دهد. البته دلایل دیگری هم وجود دارد که گوگل می­‌تواند URL ها را دسته‌بندی کند، اما این موارد از رایج‌ترین مواردی است که تا به امروز در مشتریان خود دیده‌ایم.

به طور کلی،پیغام‌های پوشش دهنده ایندکس یکی از قدرتمندترین ابزارها در Search Console است. ما بازاریابان موتور جستجو را تشویق می­‌کنیم تا با داده‌ها و پیغام‌ها آشنا شوند چرا که معمولا در سایت­‌های بزرگتر، خزش­‌ها و ایندکس‌­های ضعیف‌­تری را می‌بینیم.


1: Crawled – Currently Not Indexed
2: Crawl
3: Index
4: Yoast

5: Pagination 
6: Deeper Category Pages 
7: Product Description Pages
8: Expired
9: Out of Stock
10: User Experience
11: SEO
12: Schema
13: Redirect
14: SERP  

منبع Moz

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.