راهنمای اخطار گوگل وبمستر و برا بهبود سئو داخلی سایت
راهنمای اخطار گوگل وبمستر: “خزش انجام شد – هنوز ایندکس نشده است1“
در گزارشها پیغامهای مختلفی وجود دارد که به وبمسترها اطلاعاتی درباره چگونگی بررسی محتوای سایت شما توسط گوگل میدهد. در حالی که بسیاری از پیغامها درباره تصمیمات ایندکس گوگل و خزش است، در این میان پیغام “خزش انجام شده – هنوز ایندکس نشده” همچنان ناشناخته مانده است.
بسیاری از صاحبان سایت درباره معنی پیغام “خزش انجام شده – هنوز ایندکس نشده ” سؤال میکنند.
تعریف گوگل:
طبق مستندات رسمی گوگل، این پیغام به معنی “این صفحه توسط خزندههای گوگل مورد بررسی قرار گرفته است، اما ایندکس نشده است (در نتایج جستجو ظاهر نشده است). ممکن است در آینده ایندکس بشود یا نه. دیگر نیازی به ارسال مجدد URL برای خزش نیست. “
پس آنچه اساساً میدانیم این است که:
- گوگل به صفحه دسترسی دارد.
- برای خزش صفحه گوگل به زمان نیاز دارد.
- بعد از خزش، گوگل تصمیم گرفته تا صفحه را ایندکس نکند.
برای فهم بهتر این پیغام، دلایلی را در نظر بگیرید که بر اساس آن گوگل تصمیم میگیرد صفحه را ایندکس نکند. در واقع میدانیم که گوگل مشکل پیدا کردن صفحه را ندارد، اما احساس میکند که کاربران از پیدا کردن این صفحه سودی نمیبرند.
ممکن است علت ایندکس نشدن محتوای خود را ندانید و ناامید شوید. اکنون با دلایل متداولی که تیم ما تاکنون مشاهده کرده است توضیح میدهیم که این پیغام عجیب چگونه بر وب سایت شما تأثیر میگذارد.
1. ایندکس نشدههای کاذب
احتمال: کم
اولین قدم قرار دادن چندین URL آزمایشی در بخشی که پیغامهای دریافتی “خزش انجام شده – هنوز ایندکس نشده (“Crawled — Currently Not Indexed”) است که ایندکس شوند. عجیب نیست URL هایی را بیابید که از ایندکس خارج شدهاند اما در نهایت مشخص میشود که گوگل آنها را ایندکس کرده است.
برای مثال این URL در قسمت ریپورت وب سایت ما، پرچم گرفته است. https://gofishdigital.com/meetup/
اما اگر از یک اپراتور جستجوی سایت استفاده کنیم، میبینید که URL در ایندکس گوگل قرار دارد. اگر خواستید شما هم این کار را انجام دهید، قبل از URL ،”site:”را وارد کنید.
اگر برای URL های شما پیغام “Crawled — Currently Not Indexed” ظاهر شد، از اپراتور جستجوی سایت استفاده کنید و چک کنید که آیا URL های شما ایندکس شده هستند یا نه. گاهی URLها فقط به نظر میرسد که ایندکس نشدهاند در حالی که در ایندکس گوگل قرار دارند.
راه حل: هیچ کاری نکنید! اوضاع URL شما خوب است.
2. RSSها از URLها تغذیه میکنند
احتمال: کم
یکی از متداولترین نمونهها زمانی است که سایت خود را به یک RSS تجهیز میکنید که ممکن است گوگل برای برخی از URLهای شما پیغام “خزش انجام شد – هنوز ایندکس نشده” را نمایش دهد. در بسیاری از مواقع رشته “/ feed/” به انتهای URL ها متصل است و در گزارشها اینگونه ظاهر میشوند:
گوگل RSSهایی را پیدا میکند که از URLهای لینک شده به صفحات اول تغذیه میکنند. آنها غالباً به عنصر “rel = alternate” متصل میشوند. افزونههای وردپرس مانند: یوست4 میتواند این URL ها را خودکار تولید کنند.
راه حل: کاری نکنید! اوضاع URL شما خوب است.
احتمالاً گوگل به صورت گزینشی و با دلیل تصمیم گرفته است که این URL ها را ایندکس نکند. اگر به سراغ RSS هایی که از URL ها تغذیه میکنند بروید، یک سند XML مانند سند زیر مشاهده خواهید کرد:
اگرچه این سند XML برای خوراکهای RSS مفید است اما گوگل آن را ایندکس نمیکند. از آنجایی که محتوای سندها برای کاربران تعبیه نشده است، تجربه ضعیفی را ایجاد میکند.
3. URLهای صفحه بندی شده
احتمال: کم
از دیگر دلایل رایج ظهور پیغام “Crawled – currently not indexed” و ایندکس نشدن، صفحه بندی5 است. میبینیم که تعداد زیادی URLهای صفحه بندی شده در ریپورت ظاهر میشود. در اینجا تعدادی URL ایندکس نشده یک سایت فروشگاهی بسیار بزرگ را میبینیم:
راه حل: هیچ کاری نکنید! اوضاع URL های شما خوب است.
گوگل برای یک خزش کامل در سایت باید در URLهای صفحه بندی شده خزش کند. این کار راهی برای دست یابی به صفحات طبقهبندی شده عمیقتر6 و یا صفحات توصیفی محصول7 است. اگرچه گوگل از صفحهبندی به عنوان مسیری برای دسترسی به محتوا استفاده میکند، لزوما URL های صفحهبندی شده را ایندکس نمیکند.
در هر صورت هیچ کاری برای تأثیر بیشتر خزش در صفحهبندیها انجام ندهید. تمام صفحهبندی شما باید یک تگ Self-Referential Canonical داشته باشد و تگ “Nofollow” نداشته باشد. صفحهبندیها یک راه میانبر برای گوگل هستند تا بر صفحات اصلی دیگر سایت شما خزش کند و شما مطمئناً میخواهید گوگل همچنان کارش را ادامه دهد.
4. محصولات منقضی شده
احتمال: متوسط
مشکل شایع مشتریها هنگام بررسی موارد گزارش شده، URLهایی است که متنی با محتوای “منقضی8” یا “ناموجود9” دارند. گوگل موجودی محصولات در سایتهای تجارت الکترونیکی و فروشگاهی را هم بررسی میکند و اگر تشخیص دهد محصولی ناموجود است، سعی میکند آن محصول را از ایندکس خارج کند.
این کار از نظر تجربه کاربری10 منطقی است زیرا گوگل نمیخواهد محتوایی را که کاربران قادر به خرید آن نیستند، ارائه دهد.
با این حال اگر محصولات در سایت شما موجود باشند فرصت سئو11 را از دست میدهید. با حذف صفحات شما از ایندکس، محتوای شما حتی فرصت رتبه بندی را نیز پیدا نمیکند.
بعلاوه گوگل فقط محتوای قابل مشاهده در صفحه شما را بررسی نمیکند. مواردی هم بوده است که هیچ علامتی از عدم موجودی محصول در محتوای قابل مشاهده پیدا نکردیم اما هنگام بررسی دادههای ساختاریافته مشخص شده است که ویژگی “Availability” بر “ناموجود” بودن تنظیم شده است.
به نظر میرسد که گوگل سرنخهای موجودیت کالا را هم از محتوای قابل مشاهده و هم از دادههای ساخت یافته به طور هم زمان جمعآوری میکند. پس محتوا و اسکیما12 سایت، هر دو اهمیت دارد.
راه حل: موجودی کالاهای خود را بررسی کنید.
اگر کالاهایی که موجود است را در لیست گزارشها دیدید، بررسی کنید که آیا تمام محصولات شما به اشتباه بر حالت “ناموجود” تنظیم شده اند یا نه. سپس یک خزش بر سایت خود انجام دهید و از ابزارهای جذب اطلاعات مانند Screaming Frog’s برای برداشت اطلاعات از صفحات محصول خود استفاده کنید.
برای مثال اگر میخواهید همه URLها که اسکیما تنظیم شده بر “ناموجود” دارند مشاهده کنید، میتوانید “Regex” را روی: “موجود” تنظیم کنید.
این میتواند همه URLها با این خاصیت را جمع آوری کند:
شما میتوانید با استفاده از اکسل یا ابزارهای هوشمند تجاری این لیست و ارجاع کالاهای موجودی را استخراخ کنید. این کار به شما این امکان را میدهد تا به سرعت تفاوت اطلاعات ساختار یافته و محصولات موجود را بیابید. همچنین میتوان همین روند را برای مواردی که موجود بودن محتوای قابل مشاهده شما را نشان میدهد، تکرار کرد.
5. تغییر مسیر 301
احتمال: متوسط
مثال جالبی که در این پیغام میبینیم، سرنوشت URLهای صفحاتی است که ریدایرکت13 شدهاند و تغییر مسیر یافته اند. اغلب میبینیم که گوگل در URL های مقصد خزش میکند اما آنها را ایندکس نمیکند. با نگاهی به صفحه نتایج جستجو14 میفهمیم که گوگل URL هایی که تغییر یافتهاند را ایندکس کرده است. از آنجایی که URL هایی که تغییر یافته اند ایندکس میشوند، URL های مقصد ریپورت شده و پیغام “Crawled — currently not indexed” ظاهر میشود.
مسئله این است که احتمال دارد گوگل هنوز این تغییر مسیر را تشخیص نداده باشد و در نتیجه URL مقصد را یک ” URL تکراری” بداند چراکه هنوز URL تغییر مسیر یافته ایندکس نشده است.
راه حل: یک نقشه موقت سایت xml ایجاد کنید.
اگر این اتفاق برای تعداد زیادی از URLها افتاد نشان میدهد که گوگل به موقع تغییر مسیر URLهای شما را تشخیص نمیدهد و به دلیل محتوای دوگانه URLهای شما را ریپورت میکند پس باید برای گوگل سیگنالهای جداگانه و قویتری را ارسال کنید.
استراتژی پیشنهادی جان مولر “نقشه سایت موقتی” است. میتوانید با ایجاد نقشه سایت موقت، بر URLهای تغییر مسیر یافته خزش سریعتری اعمال کنید.
برای ایجاد نقشه موقت سایت باید به این صورت تغییر مسیرهایی که در گذشته ایجاد کردهاید را مهندسی معکوس کنید:
- همه URLها از ریپورت” Crawled — currently not indexed “خارج کنید.
- آنها را در اکسل با تغییر مسیرهایی که قبلاً انجام شده، مطابقت دهید.
- همه تغییر مسیرهایی که در ریپورت” Crawled — currently not indexed ” URL مقصد دارند پیدا کنید.
- با استفاده از نرم افزار Screaming Frog از URLها یک نقشه سایت استاتیک .xml ایجاد کنید.
- نقشه سایت را بارگذاری کرده و ریپورت ” Crawled — currently not indexed” را در Search Console نظارت کنید.
هدف این است که گوگل خزش پرتکرارتری بر URL های نقشه سایت موقت xml انجام دهد و سریعتر تغییر مسیرها را ادغام کند.
6. محتوایی با کیفیت پایین
احتمال: متوسط
گاهی URLهایی میبینیم که از نظر محتوا بسیار ضعیف هستند. در این صفحات ممکن است تمامی عناصر فنی به درستی تنظیم شده باشد و حتی ممکن است به درستی به هم لینک شده باشند، اما گوگل هنگام برخورد به این URLها، محتوای بسیار کمی در صفحه بیابد. مثالی از صفحه دستهبندی محصولات داریم که در آن متنی خاص اما بسیار کوتاه دارد:
این صفحه با ” Crawled – currently not indexed” نشانه گذاری شده است و که دلیل آن محتوای کم در صفحه است.
این صفحه احتمالاً یا محتوای ضعیفی دارد که گوگل فکر میکند به درد نخور است یا محتوای کمی دارد که گوگل آن را نسخهای تکراری از صفحه دیگر تلقی میکند و نتیجه آن را از ایندکس حذف میکند..
راه حل: محتوای بیشتری اضافه کنید و با نشانههای ایندکس شدن مطابق شوید.
مراحل بعدی به این بستگی دارد که ایندکس کردن صفحات چه قدر برایتان مهم است.
اگر فکر میکنید که این صفحه حتما باید در ایندکس قرار بگیرد، محتوای بیشتری اضافه کنید تا گوگل صفحه شما را به عنوان تجربه بهتر به کاربران ارائه دهد.
اگر ایندکس کردن محتوایتان ضروری نیست، سؤال بزرگتری ایجاد میشود که آیا باید تلاشی اضافی کرد و نشانههایی برای ایندکس نشدن را در صفحه قرار داد یا نه؟ پیغام ” Crawled — currently not indexed ” نشان میدهد که محتوا شرایط ایندکس شدن در گوگل را دارد اما گوگل تصمیم گرفته که آن را ایندکس نکند.
همچنین صفحاتی با کیفیت کمتر هستند که منطق گوگل برای آنها متفاوت است.
اگر باز هم با توجه به معیارهای بالا محتوای ایندکس شده دیدید، میتوانید یک “site” کلی ایجاد کنید. اگر تعداد زیادی از این صفحات در ایندکس قرار گرفتند، ممکن است بخواهید ابتکارهای قوی برای حذف این صفحات از ایندکس به کار گیرید؛ مانند استفاده از برچسب “Noindex” یا خطای 404. همچنین میتوانید اتصال لینکهای صفحات ایندکس شده به لینکهای داخلی قطع کنید.
7. محتوای تکراری
احتمال: زیاد
هنگام بررسی ایندکس نشدن تعداد زیادی از مشتریها، فهمیدیم که بالاترین آمار مربوط به محتوای تکراری است. اگر گوگل محتوای شما را تکراری فرض کند ممکن است که بر محتوای شما خزش کند و در نهایت تصمیم بگیرد که آن را ایندکس نکند. گوگل از این راه از SERPهای تکراری جلوگیری میکند. گوگل با حذف محتوای تکراری از فهرست مطمئن میشود که کاربران با تعداد بیشتری از صفحات منحصر به فرد روبرو میشوند. همیشه هم این اتفاق نمیافتد اما گاهی اوقات ریپورتها، URLها را با “Duplicate” برچسب میزنند (گوگل با استانداردهای متفاوتتری از کاربران محتوای تکراری را مشخص میکند”).
این موضوع مخصوصا در بسیاری از سایتهای فروشگاهی، مسئله بسیار مهمی است. صفحات اصلی مانند: صفحات توضیح محصول، ممکن است شامل اطلاعات زیادی از محصول مشابه یا همان محصول را که مانند آن در بسیاری از صفحات وب پر است، باشد . اگر گوگل صفحات را چه از لحاظ محتویات درونی و چه خارجی مشابه تشخیص دهد، همه آنها را از ایندکس خارج میکند.
راه حل: عناصر منحصر به فردی را به محتوای تکراری اضافه کنید
اگر فکر میکنید که ممکن است این وضعیت برای سایت شما نیز صدق کند، سایتتان را امتحان کنید:
- تکهای از متن تکراری بالقوه را تهیه کرده و آن را در گوگل قرار دهید.
- به انتهای SERP URL این رشته را اضافه کنید: “& num = 100” که 100 نتیجه برتر را نشانتان میدهد.
- از عملگر “FIND” مرورگر خود استفاده کنید تا ببینید که آیا نتیجه شما در 100 نتیجه برتر ظاهر میشود یا خیر. اگر اینگونه نباشد ممکن است صفحه شما ایندکس نشده باشد.
- به URL SERP برگردید و این رشته را به انتهای آن اضافه کنید: “& filter = 0” که گوگل باید نتیجه های فیلتر نشده شما را نشان دهد
- از تابع “Find” برای جستجوی URL استفاده کنید. اکنون اگر صفحه شما حضور دارد، نشانه خوبی است که محتوای شما از فیلتر ایندکس خارج شده است.
این روند را برای تعدادی از URLها که محتوای تکراری یا بسیار مشابهی دارند و آنها را در ریپورت “Crawled — currently not indexed ” مشاهده میکنید، تکرار کنید.
اگر دائما میبینید که URL های شما ایندکس نمیشوند، باید مطالب خود را منحصر به فرد کنید.
در حالی که برای رسیدن به هدف هیچ قانون دقیق و مناسب برای هر شرایطی وجود ندارد، در اینجا چند گزینه داریم:
- مطالب را مجددا بازنویسی کنید تا صفحات در اولویت بالا تر و منحصر به فرد تر قرار بگیرند.
- برای منحصر به فرد شدن محتوای خود به پویایی آن اضافه کنید.
- محتوایی که در چند صفحه شما تکرار شده است را حذف کنید. هرچه در صفحات به جای مطالب منحصر به فرد، از مطالب قالببندی شده تر استفاده کنید، احتمال این که تکراری فرض شوند زیاد میشود.
- اگر در سایت شما کاربر تولید محتوا میکند، به آنها اطلاع دهید که محتوای ارائه شده نباید تکراری باشد. اینگونه میتوان از کاربرانی از یک محتوا در چندین صفحه یا دامنه استفاده میکنند جلوگیری کرد.
8. محتوای شخصی
احتمال: زیاد
مواردی وجود دارد که رباتهای خزنده گوگل به محتوایی دسترسی پیدا میکنند که نباید به آنها دسترسی داشته باشند. اگر گوگل سایتهایی با محیطهای اختصاصی را یافت، میتواند URLهای آنها را نیز ریپورت کند. ما حتی نمونههایی مشاهده کردهایم که گوگل بر زیر دامنه یک مشتری خاص خزش کرده است که برای تهیه بلیطهای شرکت JIRA تنظیم شده بود و در نهایت این اتفاق باعث خزش انفجاری بر سایت شد یعنی بر URL که هرگز نباید ایندکس شوند، خزش کردند.
مسئله اینجاست که خزش گوگل متمرکز نیست و جستجوگرها زمانی را صرف خزش و سپس ایندکس کردن بالقوه URLها میکنند که اصلا نباید این اتفاق میافتاد. این اتفاق میتواند بر بودجه خزش سایت تاثیر زیادی داشته باشد.
راه حل: استراتژی برای خزش و ایندکس کردن تنظیم کنید.
این راهحل کاملاً به شرایط و همچنین دسترسی گوگل به لینکها بستگی دارد. معمولا در این نقطه اولین کاری که باید انجام دهید این است که مشخص کنید گوگل چگونه URL های خصوصی را پیدا کرده است؛ مخصوصاً اگر از طریق لینکهای داخلی باشد.
با استفاده از نرم افزار Screaming Frog خزش را از صفحه اصلی زیر دامنه خود شروع کنید و ببینید که در یک خزش استاندارد آیا زیر دامنههای نامطلوب در دسترس هستند یا نه. اگر اینگونه بود میتوان به راحتی گفت که رباتهای گوگل هم ممکن است مسیرهای مشابهی را پیدا کند. پس تمام لینک داخلی به این محتوا را حذف کنید تا دسترسی گوگل را قطع کنید.
مرحله بعد URLهای ایندکس شده است که باید حذف شوند. آیا گوگل آنها را از ایندکس خارج میکند یا برخی از URLها همچنان در ایندکس هستند؟ اگر گوگل مقدار زیادی از محتوا را ایندکس نکرده باشد میتوانید robots.txt را اعمال کنید تا فوراً خزش مسدود شود. اگر مقدار زیادی از این محتوا ایندکس شده باشد میتوانید تگهای “Noindex” و Canonicals استفاده کنید. همچنین میتوانید صفحات محافظت شده با رمز عبور را به کار بگیرید.
نمونه کار: محتوایی که کاربر تولید میکند را کپی کنید
اگر بخواهیم در دنیای واقعی مثال بزنیم میتوانیم به موردی که در سایت مشتری تشخیص دادیم، اشاره کنیم. مشتری داریم که یک سایت تجارت الکترونیک دارد و بسیاری از محتوای آن را صفحات توضیح محصولات تشکیل میدهد. همه محتوای صفحات توضیح محصولات، توسط کاربر تولید شده است.
در اصل شخص ثالث هم میتواند در سایت، لیست ایجاد کند. اینگونه که شخص ثالث اغلب توضیحات بسیار کوتاهی را به صفحات اضافه میکند و در نتیجه محتوای ضعیفی تولید میشود. مشکلی که پیش میآید این است که صفحات توضیح محصولات که توسط کاربران تولید شده، گرفتار ریپورت ” Crawled — currently not indexed ” میشوند و حتی صفحاتی که میتوانند ترافیک طبیعی ایجاد کنند، از ایندکس بیرون انداخته شده و فرصت بهینه سازی سایت نیز از دست میرود.
پس از گذراندن مراحل بالا متوجه شدیم که صفحات توضیح محصول مشتری مقدار محتوای کمی دارند و گوگل صفحاتی را حذف میکند که فقط یک پاراگراف دارند یا محتوای خاصی ندارند. بعلاوه تعداد زیادی از محتواهای دورن صفحهای، متنهایی هستند که مانند آن نیز در همه صفحات وجود دارد. از آنجایی که محتوای خاصی در صفحات نیست، گوگل این صفحات را تکراری فرض میکند و آنها را از ایندکس خارج کند و پیغام ” Crawled — currently not indexed ” برای شما ظاهر شود.
برای حل این مشکل با مشتری کار کردیم که به ما نشان دهد در هر صفحه توضیحات محصول، به چه محتوایی نیاز داریم و به چه محتوایی نیاز نداریم. اینگونه توانستیم محتوای قالبی غیرضروری را از هزاران URL حذف کنیم که باعث کاهش چشمگیر صفحات ریپورت شده و منجر به منحصر به فرد شدن صفحات در گوگل شد.
نتیجه گیری
امیدوارم، این مقاله به بازاریابان موتور جستجو کمک کند تا پیغام مرموز ” Crawled — currently not indexed ” را درک کنند و متوجه شوند یکی از پیغامهایی است که ایندکس را پوشش میدهد. البته دلایل دیگری هم وجود دارد که گوگل میتواند URL ها را دستهبندی کند، اما این موارد از رایجترین مواردی است که تا به امروز در مشتریان خود دیدهایم.
به طور کلی،پیغامهای پوشش دهنده ایندکس یکی از قدرتمندترین ابزارها در Search Console است. ما بازاریابان موتور جستجو را تشویق میکنیم تا با دادهها و پیغامها آشنا شوند چرا که معمولا در سایتهای بزرگتر، خزشها و ایندکسهای ضعیفتری را میبینیم.
1: Crawled – Currently Not Indexed
2: Crawl
3: Index
4: Yoast
5: Pagination
6: Deeper Category Pages
7: Product Description Pages
8: Expired
9: Out of Stock
10: User Experience
11: SEO
12: Schema
13: Redirect
14: SERP