برای محدود کردن نرخ کراول گوگل بات از خطای 403/404 استفاده نکنید!
با توجه به اشتباه درنحوه محدود کردن Googlebot’s crawl گوگل اعلام کرد که برای محدود کردن نرخ کراول گوگل بات از خطای 403/404 استفاده نکنید!
برخی است ناشران محتوا و افرادی که در زمینه شبکههای تحویل محتوا (Content Delivery) فعالیت دارند برای لیمیت کردن کراول گوگل بات ها از 403/404 responses به اشتباه استفاده میکنند.
برای جلوگیری از تاثیر منفی بر سئو وبسایت گوگل اعلام کرد برای محدود کردن Googlebot’s crawl از پاسخ های 403/404 استفاده نکنند.
در ادامه این محتوا به این موضوع و اعلامیه گوگل برای جلوگیری از بروز مشکل و بهبود سئو وبسایت پرداخته ایم.
مسائل مختلفی بر سئو خارجی و تغییر جایگاه وبسایت مؤثر است و شما در سامانه هوشمند سلکتک با خرید بازدید برای وبسایت میتوانید به روند رشد کمک فراوانی بکنید.
دلایل محدود کردن نرخ Googlebot crawl
Googlebot نرمافزار خودکار گوگل است که از وب سایت ها بازدید کرده و محتوا را دانلود می کند.
محدود کردن نرخ کراول گوگل بات به معنای کاهش سرعت خزیدن گوگل در یک وب سایت است.
عبارت، نرخ خزیدن گوگل، به تعداد درخواست صفحات وب در هر ثانیه اشاره دارد که Googlebot ارسال می کند.
مواقعی وجود دارد که ممکن است یک ناشر بخواهد سرعت Googlebot را کاهش دهد، برای مثال اگر باعث بارگذاری بیش از حد سرور شود.
در ادامه به بررسی راه های محدود کردن تعداد درخواست ها و سرعت خزیدن گوگل بات پرداخته ایم.
راه های محدود کردن سرعت خزیدن ربات گوگل
گوگل چندین راه را برای محدود کردن نرخ خزیدن Googlebot توصیه میکند که بهترین و مهمترین آنها استفاده از سرچ کنسول گوگلی Google است.
با محدود کردن نرخ خزیدن ربات گوگل از طریق سرچ کنسول گوگل، سرعت خزیدن را برای یک دوره 90 روزه کاهش میدهد.
یکی دیگر از راههای تأثیرگذاری بر نرخ خزیدن Google از طریق استفاده از Robots.txt برای جلوگیری از خزیدن Googlebot در صفحات، فهرستها (دستهها)، یا کل وبسایت است.
یک نکته خوب در رابطه با فایل روبوتس این است که فقط از گوگل می خواهد از خزیدن خودداری کند و از گوگل نمی خواهد یک سایت را از فهرست حذف کند.
با این حال، استفاده از robots.txt می تواند منجر به "اثرات بلند مدت" بر الگوهای خزیدن گوگل شود.
به همین دلیل راه حل ایده آل برای کاهش سرعت خزیدن و محدود کردن درخواست های گوگل بات استفاده از سرچ کنسول گوگل باشد.
استفاده از کدهای 4XX برای Rate Limiting Googlebot ممنوع است
گوگل در وبلاگ Search Central خود راهنمایی منتشر کرد و به ناشران توصیه کرد از کدهای پاسخ 4XX(به جز کد پاسخ 429) استفاده نکنند.
پست وبلاگ به طور خاص به استفاده نادرست از کدهای پاسخ خطای 403 و 404 برای محدود کردن نرخ اشاره کرد، اما این راهنمایی برای همه کدهای پاسخ 4XX به جز پاسخ 429 اعمال می شود.
این توصیه ضروری است زیرا ناشران افزایش یافتهاند که از این کدهای پاسخ خطا برای محدود کردن نرخ خزیدن Google استفاده میکنند.
استفاده از کد پاسخ 403 برای گوگل بات به این معنی است که بازدید کننده در بازدید از صفحه وب منع شده است.
کد پاسخ 404 به Googlebot می گوید که صفحه وب کاملاً از بین رفته است.
کد پاسخ به خطای سرور 429 به معنای "درخواست های بسیار زیاد" است و این یک پاسخ خطای معتبر است.
با گذشت زمان، اگر گوگل به استفاده از این دو کد پاسخ خطا ادامه دهد، ممکن است در نهایت صفحات وب را از فهرست جستجوی خود حذف کند.
این بدان معناست که صفحات برای رتبه بندی در نتایج جستجو در نظر گرفته نمی شوند.
اطلاعیه گوگل در رابطه با نرخ خزش گوگل بات
با توجه به مشاهده این مورد که مالکان وبسایت و برخی از شبکههای تحویل محتوا (CDN) برای کاهش نرخ خزش Googlebot سعی میکردند از خطاهای 404 و سایر خطاهای کلاینت 4XX (به جز ریسپانس 429) استفاده کنند، تصمیم بر این گرفت که به صورت واضح بیان کند که این کار برای سئو سایت مضر است.
در نهایت، گوگل استفاده از کدهای پاسخ خطای 500، 503 یا 429 را توصیه می کند.
کد پاسخ 500 به این معنی است که یک خطای داخلی سرور وجود دارد. پاسخ 503 به این معنی است که سرور قادر به رسیدگی به درخواست یک صفحه وب نیست.
گوگل هر دوی این نوع پاسخ ها را به عنوان خطاهای موقتی در نظر می گیرد. بنابراین بعداً دوباره می آید تا بررسی کند که آیا صفحات دوباره در دسترس هستند یا خیر.
یک پاسخ خطای 429 به ربات میگوید که درخواستهای زیادی دارد و همچنین میتواند از آن بخواهد که قبل از خزیدن مجدد برای مدت زمان مشخصی منتظر بماند.
البته برای استفاده از این خطاها باید با برنامه نویس سایت خود صحبت کنید و همانطور که گفته شد بهتر است برای لیمیت کردن نرخ کراول بات از سرچ کنسول گوگل استفاده نمایید.