Crawl error گوگل چیست؟

crawl error یا خطای خزش چیست؟

بودن در ابتدای نتایج جستجوی گوگل تماما با این مساله آغاز می شود که گوگل بتواند از خزش و ایندکس محتوای شما اطمینان یابد. وقتیکه گوگل نتواند به درستی صفحه ای را باز کند یا از صفحه ای به صفحه دیگر حرکت کند، قادر به ایندکس محتوا هم نخواهد بود. این اتفاق را crawl error یا خطای خزش می نامند.

جدول محتوا

crawl error خطاهایی هستند که موتورهای جستجو پس از تلاش برای دسترسی به صفحات شما با آنها مواجه می شوند. این خطاها خزنده های موتور جستجو را از خواندن محتوا و ایندکس صفحات شما باز می دارد.

crawl error به دو بخش تقسیم می شود:

  • خطای سایت: این خطاها گوگل بات‌ها را از دسترسی به کل وبسایت بازمی‌دارد.
  • خطای نشانی وب: این خطاها زمانی رخ می دهد که گوگل‌بات قادر به دسترسی به نشانی وب مشخصی از وبسایت شما نیست.

در Google Search Console جدید، این خطاها به شکل آدرس در گزارش پوشش ایندکس نشان داده می شود.

crawl error

بخش جدید پوشش شاخص Google Search Console وضعیت ایندکس را طی زمان نشان می دهد:

  • خطاهای که دریافت شد (و چند مورد رفع شدند)
  • صفحات معتبری که گوگل ایندکس کرده است
  • صفحاتی که گوگل در مواجهه با آنها ایندکس نکرده
  • صفحات معتبری که گوگل ایندکس کرده اما همراه با خطاهایی بوده است

خطای سایت

خطاهای سایت مسایلی هستند که در سطح وبسایت رخ می دهند. خطاهای سایت به این معنا هستند که کاربران‌تان و گوگل قادر به دسترسی به هیچ صفحه ای از وبسایت شما نیستند. پس بی‌خیال این خطاها نشوید.

۳ نوع خطای سایت وجود دارد که امکان مواجهه گوگل با آنها می رود.

خطای DNS

DNS که مخفف سیستم نامگذاری دامنه می باشد، آدرس IP وبسایت را از رشته ای از اعداد مانند ۸.۱۲۸.۱۹.۱۰۰ به اعداد و حروف قابل استفاده بدل می سازد مانند https://wproket.ir. واضحا این سیستم به ما اجازه می دهد که بدون دانستن نشانی IP وبسایتی که قصد بازدید آن را داریم اقدام به مرور و گشت و گذار در اینترنت کنیم.

سیستم DNS به این صورت عمل می کند:

  1. نام دامنه ای را در مرورگر خود تایپ می کنید.
  2. مرورگر بررسی می کند که آیا اطلاعات آن دامنه به صورت محلی بر روی کامپیوتر شما ذخیره شده باشد.
  3. اگر اینطور نیست، مرورگر درخواستی را به سرور محلی DNS ارسال می کند (که معمولا توسط ISP شما ارایه می شود).
  4. سرور محلی DNS به دنبال جزییات نام دامنه می گردد. اگر اطلاعاتی در این خصوص نداشته باشد، بایستی به دنبال سرور نام ریشه دامنه باشد.
  5. برای یافتن سرور، سرور DNS نشانی وب را به بخش هایی تقسیم می کند و اینکار را از راست به چپ انجام می دهد. مثلا برای آدرس www.wproket.ir به این صورت است: ir و wproket و در خاتمه www.
  6. سرور DNS به سرور نام ریشه DNS متصل می شود تا مکان سرور را برای اولین بخش دامنه بیابد ir. این بخش به عنوان سرور نام دامنه سطح بالا شناخته می شود.
  7. سرور DNS به سرور TLD متصل می شود.
  8. سرور DNS از سرور نام TLD جزییات سرور نام شامل جزییات نام دامنه را می خواهد (در مورد مثال ما wproket).
  9. در این نقطه، سرور DNS از سرور نام، اطلاعات wproket.ir را می خواهد و سرور نام نشانی IP دامنه را بازمی‌گرداند.

ایجاد ارتباط با DNS امری حیاتی محسوب می شود چرا که گام اول در دسترسی به یک وبسایت است. اگر گوگل نتواند ارتباط با DNS را برقرار کند، نخواهد توانست وبسایت شما را بیابد.

دو نوع خطای DNS وجود دارد که امکان مواجهه گوگل با آنها وجود دارد:

  1. DNS timeout: سرور DNS شما به درخواست گوگل با سرعت لازم پاسخ نمی دهد.
  2. DNS lookup: گوگل قادر به دسترسی به وبسایت شما نیست چرا که سرور DNS شما نمی تواند نام دامنه را بیابد.

اگر قادر به فراخوانی وبسایت خود برای گوگل نیستید، با ارایه دهنده DNS خود صحبت کنید.

خطاهای سرور

خطاهای سرور از خطاهای DNS متفاوت هستند. معنای آنها این است که گوگل قادر به یافتن نشانی وب بر روی سرور DNS بوده است اما به علت مسایل موجود بر روی سرور قادر به بارگیری صفحه نیست.

debug.log برای فعال‌سازی حالت اشکال‌زدایی در وردپرس

این معمولا بدین معناست که سرور شما زمان زیادی را به پاسخدهی اختصاص داده و درخواست گوگل منقضی می شود. گوگل تنها مقدار زمان مشخصی را برای انتظار به پاسخ سرور اختصاص می دهد.

به مانند خطای DNS، خطای سرور مساله بزرگی برای وبسایت محسوب می شود. این بدان معناست که مشکلی در رابطه با سرور شما وجود دارد که کاربران و خزنده های موتور جستجو را از دسترسی به وبسایت شما منع می کند.

اینکه چطور بخواهیم خطای سرور را حل کنیم بستگی به این دارد که بدانیم خطا در چه رابطه است. چندین نوع خطای سرور وجود دارد:

  • Timeout: خیلی ساده سرور زمان زیادی را به پاسخدهی به درخواست ربات گوگل صرف می کند.
  • Truncated headers: سرور ارتباطش را پیش از اینکه سرآیندها کامل ارسال شوند می بندد.
  • Connection reset: گوگل قادر به ارتباط با وبسایت است اما چیزی دریافت نمی کند چون ارتباط در قسمتی از پاسخ ریست می شود.
  • Truncated response: پیش از اینکه گوگل پاسخ کامل را دریافت کند ارتباط خاتمه می یابد.
  • Connection refused: سرور شما از ارتباط با ربات گوگل سرباز می زند.
  • Connect failed: شبکه سرور شما از کار افتاده یا قابل دسترسی نیست.
  • Connect timeout: پردازش ارتباط طولانی می شود.
  • No response: ارتباط با سرور شما پیش از اینکه پاسخی ارسال شود خاتمه می یابد.

ناتوانی ربات

ناتوانایی یا شکست ربات اشاره به ناتوانایی گوگل در یافتن و خواندن فایل robots.txt یک وبسایت در آدرس www.example.com/robots.txt دارد. اگر DNS گام اول باشد و ایجاد ارتباط با سرور نیز گام دوم، آن وقت خواندن فایل robots.txt در مرحله خزش گوگل در یک وبسایت نیز گام سوم می باشد.

گوگل دوست ندارد که صفحاتی که تمایل به ایندکس شدنشان را ندارید را خزیده و ایندکس کند. بنابراین اگر قادر به خواندن و دسترسی به robots.txt نباشد، عملیات خزش را به زمانی موکول می کند که قادر به خواندن این فایل در وبسایت شما باشد. اگر که می خواهید گوگل تمام صفحات بر روی وبسایت شما را بخزد، می توانید افزودن این فایل را به دامنه خود فراموش کرده و این خطا را نیز نادیده بگیرید.

اگر این خطا را در Google Search Console مشاهده می کنید، بررسی کنید که چگونه فایل robots.txt را تنظیم و برپاسازی کرده اید.

  • آیا به صورت فایل متنی ساده ساختید؟
  • آیا صفحه خانگی خود را مستثنی کردید؟
  • فایل robots.txt کد وضعیت ۲۰۰ یا ۴۰۴ بازمی‌گرداند؟
  • خط Disallow را بررسی کرده اید؟

وقتیکه با خطای ربات ها روبروی می شوید، هیچ کاری بهتر از پیکربندی صحیح و درست robots.txt نیست چرا که فایل شکسته robots.txt باعث می شود که گوگل دچار crawl error شود.

خطاهای نشانی وب

خطاهای نشانی وب متفاوت از خطای وبسایت هستند چرا که تنها در صفحه به خصوصی ظاهر می شوند و نه کل وبسایت. در این شرایط گوگل قادر به فراخوانی یک صفحه ویژه بوده اما نمی تواند آن را بخواند.

خطای نرم ۴۰۴

نام خطای نرم ۴۰۴ می تواند برای برخی گمراه کننده باشد. این صفحات، صفحاتی نیستند که کد وضعیت ۴۰۴ بازگردانند. در واقع، این صفحات صفحاتی هستند که کد وضعیت ۲۰۰ را ارسال می کنند. مشکل اینجاست که صفحات تقریبا خالی هستند.

چرا خطای ۴۰۴ از نظر سئو اهمیت دارد؟

کار گوگل در یافتن جایی که محتوا در یک صفحه واقع شده است حرف ندارد. بنابراین وقتیکه نشانی وب شامل صفحه ای است که محتوای خوبی ندارد، آن را خطای نرم ۴۰۴ می داند. از نظر فنی، صفحه وجود دارد و کد وضعیت ۲۰۰ بازمی‌گرداند اما صفحه ای تقریبا خالیست.

گوگل آمار این صفحات را دارد زیرا که برای کاربران چندان مفید نیستند، از ربات گوگل بدون دلیل کار می کشند و کارایی خزش وبسایت شما را تحت شعاع قرار می دهند.

بهترین شانس شما افزودن محتوا به این صفحات یا noindex کردن آنها است تا گوگل دیگر به آنها توجهی نداشته باشد.

دقت کنید که اگر از صفحه سفارشی ۴۰۴ استفاده می کنید که کد وضعیت ۴۰۴ را برنمی‌گرداند، احتمالا گوگل آنها را ۴۰۴ نرم خواهد شناخت.

Not Found (پیدا نشد)

نشانی های وب پیدا نشده در واقع خطاهای ۴۰۴ واقعی هستند که در وبسایت ایجاد می شوند؛ گوگل نشانی وبی را بر روی وبسایت درخواست می کند که وجود ندارد.

در حالیکه نشانی وب حاوی Not Found در گزارش crawl error می تواند باعث سردرگمی شما شود اما آنقدرها هم که فکرش را می کنید فاجعه بار نیست. در واقع طبق گفته خود گوگل، خطای ۴۰۴ بر وضعیت ایندکس وبسایت شما یا رتبه بندی آن در نتایج جستجو تاثیر منفی نمی گذارد.

بخش گسترده ای از خطای ۴۰۴ که بر روی وبسایت می بینید نیاز به اصلاح و ترمیم دارند. در حالیکه بین دو راهی اصلاح یا عدم اصلاح نشانی وب حاوی خطای ۴۰۴ مانده اید، در نظر داشته باشید که:

  • آیا نشانی وب، لینک های خروجی با کیفیت زیادی دارد؟
  • آیا ترافیک بالایی دریافت میکند؟
  • آیا نشانی وبی است که کاربران انتظار دارند که وجود داشته باشد؟

اگر پاسخ یک یا چند پرسش بالا بله است، بایستی به دنبال علت و رفع خطا باشید. اگر خطای ۴۰۴ به دلیل لینک سازی داخلی مشکل دار ایجاد شده بایستی قطعا این مساله را رفع کنید.

رفع مشکل ناشی از خطای ۴۰۴ بسته به یافتن علت اصلی ماجراست. می تواند به سادگی اصلاح خطای نوشتاری در لینکی داخلی باشد. اگر مساله ناشی از لینک خروجی به صفحات قدیمی است، از تغییر آدرس ۳۰۱ به نشانی جدید استفاده کنید. اگر نشانی وبی است که کاربران مدام به سراغ آن خواهند آمد، صفحه را ایجاد کرده یا به محتوای مرتبط در جایی از وبسایت خود لینک دهید.

Access denied (رد دسترسی)

این خطاها زمانی رخ می دهند که گوگل اجازه دسترسی به صفحه مشخصی را ندارد. این خطا معمولا به دلایل زیر رخ می دهد:

  • حفاظت صفحه با کلمه عبور
  • اجازه دسترسی توسط robots.txt رد شده است
  • خدمات دهنده هاست شما گوگل بات را بلاک کرده است

اگر می خواهید که نشانی های وب مد نظر شما که در crawl error نیز نمایش داده می شوند در نتایج جستجوی گوگل نشان داده نشوند، نیاز به کاری نیست. این دقیقا کاریست که بایستی میشد و نیاز به انجام کار خاصی ندارید.

اما اگر می خواهید این صفحات در نتایج جستجو ظاهر شوند بایستی چیزی که باعث مسدود شدن گوگل شده است را اصلاح کنید.

  • لزوم لاگین برای مشاهده صفحه را حذف کنید
  • نشانی وب را از فایل robots.txt حذف کنید
  • با ارایه دهنده خدمات هاست خود برای اجازه دسترسی به گوگل بات تماس بگیرید

دوباره به مانند خطای ۴۰۴، تصمیم با شماست که آیا صفحه با چنین پیغامی نیاز به اصلاح دارد یا خیر. اگر این صفحات خیلی برای وبسایت شما مهم نیستند می توانید این پیغام خطا را فراموش کنید.

ابزار بررسی نشانی وب

Google Search Console به شما اجازه می دهد که درباره تک تک صفحات وبسایت خود و مسایل و crawl error موجود در آنها به بررسی و مطالعه بپردازید. برای اینکار می توانید خیلی راحت از جعبه جستجوی بالای Google Search Console استفاده کنید.

جستجوی نشانی وب

crawl error چه تبعاتی برای وبسایت ما در پی دارد؟

واضح ترین مشکل در خصوص crawl error در وبسایت این است که این خطاها جلوی دسترسی گوگل به محتوای وبسایت شما را می گیرند. گوگل نمی تواند صفحاتی که به آن دسترسی ندارد را رتبه بندی کند. نرخ بالای crawl error نیز می تواند به دیدگاه گوگل نسبت به وبسایت شما تاثیر منفی بگذارد.

بسیاری از خطاهای خزش می توانند بر این مساله تاثیر بگذارند که گوگل وضعیت سلامت وبسایت شما را به چه صورتی ارزیابی می کند. وقتی که خزنده های گوگل در دسترسی به وبسایت شما دچار مسایل زیادی شوند، ممکن است که به این نتیجه برسند  که این صفحات ارزش خزش مداوم را ندارد. این مساله می تواند منجربه طولانی شدن روند ایندکس صفحات دیگر وبسایت شما شود.

۰ / ۵. ۰

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *