خزنده موتور جستجو Crawler چیست؟

خزنده موتور جستجو یا Crawlerها که عنکبوت یا Spider، ربات یا به شکل ساده بات نیز نامیده می شوند، برنامه یا اسکریپت هایی هستند که به شکل سیستمی و خودکار صفحات را بر روی اینترنت مرور می کنند. هدف این مرور خودکار نوعا خواندن صفحاتی است که خزنده موتور جستجو برای افزودن آنها به ایندکس موتور جستجو مرور می کند.

موتورهای جستجو مانند گوگل، از خزنده وب برای خواندن صفحات وب و ذخیره لیستی از کلماتی که در صفحه یافته و جاییکه آن کلمات واقع شدند استفاده می کند. خزنده موتور جستجو داده های اطلاعاتی مانند سرعت و وضعیت خطای HTTP را نیز جمع آوری می کند.

این داده ها در ایندکس موتورهای جستجو – مخصوصا پایگاه داده های بزرگ از صفحات وب ذخیره می شود.

وقتیکه جستجویی را در گوگل صورت می دهید، در واقع در حال جستجو در ایندکس گوگل هستید و نه خود اینترنت. سپس گوگل اقدام به نمایش صفحات ایندکس شده مرتبط با موضوع جستجوی شما کرده و لینک هایی را به صفحات مناسب می دهد.

از آنجاییکه وب مدرن شامل انواع مختلف محتوا است و موتورهای جستجو روش هایی برای جستجو آن نوع مشخص از محتوا دارند، موتورهای جستجوی بزرگ خزنده هایی دارند که مختص خزیدن در فایل ها یا صفحات مشخص هستند. این بخش های به خصوص شامل موارد زیر می شوند:

هر نوع از خزنده عامل کاربری متفاوتی دارد.

خزنده موتور جستجو چگونه عمل می کند؟

از نظر عملی، خزیدن زمانی اتفاق می افتد که یک خزنده آدرسی را برای بررسی پیدا می کند، سپس صفحه را فراخوانده و آن را بر روی یک کامپیوتر محلی ذخیره می کند. شما می توانید همینکار را با رفتن به صفحه و راست کلیک بر روی صفحه و انتخاب گزینه …Save As انجام دهید.

خزنده موتور جستجو نشانی وب را یا با بررسی نقشه سایت دامنه یا با دنبال کردن لینک‌هایی که در صفحات دیگر وجود دارند دریافت می کند.

نقشه سایت

Sitemap یا نقشه سایت نقش مهمی در این مرحله ایفا می کند چرا که لیست نشانی های وب سازماندهی شده و جذابی را برای دسترسی به خزنده ارایه می کند. آنها همچنین جزییاتی را ارایه می کنند که بر روش خزیدن خزنده موتور جستجو در هر صفحه تاثیر می گذارد.

بودجه خزیدن چیست؟

صد البته که حتی گوگل هم منابع محدودی دارد (مهم نیست که این محدودیت تا چه اندازه ای است). از این رو Googlebot یا بات های گوگل بر اساس قاعده ای کار می کنند که به عنوان «بودجه خزش» شناخته می شود. بودجه خزش خیلی ساده تعداد نشانی وب بر روی وبسایت است که خزنده موتور جستجوی گوگل می خواهد و می تواند در آن بخزد.

2 عنصر وجود دارد که بودجه خزش گوگل را برای یک وبسایت مشخص می کند:

اما خبر خوب این است که محدوده نرخ خزش و درخواست برای خزیدن بسته به چیزی که گوگل در وبسایت شما می بیند می تواند تغییر پیدا کند. این عوامل بر بودجه خزش وبسایت شما تاثیر می گذارند:

ایندکس جستجو چیست؟

وقتیکه صفحه ای خزیده می شود، گوگل به اطلاعات دقیقی در خصوص صفحه برای ذخیره کردنش در شاخص یا ایندکس خود نیازمند است. موتورهای جستجو از الگوریتم های متنوعی استفاده می کنند تا تعیین کنند که کدام کلمات در محتوای صفحه مهم و مرتبط هستند. افزودن نشانه‌گذاری معنایی مانند Schema.org به موتورهای جستجو کمک می کند تا درک بهتری از صفحات وبسایت شما داشته باشند.

وقتیکه صفحه ای فراخوانی، ذخیره و تفسیر می شود، اطلاعات استخراج شده از آن در شاخص یا ایندکس موتور جستجو ذخیره می شود. وقتیکه شخصی جستجویی را در موتور جستجو صورت می دهد، اطلاعات درون ایندکس برای تعیین صفحات مرتبط با موضوع جستجو مورد استفاده قرار می گیرند.

چگونه خزیدن گوگل را بهینه سازی کنیم

برای به دست آوردن رتبه بهتر در نتایج جستجو، صفحه بایستی در ابتدا ایندکس شود. برای ایندکس شدن یک صفحه، ابتدا بایستی توسط خزنده موتور جستجو خزیده شود. از این رو قابلیت خزیده شدن اثر بسیار زیادی بر سئو خواهد گذارد.

نمی توانید به شکل مستقیم صفحاتی که خزنده موتور جستجوی گوگل تصمیم به خزیدن می گیرد را کنترل کنید اما می توانید سرنخ هایی را ارایه کند که چه صفحاتی برای خزیدن بهتر است و کدام موارد بایستی نادیده گرفته شوند.

سه روش مهم برای کمک به کنترل مکان، زمان و چگونگی خزیدن صفحات وجود دارد. این موارد قطعی نیستند اما کمک می کنند که مطمئن شویم که مهمترین صفحات توسط خزنده موتور جستجو پیدا می شوند.

نقش Robots.txt

اولین کاری که خزنده موتور جستجو به محض ورود به یک صفحه انجام می دهد باز کردن فایل robots.txt است. اینکار فایل robots.txt را به اولین موقعیت برای معرفی نشانی وب کم ارزش به خزنده موتور جستجو بدل می کند.

می توانید از robots.txt برای معرفی صفحات نالازم برای ایندکس شدن استفاده کنید:

از فایل robots.txt برای عدم اجازه به خزش نشانی های وب مانند جاوا اسکریپت یا CSS استفاده نکنید. خزنده موتور جستجو بایستی از بودجه خزش برای این نشانی های وب استفاده کند و گوگل نیز بایستی قادر به ترجمه کامل یک صفحه برای درک آن به شکل صحیح باشد.

اجتناب از خزش فایل های CSS و JS منجربه خزش و ایندکس مشکل‌دار و ناقص می شود، در نتیجه، گوگل صفحه را به شکلی متفاوت از انسان دیده و حتی می تواند منجربه سقوط در رتبه بندی گوگل شود.

نقش نقشه سایت XML

نقشه سایت XML نقشی کاملا متضاد با robots.txt دارد. این فایل به موتورهای جستجو می گوید که چه صفحاتی را بایستی بخزند. و درحالیکه گوگل تعهدی به خزیدن تمام نشانی های وب در فایل نقشه سایت ندارد (برخلاف robots.txt) می توانید از اطلاعات موجود در صفحات برای خزش هوشمندانه تر صفحات توسط گوگل استفاده کنید.

نقشه سایت شما در کمک به یافته شدن صفحات وبسایت توسط خزنده موتور جستجوی گوگل نقش بسیار مهمی ایفا می کند و در صورتی که ساختار لینکدهی داخلی خیلی قدرتمند نباشد ابزاری حیاتی محسوب می شود.

استفاده از تگ های nofollow

به خاطر داشته باشید که خزنده موتور جستجو از صفحه ای به صفحه دیگر با دنبال کردن لینک ها حرکت می کند. بهرحال، می توانید با افزودن rel=nofollow به خزنده بگویید که آن لینک ها را دنبال نکند. وقتیکه موتور جستجو با لینک nofollow روبرو می شود آنها را نادیده می گیرد.

برای nofollow کردن یک لینک دو راه در پیش دارید:

با این روش خزنده های موتور جستجو آن لینک را دنبال نمی کنند اما هنوز دیگر لینک های داخل صفحه را دنبال می کنند.

با استفاده از ویژگی rel=nofollow در تگ های لینک دیگر اعتباری به صفحه مقصد انتقال داده نمی شود.

در هر دوی مثال ها (تگ متا یا تگ Anchor)، در صورتیکه لینک دیگری به آن صفحه اشاره کند، نشانی وب مقصد هنوز امکان خزیده شدن و ایندکس شدن دارد.

یافتن خطاهای خزش

خطاهای خزش زمانی رخ می دهند که گوگل تلاش می کند صفحه ای را فرابخواند اما قادر به دسترسی به آن صفحه به دلایلی نیست. خطاهای خزش در به گستردگی یک وبسایت امکان رخ داده شدن دارند.

گزارش پوشش ایندکس در Google Search Console صفحاتی که گوگل در مواجهه با آنها با خطا مواجه می شود و به علاوه مسایلی که گوگل را از ایندکس صحیح صفحات باز می‌دارد را نشان می دهد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *