فایل Robots.txt چیست؟ + بررسی تاثیرات آن در سئو سایت

فایل Robots.txt چیست؟

اجازه دهید برای اینکه شما را با فایل Robots.txt آشنا کنیم، از یک مثال ساده شروع کنیم.

تصور کنید که برای نخستین بار برای انجام کار اداری وارد سازمانی شده‌اید و هیچ مکانی را نیز نمی‌شناسید. مدیران این سازمان نیز همه مراجعه کنندگان را نمی‌شناسند. به همین خاطر در کنار درب ورودی یک کیوسک اطلاعات درست کرده و چند نفر را در آنجا مسئول راهنمایی و نگهبانی قرار داده‌اند. اگر این افراد نگهبان و راهنما نباشد، سازمان دچار بی نظمی و هرج و مرج خواهد شد. هر فرد مراجعه کننده برای انجام کارهای خود بی هدف راهروها را بالا و پایین کرده و کارمندان نیز نمی‌توانند کار خود را به درستی انجام دهند.

فایل Robots.txt در سایت‌ها دقیقاً مسئولیت همین نگهبانان و راهنماها را برعهده دارد. اما نه برای افرادی که وارد وبسایت می‌شوند بلکه برای ربات‌هایی که در جهت بررسی و یا هر کار دیگری که می‌خواهند در قسمت‌های مختلف وب سایت انجام دهند. با ما تا انتهای این مقاله همراه باشید تا به شما بگوییم فایل Robots.txt چیست؟ و چه کاربردی دارد؟

منظور ما از ربات چیست؟

ربات! درست است. فقط انسان ها بازدید کننده وب سایت شما نیستند. ربات‌هایی وجود دارند که بنا به دلایل مختلفی از وب سایت شما بازدید می‌کنند. در واقع ربات‌ها نرم افزارهایی هستند که به طور خودکار صفحات مختلف وب سایت را بررسی می‌کنند. ربات‌های موتور جستجوی گوگل از مهمترین ربات هایی هستند که در اینترنت حضور دارند. این ربات‌ها هر روز به دفعات متعدد صفحات وب سایت شما را بررسی می‌کنند. اگر شما وبسایت بزرگی دارید امکان دارد که ربات‌های گوگل هر روزه چند ده هزار بار صفحات وب سایت شما را بررسی کنند.

هر کدام از این ربات‌ها کار خاصی انجام می‌دهند. مهم‌ترین ربات گوگل یا همان Googlebot وظیفه پیدا کردن صفحات جدیدی در اینترنت را برعهده دارد و آن‌ها را برای بررسی بیشتر توسط الگوریتم‌های رتبه بندی کننده دریافت می‌کند. پس نه تنها وجود ربات‌ها برای وب سایت شما ضرری ندارد. بلکه باید از حضور آنها استقبال کنید.

اما دقت داشته باشید که این ربات‌ها سرتاسر سایت شما را بررسی می‌کنند. برخی اوقات نیز روبات‌ها چیزهایی را که ما نمی‌خواهیم هر کسی آنها را ببیند را برداشته و در سرورهای گوگل ذخیره می‌کنند. پس باید روشی باشد که مانع این کار شویم. خوشبختانه دسترسی ربات‌ها به فایل Robots.txt و یا صفحات را می‌توانیم با استفاده از روش‌هایی که در ادامه این مقاله برایتان بیان می‌کنیم تحت کنترل قرار دهیم.

شما می‌توانید با نوشتن دستورهایی در یک فایل Robots.txt جلوی ورود ربات‌ها به قسمت‌هایی از وبسایت را بگیرید و به آنها اجازه ندهید که وارد همه قسمت سایت شما بشوند یا می‌توانید به آن‌ها دستوراتی خاص بدهید تا سرور میزبان وب سایت شما مشغول رباتها نشود و سایت خود را از نظر سئوی سایت بهینه سازی کنید.

ما در ادامه این مقاله می‌خواهیم با جزئیات کامل در رابطه با فایل txt مطالبی را برایتان بیان کنیم. بنابراین قدم به قدم همراه من تا انتهای این مقاله همراهی کنید تا ببینیم چگونه می‌توان از Robots.txt استفاده کرد؟ چطور می‌توان عملکرد ربات‌ها را محدود کرد؟ و چگونه از ایندکس کردن صفحات جلوگیری کنیم و در نهایت به شما بگوییم که چگونه می‌توان اقدام به ساخت فایل کنیم؟

فایل Robots.txt چیست؟

فایل Robots.txt مانند یک مجوز دهنده به ربات‌ها عمل می‌کند. زمانی که ربات‌ها می‌خواهند صفحاتی از وبسایت شما را بررسی کنند اول فایل را می‌خوانند. در این فایل با ارائه چند دستور و روش ساده مشخص می‌کنیم که ربات‌ها کدام صفحات وب سایت را می‌توانند بررسی کنند و کدام صفحات را نباید بررسی کنند.

مانند تصویر زیر که در آن اجازه دسترسی به پوشه‌ای به نام photos و اجازه دسترسی به صفحه‌ای به نام files.html ندادیم. همان طور که بیان کردیم مهمترین ربات‌ها در فضای اینترنت ربات‌های موتور جستجوی گوگل هستند. بنابراین در ادامه این مقاله هر کجا که از ربات صحبت کردیم منظورمان دقیقاً ربات‌های گوگل است. ربات‌های دیگری نیز وجود دارند که متعلق به سرویس دهنده‌های مختلف اینترنتی هستند. پس از خواندن این مقاله می‌توانید هر نوع رباتی را تنها با دانستن نام آن کنترل و محدود کنید.

چرا باید از فایل Robots.txt استفاده کنیم؟

وب مسترها و مدیران وب سایت می‌توانند ورود ربات‌ها به سایت‌ها را از روش‌های گوناگونی کنترل کنند. کنترل نیز دلایل مختلفی دارد.

به عنوان مثال همه صفحات یک سایت از اهمیت یکسانی برخوردار نیستند. اکثر وب مسترها دوست ندارند که پنل مدیریت سایتشان در موتورهای جستجوگری مانند گوگل ایندکس شود و یا اینکه برخی از صفحات وب سایت محتوای قابل قبولی ندارد و به همین دلیل ترجیح می‌دهند که این صفحات توسط ربات‌ها بررسی نشوند. اگر وبسایتی دارید که هزاران صفحه دارد و همچنین بازدیدکنندگان شما نیز زیاد است، احتمالاً نمی‌خواهید منابع سرور شما مانند قدرت پردازشی و پهنای باند برای بازدیدهای متعدد ربات‌ها صرف شود.

این جا است که فایل فایل Robots.txt وظیفه خود را ایفا می‌کند. هدف اصلی فایل محدود کردن درخواست های بیش از اندازه بازدید از صفحات وب سایت است. یعنی اگر ربات‌ها بخواهند روزی صد بار صفحات را بررسی کنند اما با نوشتن یک دستور ساده در فایل robot می‌توانیم جلوی آنها را بگیریم.

آیا با ساخت فایل Robots.txt می‌توان صفحه را از نتایج جستجو حذف نمود؟

تا چند وقت پیش اگر می‌خواستید به طور کامل صفحه‌ای را از دید ربات‌های گوگل پنهان کنید تا حدی که حتی در نتایج جستجو نیز دیده نشوند با دستور noindex در همین فایل امکان پذیر بود. اما درحال حاضر داستان کمی دشوارتر شده است. این فایل برای مخفی نگه داشتن صفحات از موتور جستجوی گوگل نمی‌تواند کمک زیادی به حذف صفحه از نتایج جستجو کند.

گوگل اعلام کرده است که برای حذف صفحات از نتایج جستجو می‌توانید از راه‌های دیگری به جز ایجاد فایل Robots.txt استفاده کنید. البته هم اکنون می‌توان از این فایل برای استخراج فایل‌هایی مانند ویدیو تصاویر یا صدا از نتایج جستجو استفاده کنید. اما برای صفحات وب سایت مناسب نیستند. روش‌های دیگری را در ادامه این مقاله برای حذف صفحه از نتایج جستجوی گوگل به شما معرفی خواهیم کرد.

آشنایی با ربات‌های گوگل

گوگل تعدادی ربات خزنده (Crawler) در اختیار دارد که به طور خودکار سایت‌ها را اسکن کرده و صفحات را با دنبال کردن لینک‌ها از صفحه به صفحه دیگر پیدا می‌کند.

فهرست زیر شامل مهم‌ترین ربات‌های گوگل است که باید آنها را بشناسید:

AdSense: رباتی برای بررسی صفحه‌ها با هدف نمایش تبلیغات مرتبط
Googlebot Image: رباتی برای ایندکس کردن وب سایت‌های خبری
Googlebot Video: رباتی برای بررسی ویدیوها
Googlebot: این ربات صفحات وب سایت را کشف کرده و آنها را ایندکس می‌کند. دو نوع از این روبات Desktop و Smartphone دارد.

هر یک از این ربات‌ها به طور مجزا صفحات وب سایت را بررسی می‌کنند و شما در صورت لزوم می‌توانید عملکرد هر یک را محدود کنید.

اینکه ربات‌های خزنده هر چند وقت یکبار سایت شما را بررسی کنند به چند عامل بستگی دارد. هر چقدر در طول روز تعداد بیشتری محتوا در سایت شما قرار بگیرد و یا تغییرات سایت اهمیت زیادی داشته باشد، ربات‌های جستجوگر دفعات بیشتری سایت شما را بررسی می‌کنند. برای مثال در سایت‌های خبری که همیشه در حال انتشار و به روز رسانی اخبار هستند ربات ها با سرعت بیشتری صفحات وب سایت را بررسی کرده و مطالب را ایندکس می‌کنند.

در سرچ کنسول قسمتی به نام Crawl Stats وجود دارد که تعداد دفعات بررسی صفحات وب سایت شما را توسط ربات‌ها به صورت روزانه گزارش می‌دهد. در همین صفحه می‌توانید حجم دانلود شده توسط ربات‌ها و یا زمان بارگذاری صفحات را مشاهده کنید.

چرا فایل Robots.txt اهمیت دارد؟

اهمیت فایل txt از این جهت است که:

با ساخت فایل می‌توانید ترافیک ربات‌ها به وب سایت را مدیریت کنید

مدیریت ترافیک ربات‌ها به این دلیل اهمیت دارد که سرور میزان سایت شما برای بارگذاری صفحات و پردازش آنها توسط ربات‌ها مشغول نشود. از سمت دیگر اغلب سرورها و یا میزبان های سایت از لحاظ پهنای باند و ترافیک با محدودیت مواجه هستند. به همین خاطر مصرف ترافیک برای ربات‌ها مقرون به صرفه نیست.

جلوگیری از نمایش فایل ها و یا صفحات در نتایج جستجوی گوگل

اگر در فایل robots دستور دهید که هیچ یک از ربات‌های گوگل اجازه دسترسی به صفحات را ندارند این صفحات بررسی نمی‌شود. اما هیچ تضمینی وجود ندارد که این صفحات را در نتایج جستجوی گوگل مشاهده نکنید. ممکن است ربات‌ها به واسطه لینک‌هایی که به همان صفحه داده شده‌اند و با استفاده از انکر تکست لینک صفحه را ایندکس کنند.

هم اکنون بهترین روش برای حذف صفحات از نتایج جستجو اضافه کردن دستور nindex در بخش head صفحات است. اگر از وردپرس استفاده می‌کنید، افزونه‌هایی برای این کار وجود دارند. در غیر این صورت باید از طراح وب سایت خود درخواست کنید که برای افزودن این کدها و یا دستورالعمل‌ها در قسمت هد هر صفحه امکاناتی را فراهم نماید.

تصورات غلط در مورد سئو و بهینه سازی کردن وب سایت

مدیریت Crawl Budget

هر چه تعداد صفحات سایت شما بیشتر باشد، ربات‌های جستجو زمان بیشتری را برای ایندکس کردن و خزیدن در صفحات لازم دارند. همین زمان طولانی روی رتبه وب سایت شما در نتایج جستجو تأثیر منفی خواهد گذاشت.

به چه علت؟ ربات‌های خزنده موتور جستجوی گوگل دارای خصوصیاتی به نام Crawl Budget هستند.

Crawl Budget درواقع تعداد صفحاتی از سایت است که ربات گوگل تنها در یک روز در آنها خزیده و آنها را مورد بررسی قرار می‌دهد. بودجه شما یا همان تعداد صفحاتی که توسط Googlebot مشاهده می‌شوند، طبق حجم سایت یعنی همان تعداد صفحات وب سایت شما، سلامت آنها (عدم بروز خطا) و تعداد بک لینک‌های وب سایت تعیین می‌شوند.

Crawl Budget به دو قسمت دسته بندی می‌شوند. اولین قسمت Crawl Rate Limit حد نرخ خزیدن است و دومین قسمت Crawl Demand می‌باشد. خوب! حالا در ادامه این مقاله معنی هر یک و تاثیرات آن‌ها را برای شما بیان خواهیم کرد.

Crawl Rate Limit

ربات گوگل به نحوی طراحی شده اند تا برای فضای اینترنت شهروند خوبی باشد. اولین اولویت اصلی این ربات ها خزیدن است. بنابراین به گونه‌ای طراحی شده است که بر تجربه کاربری بازدیدکنندگان سایت تاثیری نداشته باشد. بهینه سازی Crawl Rate Limit نام دارد که برای ارائه تجربه کاربری بهتر در یک روز تعداد صفحات قابل Crawl را محدود می‌کند.

سلامت خزش (Crawl Health): اگر سرعت سایت شما بالا باشد و بتواند به سرعت سیگنالها را پاسخ دهد قطعاً Crawl Rate افزایش می‌یابد. اما اگر وب سایت شما کند باشد و یا در هنگام Crawl خطاهای سروری رخ دهد، خزش ربات گوگل کاهش می‌یابد.

تعیین محدودیت در Google Search Console: مدیران وب سایت‌ها می‌توانند میزان خزش وبسایت خود را کاهش دهند.

آیا هنوز Crawl Budget او را به خاطر دارید؟ قسمت دوم آن Crawl Demand نام دارد. گوگل این قسمت را به این صورت توضیح می‌دهد:

Crawl Demand

حتی اگر ربات گوگل به حد Crawl Rate مشخص شده نرسیده باشد در صورتی که تقاضایی برای ایندکس شدن وجود نداشته باشد، شما شاهد فعالیت کمی روی ربات گوگل خواهید بود. دو عاملی که نقش بسزایی در تعیین Crawl Demand تقاضای خزش وبسایت دارند عبارتند از:

محبوبیت: یعنی آدرس‌هایی که در اینترنت محبوب‌تر بوده و بیشتر از دیگر آدرس‌ها خیره می‌شوند تا در ایندکس گوگل تازه‌تر باشند.

بیات شدن (Staleness): گوگل به گونه‌ای آدرس‌ها را ذخیره می‌کند که از قدیمی شدن آنها جلوگیری نماید.

همچنین اتفاقاتی که بر کل وبسایت تأثیرگذار است مانند جابجایی سایت ممکن است میزان Crawl Demand جهت ایندکس مجدد بر روی آدرس جدید را افزایش دهد.

در نهایت ما برای بررسی دو قسمت Crawl Rate و Crawl Demand مقدار Crawl Budget یک وب سایت را تعریف می‌کنیم. در حقیقت Crawl Budget تعداد URL هایی است که ربات گوگل آنها را ایندکس می‌کند.

حالا می‌خواهیم تعریف گوگل از Crawl Budget را بار دیگر بیان کنیم:

Crawl Budget تعداد url هایی است که ربات گوگل می‌خواهند و می‌تواند آنها را ایندکس کند.

قطعاً شما هم می‌خواهید ربات گوگل Crawl Budget وب سایت شما را به بهترین شکل ممکن مصرف کند. به بیان دیگر ربات گوگل باید مهم‌ترین و ارزشمندترین صفحات شما را بیشتر و بهتر بررسی نماید.

البته گوگل بیان می‌کند فاکتورها و عوامل گوناگونی وجود دارند که بر روی عملیات خزش و یا ایندکس شدن وبسایت تأثیر منفی می‌گذارند.

وجود صفحات خطا
صفحات هک شده در سایت
محتوای اسپم و بی ارزش
محتوای تکراری در وبسایت
استفاده از Session Identifier
وجود ناوبری ضعیف در وب سایت

هدر دادن منابع سرور برای این صفحات سبب از بین رفتن Crawl Budget شما می‌شود. بدین ترتیب صفحات مهمی که واقعاً نیاز به ایندکس شدن دارند بسیار دیرتر به نتایج جستجو راه می‌یابند.

حالا به موضوع اصلی خودمان یعنی فایل Robots.txt برمیگردیم.

اگر بتوانید اقدام به ایجاد فایل Robots.txt کنید می‌توانید به موتورهای جستجو بگویید که کدام صفحات را بررسی نکنند. در حقیقت با انجام این کار به ربات‌ها می گویید کدام صفحه‌ها در الویت شما نیستند. حتماً شما نیز نمی‌خواهید ربات خزنده گوگل برای مشاهده و ایندکس محتوای تکراری و کم ارزش، سرور وب سایت شما را اشغال نماید.

با استفاده از فایل Robots.txt می‌توان به ربات‌های جستجوگر گوگل بگویید کدام صفحات را مشاهده نکنند وکدام یک را در الویت قرار ندهند. حتماً شما نمی‌خواهید ربات خزنده گوگل برای مشاهده ایندکس محتوای کم ارزش و تکراری سرور شما را اشغال نمایند. با استفاده درست از فایل Robots.txt می‌توانید به ربات جستجوگر بگویید که Crawl Budget وب سایت شما را به درستی مصرف کنند. همین امکان است که اهمیت فایل فایل Robots.txt را در سئو دو چندان می‌کند.

دقت داشته باشید اگر وب سایت شما فایل Robots.txt ندارد، ربات‌های گوگل نیز کار خود را انجام می‌دهند. وقتی رباتی بخواهد سایتی را بررسی کند اگر چنین فایلی در آن وجود نداشته باشد بدون وجود هیچ محدودیتی همه قسمت‌های سایت را بررسی می‌کند.

هم اکنون می‌خواهیم روش استفاده از فایل و آموزش ساخت فایل Robots.txt را در ادامه این مقاله برایتان بیان کنیم.

محدودیت‌های دستورالعمل‌های فایل Robots.txt

فایل Robots.txt محدودیت‌هایی که دارند که باید از آنها اطلاع داشته باشید.

1-دستورات استفاده شده در فایل برای همه رباتهای موتورهای جستجو یکسان می‌باشد. اینکه ربات‌های جستجو از این دستورالعمل‌ها پیروی کنند بستگی به دستورهای موتور جستجو دارد. امکان دارد ربات‌های گوگل همه این دستورها را اجرا کنند اما موتور جستجوگر دیگری مانند بینگ یا یاندکس این دستورها را پیروی نکنند. بهتر است که در ابتدا دستورالعمل‌های هر موتور جستجو را خوانده و مطمئن شوید دستوراتی که می‌نویسید برای همه آنها کار می‌کند.

2- ممکن است هر یک از ربات‌ها دستوراتی را به شکل متفاوتی درک کنند. یعنی امکان دارد دو روبات متعلق به یک موتور جستجو یکی از آن ها از دستورات پیروی کرده و دیگری از آن پیروی نکند.

اگر به ربات‌ها اجازه بررسی صفحه را با دستورات فایل Robots.txt نداده باشیم باز هم ممکن است گوگل آن را ایندکس کند و در نتایج جستجو دیده شود. ربات گوگل یا باید به طور مستقیم صفحه را بررسی کند و یا باید از طریق لینک‌های دیگری که از صفحه‌ها و سایت‌های دیگر به آن صفحه داده شده است را پیدا کرده و آنها را بررسی کند.

اگر صفحات سایت خود را در فایل Robots.txt نوایندکس کنید. گوگل آن را در نتایج جستجو نشان می‌دهد. گوگل به کمک انکر تکست هر لینک و سایر فاکتورها رتبه‌ای به این صفحات در نتایج جستجوهای مرتبط می‌دهد. این صفحه‌ها در نتایج جستجو بدون توضیحات متا دیده می‌شوند. زیرا گوگل توضیحات متا و محتوای صفحه را ذخیره نکرده است.

آشنایی با دستورالعمل فایل Robots.txt و معانی آنها

به طور کلی چهار دستور مهم در فایل Robots.txt وجود دارد:

User-agent: برای تعیین کردن رباتی که دستورات برای آن نوشته شده است.
Disallow: قسمت‌هایی که ربات اجازه بررسی آنها را ندارد.
Allow: بخش‌هایی که ربات مجاز به بررسی آن‌ها می‌باشد.
Sitemap: برای نشان دادن آدرس فایل نقشه وبسایت به ربات‌ها

در ادامه این مقاله توضیح می‌دهیم که چگونه باید از این دستورالعمل‌ها استفاده کنید.

مشخص کردن ربات با User-agent

شما می‌توانید از این دستور با هدف گیری یک ربات خاص استفاده کنید. این دستور به دو شکل در فایل robots.txt استفاده می‌شود.

اگر می‌خواهید به همه ربات‌های خزنده دستور مشابه و یکسان بدهید تنها کافی است پس از عبارت User-agent از علامت ستاره استفاده کنید. علامت ستاره به معنی همه چیز است مانند:

*: User-agent

دستورالعمل بالا به این معنا است که دستورات بعدی برای همه ربات‌های جستجوگر به یک شیوه عمل می‌کند.

اگر می‌خواهید تنها به یک ربات خاص مانند ربات گوگل دستور خاصی را بدهید باید دستور شما به شکل زیر نوشته شود:

User-agent: Googlebot

کد بالا به این معنا است که اجرای دستورات فایل تنها برای ربات گوگل الزامی می‌باشد.

مشخص کردن قسمت‌های غیرمجاز با دستورالعمل Disallow

این دستور به روبات‌ها می‌گوید که از چه فولدرهایی در وب سایت بازدید نکنند. در واقع این دستور بیانگر آدرس‌هایی است که می‌خواهید از دید ربات‌های جستجوگر پنهان بمانند.

به عنوان مثال اگر نمی‌خواهید موتورهای جستجو تصاویر سایت شما را ایندکس کنند، می‌توانید همه تصاویر را داخل یک پوشه در هاستینگ قرار داده و از دسترس موتورهای جستجو دور نگه دارید.

تصور کنید که تمام این تصاویر را به داخل پوشه‌ای به نام تصاویر منتقل کرده‌اید برای اینکه به گوگل بگویید این تصاویر را ایندکس نکنند باید دستوری مانند دستور زیر را در فایل ایجاد کنید.

*:User-agent

Disallow: /photos

دستور پس از Disallow به ربات گوگل می‌گوید باید وارد فولدری در ریشه فایل شوی که اسم این پوشه photos است.

این دو خط در فایل به هیچ یک از روبات‌ها اجازه نمی‌دهد که به پوشه تصاویر وارد شوند. در کد دستوری بالا قسمت «User-agent: *» بیان می‌کند: که برای همه موتورهای جستجوگر اجرای این دستور الزامی نمی‌باشد. اما در قسمت Disallow: /photos بیانگر این موضوع است که ربات اجازه ورود و یا ایندکس پوشه تصاویر وب سایت را ندارند.

چرا موتورهای جستجو نمی‌توانند سایتی که سئو نشده را بیابند؟

مشخص کردن قسمت‌های مجاز برای ربات‌ها با استفاده از دستورالعمل Allow

همان طور که بیان کردیم ربات خزنده و ایندکس کننده گوگل Googlebot نام دارد. این ربات به نسبت سایر ربات‌های جستجوگر دستورات بیشتری را متوجه می‌شود. علاوه بر دستورات “User-agent” و”Disallow” ربات گوگل دستور دیگری به نام “Allow” را نیز در ک می‌کند.

دستورالعمل “Allow”این امکان را به شما می‌دهد تا به ربات گوگل بگویید که اجازه بررسی کدام فایل در فولدری که Disallowed شده است را دارد. برای درک بهتر این دستور بگذارید از مثال قبلی استفاده کنیم.

در مثال گذشته رشته کدی را نوشتیم که اجازه دسترسی به تصاویر وب سایت را به ربات‌ها جستجو نمی‌داد. همه تصاویر سایت را در داخل یک پوشه به نام Photos قرار دادیم و با با اجرای دستور زیر اقدام به ایجاد robots txt فایل کردیم.

*:User-agent

Disallow: /photos

هم اکنون تصور کنید داخل این پوشه ما که در هاستینگ وب سایت قرار دارد تصویری به نام ostadweb.jpg وجود دارد که ما قصد داریم آن را ایندکس کند. با استفاده از دستور زیر می‌توانید به ربات گوگل بگویید که این عمل را انجام دهد.

*:User-agent

Disallow: /photos

Allow: /photos/stadweb.jpg

این دستورها به ربات گوگل می گویند که علاوه بر اینکه فولدر تصاویر از دسترس روبات خارج شده است، اجازه مشاهده و یا ایندکس فایل ostadweb.jpg را دارند.

نقشه وب سایت

گوگل برای صاحبان و وب مستر ها چند روش برای دسترسی به نقشه سایت قرار داده است. یکی از این روش‌ها نوشتن آدرس فایل در فایل است.

Sitemap: https://example.com/sitemap.xml

هیچ الزامی وجود ندارد که آدرس نقشه وبسایت را از این راه به ربات‌های گوگل معرفی کنید. بهترین روش ارائه نقشه سایت به گوگل استفاده از ابزار سرچ کنسول می‌باشد.

در قسمت بعدی آموزش ساخت فایل Robots.txt را برایتان بیان خواهیم کرد.

فایل Robots.txt کجاست؟

اگر تمایل دارید که نگاهی به فایل Robots.txt وبسایت خود و یا هر سایت دیگری بیندازید، پیدا کردنش دشوار نیست.

همه کارهایی که باید انجام دهید این است که یک آدرس معمولی در مرورگر خود وارد کرده و سپس عبارت robots.txt/ در انتهای url وارد نمایید. با انجام این کار فایل robots را در مرورگر می‌بینید.

با دیدن فایل Robots.txt دیگر سایت‌ها می‌توانید برای وب سایت خود از آنها الگو بگیرید. فایل Robots.txt در بخش Root وب سایت شما قرار دارد. برای دستیابی به دایرکتوری Root وب سایت خود می‌توانید به اکانت هاستینگ سایت وارد شده و پس از ورود به بخش مدیریت فایل بروید.

به احتمال قوی با چنین صفحه‌ای مواجه خواهید شد:

فایل robots.txt خود را پیدا کرده و آن را برای ویرایش باز کنید و دستور جدید را که می‌خواهید وارد کرده و سپس آن را ذخیره نمایید.

نکته

این امکان وجود دارد که فایل اصلی را درون دایرکتوری Root وبسایت پیدا نکنید. علت این اتفاق این است که برخی سیستم‌های مدیریت محتوا به طور خودکار یک فایل robots.txt مجازی ایجاد می‌کنند. اگر با چنین مشکلی مواجه هستید، بهتر است یک فایل جدید برای سایت خود ایجاد کرده تا همیشه به آن دسترسی داشته باشید.

ساخت ربات در گوگل

برای ساخت ربات نیاز به برنامه خاصی ندارید. همان نوت پد ساده ویندوز ویا ویرایشگر متن دیگری که فایل خروجی از نوع txt دارد قابل استفاده می‌باشد.

برای ساخت فایل robots.txt تنها یک فایل txt جدید بسازید. فرمت txt یا انکودینگ فایل حتماً باید UTF-8 باشد.

هم اکنون یک فایل باز کرده و طبق راهنمایی که گفتیم دستورات لازم را در آن اجرا کنیم. پس از این که فایل را ساختید، آن را در سرور میزبان وب سایت آپلود کنید.

بارگذاری فایل Robots در وب سایت

فایل ربات‌ها باید در ریشه (root) قرار بگیرند. یعنی درست در همان پوشه اصلی میزبان وب سایت. این فایل نباید داخل پوشه یا دایرکتوری قرار بگیرند به گونه‌ای که آدرس دسترسی به آن مانند مثال زیر باشد:

https://www.example.com/robots.txt

هر حالت دیگری که فایل ربات در ریشه سایت نباشد آن را از دسترس ربات خارج می‌کند. مثال آدرس زیر یک فایل robot در پوشه pages قرار گرفته است:

https://example.com/pages/robots.txt

تفاوتی ندارد میزبان وب سایت شما یک سرور اختصاصی اشتراکی و یا مجازی است، تنها کافی است که این فایل را در همان دایرکتوری اصلی وب سایت یا پوشه بارگذاری کنید.

شما می‌توانید فایل ربات هر سایت دیگری را به راحتی مشاهده کنید. تنها کافی است به انتهای آدرس سایت عبارت robots.txt/اضافه نموده و سپس آن را باز کنید.

تست فایل Robots با استفاده از ابزار گوگل

برای تست این این که یک صفحه و یا هر نوع فایلی توسط فایل Robots.txt بلاک شده و اطمینان از اینکه خود فایل Robots در دسترس است، می‌توانید از ابزاری مانند ابزار تست کننده در سرچ کنسول گوگل استفاده نمایید.

اگر سایت خود را به ابزار سرچ کنسول گوگل متصل کرده باشید زمانی که این ابزار تست را باز کنید از شما درخواست می‌کند که وب‌سایت متصل شده مد نظر را انتخاب کنید.

پس از انتخاب سایت به صفحه‌ای هدایت می‌شوید که آخرین محتوای فایل Robots.txt گوگل دریافت و ارزیابی کرده است را به شما نشان می‌دهد. می‌توانید این فایل را در همین صفحه ویرایش کنید و با زدن دکمه submit صفحه‌ای باز می‌شود.

در این صفحه مانند تصویر زیر سه دکمه مشاهده می‌کنید:

با دکمه اول فایل Robots.txt جدید را دانلود می‌کنید.
حالا باید این فایل را در سرور میزبان به جای فایل قبلی قرار دهید.
پس از آپلود اگر دکمه View uploaded version را بزنید نسخه جدید آن را باز می‌کنید.
در نهایت فشردن دکمه submit از گوگل درخواست کنید تا فایل جدید را دریافت و بررسی کند.

اگر این کارها را با موفقیت انجام دهید ساعت و تاریخ آخرین بررسی فایل ربات به زمانی پس از درخواست شما تغییر می‌یابد. برای اطمینان نیز می‌توانید دوباره از این ابزار استفاده کنید.

این ابزار می‌تواند به طور مستقیم اقدام به ویرایش فایل robots.txt کند. پس از زدن دکمه submit پنجره جدیدی باز می‌شود که از شما درخواست می‌کند فایل جدید ویرایش شده را دانلود کرده و به جای فایل قبلی در سرور میزبان سایت جایگزین نمایید.

اگر می‌خواهید صفحات مشخصی را تست کنید، تنها کافی است آدرس آن را در نوار پایینی وارد نمایید و بعد ربات گوگلی که مورد نظرتان است را انتخاب کنید. هر زمان که دکمه تست را بزنید در همان لحظه به شما نمایش داده می‌شود که اجازه دسترسی ربات‌ها را به صفحه داده‌اید یا خیر؟

به عنوان مثال می‌توانید بررسی کنید که آیا ربات مخصوص تصاویر گوگل به یک صفحه خاص دسترسی دارد یا خیر! امکان دارد به همان صفحه اجازه دستیابی ربات به تصاویر را داده باشید. اما ربات تصاویر مجاز به دریافت تصاویر و نمایش آن در نتایج جستجو نباشد.

چگونه از گوگل بخواهیم صفحه‌ای را در نتایج جستجو به کاربران نشان ندهد؟

گوگل پس از اینکه بیان کرد استفاده از دستورات noindex و disallow کمکی به خروج صفحات از نتایج جستجو نمی‌کنند روش‌های دیگری را برای انجام این کار معرفی نمود.

گوگل بیان می‌کند اگر می‌خواهید صفحاتی از نتایج جستجو به طور کامل حذف شوند باید دستورات را در همان صفحه قرار دهید. آسان‌ترین روش حذف کردن صفحه از نتایج جستجو استفاده از دستورالعمل‌های به اصطلاح متا تگ در قسمت هد صفحه است.

برای اضافه کردن این کدها یا باید به طور مستقیم کدهای html صفحه را ویرایش کنید و یا اینکه از سایر افزونه‌ها برای نوایندکس کردن استفاده نمایید. در واقع افزونه‌ها فقط این کدها را به صفحه اضافه می‌کنند.

اگر با کدهای html آشنایی دارید پس می دانید که هر صفحه ۲ دو بخش هد (head) و بدنه (body) دارد. شما باید دستور نوایندکس را در قسمت هد قرار دهید.

خوب این هم فایل این ربات‌ها!

تقریباً دیگر برای معرفی فایل سخنی برای گفتن باقی نمانده است. هرآنچه که برای کنترل این روبات‌های فضول اما مفید لازم بود را به زبانی ساده برایتان توضیح دادیم.

تنها نیاز است یکبار این فایل را آماده کنید و دیگر با آن کار نداشته باشید. مگر اینکه تغییرات اساسی و مهمی در ساختار وب سایت ایجاد کرده باشید.

ممنون از اینکه تا پایان این مقاله همراه وب سایت استاد وب بودید. امیدواریم که از مطالعه مطالب گفته شده نهایت لذت برده باشید و مطالب برایتان کاربردی، آموزنده و مفید واقع شده باشند. همچنین در صورت تمایل برای مطالعه سایر مطالب مرتبط به کسب و کار اینترنتی و بازاریابی دیجیتال می‌توانید به لینک‌های قرار داده شده در زیر مراجعه نموده و از این طریق اقدام به افزایش اطلاعات خود نمایید.

فایل Robots.txt چیست؟ + بررسی تاثیرات آن در سئو سایت

منظور ما از ربات چیست؟

فایل Robots.txt چیست؟

چرا باید از فایل Robots.txt استفاده کنیم؟

آیا با ساخت فایل Robots.txt می‌توان صفحه را از نتایج جستجو حذف نمود؟

آشنایی با ربات‌های گوگل

چرا فایل Robots.txt اهمیت دارد؟

با ساخت فایل می‌توانید ترافیک ربات‌ها به وب سایت را مدیریت کنید

جلوگیری از نمایش فایل ها و یا صفحات در نتایج جستجوی گوگل

مدیریت Crawl Budget

Crawl Rate Limit

Crawl Demand

حالا می‌خواهیم تعریف گوگل از Crawl Budget را بار دیگر بیان کنیم:

محدودیت‌های دستورالعمل‌های فایل Robots.txt

آشنایی با دستورالعمل فایل Robots.txt و معانی آنها

مشخص کردن قسمت‌های غیرمجاز با دستورالعمل Disallow

مشخص کردن قسمت‌های مجاز برای ربات‌ها با استفاده از دستورالعمل Allow

نقشه وب سایت

فایل Robots.txt کجاست؟

نکته

ساخت ربات در گوگل

بارگذاری فایل Robots در وب سایت

تست فایل Robots با استفاده از ابزار گوگل

چگونه از گوگل بخواهیم صفحه‌ای را در نتایج جستجو به کاربران نشان ندهد؟

خوب این هم فایل این ربات‌ها!

دیدگاه‌ خود را بنویسید لغو پاسخ

آموزش و خدمات دیجیتال مارکتینگ

چند آموزش کلیدی

خدمات ما

نماد اعتماد الکترونیکی

پارک علم و فناوری گیلان

آموزش و خدمات دیجیتال مارکتینگ

نماد اعتماد الکترونیکی

پارک علم و فناوری گیلان