فایل Robots.txt چیست؟
اجازه دهید برای اینکه شما را با فایل Robots.txt آشنا کنیم، از یک مثال ساده شروع کنیم.
تصور کنید که برای نخستین بار برای انجام کار اداری وارد سازمانی شدهاید و هیچ مکانی را نیز نمیشناسید. مدیران این سازمان نیز همه مراجعه کنندگان را نمیشناسند. به همین خاطر در کنار درب ورودی یک کیوسک اطلاعات درست کرده و چند نفر را در آنجا مسئول راهنمایی و نگهبانی قرار دادهاند. اگر این افراد نگهبان و راهنما نباشد، سازمان دچار بی نظمی و هرج و مرج خواهد شد. هر فرد مراجعه کننده برای انجام کارهای خود بی هدف راهروها را بالا و پایین کرده و کارمندان نیز نمیتوانند کار خود را به درستی انجام دهند.
فایل Robots.txt در سایتها دقیقاً مسئولیت همین نگهبانان و راهنماها را برعهده دارد. اما نه برای افرادی که وارد وبسایت میشوند بلکه برای رباتهایی که در جهت بررسی و یا هر کار دیگری که میخواهند در قسمتهای مختلف وب سایت انجام دهند. با ما تا انتهای این مقاله همراه باشید تا به شما بگوییم فایل Robots.txt چیست؟ و چه کاربردی دارد؟
منظور ما از ربات چیست؟
ربات! درست است. فقط انسان ها بازدید کننده وب سایت شما نیستند. رباتهایی وجود دارند که بنا به دلایل مختلفی از وب سایت شما بازدید میکنند. در واقع رباتها نرم افزارهایی هستند که به طور خودکار صفحات مختلف وب سایت را بررسی میکنند. رباتهای موتور جستجوی گوگل از مهمترین ربات هایی هستند که در اینترنت حضور دارند. این رباتها هر روز به دفعات متعدد صفحات وب سایت شما را بررسی میکنند. اگر شما وبسایت بزرگی دارید امکان دارد که رباتهای گوگل هر روزه چند ده هزار بار صفحات وب سایت شما را بررسی کنند.
هر کدام از این رباتها کار خاصی انجام میدهند. مهمترین ربات گوگل یا همان Googlebot وظیفه پیدا کردن صفحات جدیدی در اینترنت را برعهده دارد و آنها را برای بررسی بیشتر توسط الگوریتمهای رتبه بندی کننده دریافت میکند. پس نه تنها وجود رباتها برای وب سایت شما ضرری ندارد. بلکه باید از حضور آنها استقبال کنید.
اما دقت داشته باشید که این رباتها سرتاسر سایت شما را بررسی میکنند. برخی اوقات نیز روباتها چیزهایی را که ما نمیخواهیم هر کسی آنها را ببیند را برداشته و در سرورهای گوگل ذخیره میکنند. پس باید روشی باشد که مانع این کار شویم. خوشبختانه دسترسی رباتها به فایل Robots.txt و یا صفحات را میتوانیم با استفاده از روشهایی که در ادامه این مقاله برایتان بیان میکنیم تحت کنترل قرار دهیم.
شما میتوانید با نوشتن دستورهایی در یک فایل Robots.txt جلوی ورود رباتها به قسمتهایی از وبسایت را بگیرید و به آنها اجازه ندهید که وارد همه قسمت سایت شما بشوند یا میتوانید به آنها دستوراتی خاص بدهید تا سرور میزبان وب سایت شما مشغول رباتها نشود و سایت خود را از نظر سئوی سایت بهینه سازی کنید.
ما در ادامه این مقاله میخواهیم با جزئیات کامل در رابطه با فایل txt مطالبی را برایتان بیان کنیم. بنابراین قدم به قدم همراه من تا انتهای این مقاله همراهی کنید تا ببینیم چگونه میتوان از Robots.txt استفاده کرد؟ چطور میتوان عملکرد رباتها را محدود کرد؟ و چگونه از ایندکس کردن صفحات جلوگیری کنیم و در نهایت به شما بگوییم که چگونه میتوان اقدام به ساخت فایل کنیم؟
فایل Robots.txt چیست؟
فایل Robots.txt مانند یک مجوز دهنده به رباتها عمل میکند. زمانی که رباتها میخواهند صفحاتی از وبسایت شما را بررسی کنند اول فایل را میخوانند. در این فایل با ارائه چند دستور و روش ساده مشخص میکنیم که رباتها کدام صفحات وب سایت را میتوانند بررسی کنند و کدام صفحات را نباید بررسی کنند.
مانند تصویر زیر که در آن اجازه دسترسی به پوشهای به نام photos و اجازه دسترسی به صفحهای به نام files.html ندادیم. همان طور که بیان کردیم مهمترین رباتها در فضای اینترنت رباتهای موتور جستجوی گوگل هستند. بنابراین در ادامه این مقاله هر کجا که از ربات صحبت کردیم منظورمان دقیقاً رباتهای گوگل است. رباتهای دیگری نیز وجود دارند که متعلق به سرویس دهندههای مختلف اینترنتی هستند. پس از خواندن این مقاله میتوانید هر نوع رباتی را تنها با دانستن نام آن کنترل و محدود کنید.
چرا باید از فایل Robots.txt استفاده کنیم؟
وب مسترها و مدیران وب سایت میتوانند ورود رباتها به سایتها را از روشهای گوناگونی کنترل کنند. کنترل نیز دلایل مختلفی دارد.
به عنوان مثال همه صفحات یک سایت از اهمیت یکسانی برخوردار نیستند. اکثر وب مسترها دوست ندارند که پنل مدیریت سایتشان در موتورهای جستجوگری مانند گوگل ایندکس شود و یا اینکه برخی از صفحات وب سایت محتوای قابل قبولی ندارد و به همین دلیل ترجیح میدهند که این صفحات توسط رباتها بررسی نشوند. اگر وبسایتی دارید که هزاران صفحه دارد و همچنین بازدیدکنندگان شما نیز زیاد است، احتمالاً نمیخواهید منابع سرور شما مانند قدرت پردازشی و پهنای باند برای بازدیدهای متعدد رباتها صرف شود.
این جا است که فایل فایل Robots.txt وظیفه خود را ایفا میکند. هدف اصلی فایل محدود کردن درخواست های بیش از اندازه بازدید از صفحات وب سایت است. یعنی اگر رباتها بخواهند روزی صد بار صفحات را بررسی کنند اما با نوشتن یک دستور ساده در فایل robot میتوانیم جلوی آنها را بگیریم.
آیا با ساخت فایل Robots.txt میتوان صفحه را از نتایج جستجو حذف نمود؟
تا چند وقت پیش اگر میخواستید به طور کامل صفحهای را از دید رباتهای گوگل پنهان کنید تا حدی که حتی در نتایج جستجو نیز دیده نشوند با دستور noindex در همین فایل امکان پذیر بود. اما درحال حاضر داستان کمی دشوارتر شده است. این فایل برای مخفی نگه داشتن صفحات از موتور جستجوی گوگل نمیتواند کمک زیادی به حذف صفحه از نتایج جستجو کند.
گوگل اعلام کرده است که برای حذف صفحات از نتایج جستجو میتوانید از راههای دیگری به جز ایجاد فایل Robots.txt استفاده کنید. البته هم اکنون میتوان از این فایل برای استخراج فایلهایی مانند ویدیو تصاویر یا صدا از نتایج جستجو استفاده کنید. اما برای صفحات وب سایت مناسب نیستند. روشهای دیگری را در ادامه این مقاله برای حذف صفحه از نتایج جستجوی گوگل به شما معرفی خواهیم کرد.
آشنایی با رباتهای گوگل
گوگل تعدادی ربات خزنده (Crawler) در اختیار دارد که به طور خودکار سایتها را اسکن کرده و صفحات را با دنبال کردن لینکها از صفحه به صفحه دیگر پیدا میکند.
فهرست زیر شامل مهمترین رباتهای گوگل است که باید آنها را بشناسید:
- AdSense: رباتی برای بررسی صفحهها با هدف نمایش تبلیغات مرتبط
- Googlebot Image: رباتی برای ایندکس کردن وب سایتهای خبری
- Googlebot Video: رباتی برای بررسی ویدیوها
- Googlebot: این ربات صفحات وب سایت را کشف کرده و آنها را ایندکس میکند. دو نوع از این روبات Desktop و Smartphone دارد.
هر یک از این رباتها به طور مجزا صفحات وب سایت را بررسی میکنند و شما در صورت لزوم میتوانید عملکرد هر یک را محدود کنید.
اینکه رباتهای خزنده هر چند وقت یکبار سایت شما را بررسی کنند به چند عامل بستگی دارد. هر چقدر در طول روز تعداد بیشتری محتوا در سایت شما قرار بگیرد و یا تغییرات سایت اهمیت زیادی داشته باشد، رباتهای جستجوگر دفعات بیشتری سایت شما را بررسی میکنند. برای مثال در سایتهای خبری که همیشه در حال انتشار و به روز رسانی اخبار هستند ربات ها با سرعت بیشتری صفحات وب سایت را بررسی کرده و مطالب را ایندکس میکنند.
در سرچ کنسول قسمتی به نام Crawl Stats وجود دارد که تعداد دفعات بررسی صفحات وب سایت شما را توسط رباتها به صورت روزانه گزارش میدهد. در همین صفحه میتوانید حجم دانلود شده توسط رباتها و یا زمان بارگذاری صفحات را مشاهده کنید.
چرا فایل Robots.txt اهمیت دارد؟
اهمیت فایل txt از این جهت است که:
با ساخت فایل میتوانید ترافیک رباتها به وب سایت را مدیریت کنید
مدیریت ترافیک رباتها به این دلیل اهمیت دارد که سرور میزان سایت شما برای بارگذاری صفحات و پردازش آنها توسط رباتها مشغول نشود. از سمت دیگر اغلب سرورها و یا میزبان های سایت از لحاظ پهنای باند و ترافیک با محدودیت مواجه هستند. به همین خاطر مصرف ترافیک برای رباتها مقرون به صرفه نیست.
جلوگیری از نمایش فایل ها و یا صفحات در نتایج جستجوی گوگل
اگر در فایل robots دستور دهید که هیچ یک از رباتهای گوگل اجازه دسترسی به صفحات را ندارند این صفحات بررسی نمیشود. اما هیچ تضمینی وجود ندارد که این صفحات را در نتایج جستجوی گوگل مشاهده نکنید. ممکن است رباتها به واسطه لینکهایی که به همان صفحه داده شدهاند و با استفاده از انکر تکست لینک صفحه را ایندکس کنند.
هم اکنون بهترین روش برای حذف صفحات از نتایج جستجو اضافه کردن دستور nindex در بخش head صفحات است. اگر از وردپرس استفاده میکنید، افزونههایی برای این کار وجود دارند. در غیر این صورت باید از طراح وب سایت خود درخواست کنید که برای افزودن این کدها و یا دستورالعملها در قسمت هد هر صفحه امکاناتی را فراهم نماید.
مدیریت Crawl Budget
هر چه تعداد صفحات سایت شما بیشتر باشد، رباتهای جستجو زمان بیشتری را برای ایندکس کردن و خزیدن در صفحات لازم دارند. همین زمان طولانی روی رتبه وب سایت شما در نتایج جستجو تأثیر منفی خواهد گذاشت.
به چه علت؟ رباتهای خزنده موتور جستجوی گوگل دارای خصوصیاتی به نام Crawl Budget هستند.
Crawl Budget درواقع تعداد صفحاتی از سایت است که ربات گوگل تنها در یک روز در آنها خزیده و آنها را مورد بررسی قرار میدهد. بودجه شما یا همان تعداد صفحاتی که توسط Googlebot مشاهده میشوند، طبق حجم سایت یعنی همان تعداد صفحات وب سایت شما، سلامت آنها (عدم بروز خطا) و تعداد بک لینکهای وب سایت تعیین میشوند.
Crawl Budget به دو قسمت دسته بندی میشوند. اولین قسمت Crawl Rate Limit حد نرخ خزیدن است و دومین قسمت Crawl Demand میباشد. خوب! حالا در ادامه این مقاله معنی هر یک و تاثیرات آنها را برای شما بیان خواهیم کرد.
Crawl Rate Limit
ربات گوگل به نحوی طراحی شده اند تا برای فضای اینترنت شهروند خوبی باشد. اولین اولویت اصلی این ربات ها خزیدن است. بنابراین به گونهای طراحی شده است که بر تجربه کاربری بازدیدکنندگان سایت تاثیری نداشته باشد. بهینه سازی Crawl Rate Limit نام دارد که برای ارائه تجربه کاربری بهتر در یک روز تعداد صفحات قابل Crawl را محدود میکند.
سلامت خزش (Crawl Health): اگر سرعت سایت شما بالا باشد و بتواند به سرعت سیگنالها را پاسخ دهد قطعاً Crawl Rate افزایش مییابد. اما اگر وب سایت شما کند باشد و یا در هنگام Crawl خطاهای سروری رخ دهد، خزش ربات گوگل کاهش مییابد.
تعیین محدودیت در Google Search Console: مدیران وب سایتها میتوانند میزان خزش وبسایت خود را کاهش دهند.
آیا هنوز Crawl Budget او را به خاطر دارید؟ قسمت دوم آن Crawl Demand نام دارد. گوگل این قسمت را به این صورت توضیح میدهد:
Crawl Demand
حتی اگر ربات گوگل به حد Crawl Rate مشخص شده نرسیده باشد در صورتی که تقاضایی برای ایندکس شدن وجود نداشته باشد، شما شاهد فعالیت کمی روی ربات گوگل خواهید بود. دو عاملی که نقش بسزایی در تعیین Crawl Demand تقاضای خزش وبسایت دارند عبارتند از:
محبوبیت: یعنی آدرسهایی که در اینترنت محبوبتر بوده و بیشتر از دیگر آدرسها خیره میشوند تا در ایندکس گوگل تازهتر باشند.
بیات شدن (Staleness): گوگل به گونهای آدرسها را ذخیره میکند که از قدیمی شدن آنها جلوگیری نماید.
همچنین اتفاقاتی که بر کل وبسایت تأثیرگذار است مانند جابجایی سایت ممکن است میزان Crawl Demand جهت ایندکس مجدد بر روی آدرس جدید را افزایش دهد.
در نهایت ما برای بررسی دو قسمت Crawl Rate و Crawl Demand مقدار Crawl Budget یک وب سایت را تعریف میکنیم. در حقیقت Crawl Budget تعداد URL هایی است که ربات گوگل آنها را ایندکس میکند.
حالا میخواهیم تعریف گوگل از Crawl Budget را بار دیگر بیان کنیم:
Crawl Budget تعداد url هایی است که ربات گوگل میخواهند و میتواند آنها را ایندکس کند.
قطعاً شما هم میخواهید ربات گوگل Crawl Budget وب سایت شما را به بهترین شکل ممکن مصرف کند. به بیان دیگر ربات گوگل باید مهمترین و ارزشمندترین صفحات شما را بیشتر و بهتر بررسی نماید.
البته گوگل بیان میکند فاکتورها و عوامل گوناگونی وجود دارند که بر روی عملیات خزش و یا ایندکس شدن وبسایت تأثیر منفی میگذارند.
- وجود صفحات خطا
- صفحات هک شده در سایت
- محتوای اسپم و بی ارزش
- محتوای تکراری در وبسایت
- استفاده از Session Identifier
- وجود ناوبری ضعیف در وب سایت
هدر دادن منابع سرور برای این صفحات سبب از بین رفتن Crawl Budget شما میشود. بدین ترتیب صفحات مهمی که واقعاً نیاز به ایندکس شدن دارند بسیار دیرتر به نتایج جستجو راه مییابند.
حالا به موضوع اصلی خودمان یعنی فایل Robots.txt برمیگردیم.
اگر بتوانید اقدام به ایجاد فایل Robots.txt کنید میتوانید به موتورهای جستجو بگویید که کدام صفحات را بررسی نکنند. در حقیقت با انجام این کار به رباتها می گویید کدام صفحهها در الویت شما نیستند. حتماً شما نیز نمیخواهید ربات خزنده گوگل برای مشاهده و ایندکس محتوای تکراری و کم ارزش، سرور وب سایت شما را اشغال نماید.
با استفاده از فایل Robots.txt میتوان به رباتهای جستجوگر گوگل بگویید کدام صفحات را مشاهده نکنند وکدام یک را در الویت قرار ندهند. حتماً شما نمیخواهید ربات خزنده گوگل برای مشاهده ایندکس محتوای کم ارزش و تکراری سرور شما را اشغال نمایند. با استفاده درست از فایل Robots.txt میتوانید به ربات جستجوگر بگویید که Crawl Budget وب سایت شما را به درستی مصرف کنند. همین امکان است که اهمیت فایل فایل Robots.txt را در سئو دو چندان میکند.
دقت داشته باشید اگر وب سایت شما فایل Robots.txt ندارد، رباتهای گوگل نیز کار خود را انجام میدهند. وقتی رباتی بخواهد سایتی را بررسی کند اگر چنین فایلی در آن وجود نداشته باشد بدون وجود هیچ محدودیتی همه قسمتهای سایت را بررسی میکند.
هم اکنون میخواهیم روش استفاده از فایل و آموزش ساخت فایل Robots.txt را در ادامه این مقاله برایتان بیان کنیم.
محدودیتهای دستورالعملهای فایل Robots.txt
فایل Robots.txt محدودیتهایی که دارند که باید از آنها اطلاع داشته باشید.
1-دستورات استفاده شده در فایل برای همه رباتهای موتورهای جستجو یکسان میباشد. اینکه رباتهای جستجو از این دستورالعملها پیروی کنند بستگی به دستورهای موتور جستجو دارد. امکان دارد رباتهای گوگل همه این دستورها را اجرا کنند اما موتور جستجوگر دیگری مانند بینگ یا یاندکس این دستورها را پیروی نکنند. بهتر است که در ابتدا دستورالعملهای هر موتور جستجو را خوانده و مطمئن شوید دستوراتی که مینویسید برای همه آنها کار میکند.
2- ممکن است هر یک از رباتها دستوراتی را به شکل متفاوتی درک کنند. یعنی امکان دارد دو روبات متعلق به یک موتور جستجو یکی از آن ها از دستورات پیروی کرده و دیگری از آن پیروی نکند.
اگر به رباتها اجازه بررسی صفحه را با دستورات فایل Robots.txt نداده باشیم باز هم ممکن است گوگل آن را ایندکس کند و در نتایج جستجو دیده شود. ربات گوگل یا باید به طور مستقیم صفحه را بررسی کند و یا باید از طریق لینکهای دیگری که از صفحهها و سایتهای دیگر به آن صفحه داده شده است را پیدا کرده و آنها را بررسی کند.
اگر صفحات سایت خود را در فایل Robots.txt نوایندکس کنید. گوگل آن را در نتایج جستجو نشان میدهد. گوگل به کمک انکر تکست هر لینک و سایر فاکتورها رتبهای به این صفحات در نتایج جستجوهای مرتبط میدهد. این صفحهها در نتایج جستجو بدون توضیحات متا دیده میشوند. زیرا گوگل توضیحات متا و محتوای صفحه را ذخیره نکرده است.
آشنایی با دستورالعمل فایل Robots.txt و معانی آنها
به طور کلی چهار دستور مهم در فایل Robots.txt وجود دارد:
- User-agent: برای تعیین کردن رباتی که دستورات برای آن نوشته شده است.
- Disallow: قسمتهایی که ربات اجازه بررسی آنها را ندارد.
- Allow: بخشهایی که ربات مجاز به بررسی آنها میباشد.
- Sitemap: برای نشان دادن آدرس فایل نقشه وبسایت به رباتها
در ادامه این مقاله توضیح میدهیم که چگونه باید از این دستورالعملها استفاده کنید.
مشخص کردن ربات با User-agent
شما میتوانید از این دستور با هدف گیری یک ربات خاص استفاده کنید. این دستور به دو شکل در فایل robots.txt استفاده میشود.
اگر میخواهید به همه رباتهای خزنده دستور مشابه و یکسان بدهید تنها کافی است پس از عبارت User-agent از علامت ستاره استفاده کنید. علامت ستاره به معنی همه چیز است مانند:
*: User-agent
دستورالعمل بالا به این معنا است که دستورات بعدی برای همه رباتهای جستجوگر به یک شیوه عمل میکند.
اگر میخواهید تنها به یک ربات خاص مانند ربات گوگل دستور خاصی را بدهید باید دستور شما به شکل زیر نوشته شود:
User-agent: Googlebot
کد بالا به این معنا است که اجرای دستورات فایل تنها برای ربات گوگل الزامی میباشد.
مشخص کردن قسمتهای غیرمجاز با دستورالعمل Disallow
این دستور به روباتها میگوید که از چه فولدرهایی در وب سایت بازدید نکنند. در واقع این دستور بیانگر آدرسهایی است که میخواهید از دید رباتهای جستجوگر پنهان بمانند.
به عنوان مثال اگر نمیخواهید موتورهای جستجو تصاویر سایت شما را ایندکس کنند، میتوانید همه تصاویر را داخل یک پوشه در هاستینگ قرار داده و از دسترس موتورهای جستجو دور نگه دارید.
تصور کنید که تمام این تصاویر را به داخل پوشهای به نام تصاویر منتقل کردهاید برای اینکه به گوگل بگویید این تصاویر را ایندکس نکنند باید دستوری مانند دستور زیر را در فایل ایجاد کنید.
*:User-agent
Disallow: /photos
دستور پس از Disallow به ربات گوگل میگوید باید وارد فولدری در ریشه فایل شوی که اسم این پوشه photos است.
این دو خط در فایل به هیچ یک از روباتها اجازه نمیدهد که به پوشه تصاویر وارد شوند. در کد دستوری بالا قسمت «User-agent: *» بیان میکند: که برای همه موتورهای جستجوگر اجرای این دستور الزامی نمیباشد. اما در قسمت Disallow: /photos بیانگر این موضوع است که ربات اجازه ورود و یا ایندکس پوشه تصاویر وب سایت را ندارند.
مشخص کردن قسمتهای مجاز برای رباتها با استفاده از دستورالعمل Allow
همان طور که بیان کردیم ربات خزنده و ایندکس کننده گوگل Googlebot نام دارد. این ربات به نسبت سایر رباتهای جستجوگر دستورات بیشتری را متوجه میشود. علاوه بر دستورات “User-agent” و”Disallow” ربات گوگل دستور دیگری به نام “Allow” را نیز در ک میکند.
دستورالعمل “Allow”این امکان را به شما میدهد تا به ربات گوگل بگویید که اجازه بررسی کدام فایل در فولدری که Disallowed شده است را دارد. برای درک بهتر این دستور بگذارید از مثال قبلی استفاده کنیم.
در مثال گذشته رشته کدی را نوشتیم که اجازه دسترسی به تصاویر وب سایت را به رباتها جستجو نمیداد. همه تصاویر سایت را در داخل یک پوشه به نام Photos قرار دادیم و با با اجرای دستور زیر اقدام به ایجاد robots txt فایل کردیم.
*:User-agent
Disallow: /photos
هم اکنون تصور کنید داخل این پوشه ما که در هاستینگ وب سایت قرار دارد تصویری به نام ostadweb.jpg وجود دارد که ما قصد داریم آن را ایندکس کند. با استفاده از دستور زیر میتوانید به ربات گوگل بگویید که این عمل را انجام دهد.
*:User-agent
Disallow: /photos
Allow: /photos/stadweb.jpg
این دستورها به ربات گوگل می گویند که علاوه بر اینکه فولدر تصاویر از دسترس روبات خارج شده است، اجازه مشاهده و یا ایندکس فایل ostadweb.jpg را دارند.
نقشه وب سایت
گوگل برای صاحبان و وب مستر ها چند روش برای دسترسی به نقشه سایت قرار داده است. یکی از این روشها نوشتن آدرس فایل در فایل است.
Sitemap: https://example.com/sitemap.xml
هیچ الزامی وجود ندارد که آدرس نقشه وبسایت را از این راه به رباتهای گوگل معرفی کنید. بهترین روش ارائه نقشه سایت به گوگل استفاده از ابزار سرچ کنسول میباشد.
در قسمت بعدی آموزش ساخت فایل Robots.txt را برایتان بیان خواهیم کرد.
فایل Robots.txt کجاست؟
اگر تمایل دارید که نگاهی به فایل Robots.txt وبسایت خود و یا هر سایت دیگری بیندازید، پیدا کردنش دشوار نیست.
همه کارهایی که باید انجام دهید این است که یک آدرس معمولی در مرورگر خود وارد کرده و سپس عبارت robots.txt/ در انتهای url وارد نمایید. با انجام این کار فایل robots را در مرورگر میبینید.
با دیدن فایل Robots.txt دیگر سایتها میتوانید برای وب سایت خود از آنها الگو بگیرید. فایل Robots.txt در بخش Root وب سایت شما قرار دارد. برای دستیابی به دایرکتوری Root وب سایت خود میتوانید به اکانت هاستینگ سایت وارد شده و پس از ورود به بخش مدیریت فایل بروید.
به احتمال قوی با چنین صفحهای مواجه خواهید شد:
فایل robots.txt خود را پیدا کرده و آن را برای ویرایش باز کنید و دستور جدید را که میخواهید وارد کرده و سپس آن را ذخیره نمایید.
نکته
این امکان وجود دارد که فایل اصلی را درون دایرکتوری Root وبسایت پیدا نکنید. علت این اتفاق این است که برخی سیستمهای مدیریت محتوا به طور خودکار یک فایل robots.txt مجازی ایجاد میکنند. اگر با چنین مشکلی مواجه هستید، بهتر است یک فایل جدید برای سایت خود ایجاد کرده تا همیشه به آن دسترسی داشته باشید.
ساخت ربات در گوگل
برای ساخت ربات نیاز به برنامه خاصی ندارید. همان نوت پد ساده ویندوز ویا ویرایشگر متن دیگری که فایل خروجی از نوع txt دارد قابل استفاده میباشد.
برای ساخت فایل robots.txt تنها یک فایل txt جدید بسازید. فرمت txt یا انکودینگ فایل حتماً باید UTF-8 باشد.
هم اکنون یک فایل باز کرده و طبق راهنمایی که گفتیم دستورات لازم را در آن اجرا کنیم. پس از این که فایل را ساختید، آن را در سرور میزبان وب سایت آپلود کنید.
بارگذاری فایل Robots در وب سایت
فایل رباتها باید در ریشه (root) قرار بگیرند. یعنی درست در همان پوشه اصلی میزبان وب سایت. این فایل نباید داخل پوشه یا دایرکتوری قرار بگیرند به گونهای که آدرس دسترسی به آن مانند مثال زیر باشد:
https://www.example.com/robots.txt
هر حالت دیگری که فایل ربات در ریشه سایت نباشد آن را از دسترس ربات خارج میکند. مثال آدرس زیر یک فایل robot در پوشه pages قرار گرفته است:
https://example.com/pages/robots.txt
تفاوتی ندارد میزبان وب سایت شما یک سرور اختصاصی اشتراکی و یا مجازی است، تنها کافی است که این فایل را در همان دایرکتوری اصلی وب سایت یا پوشه بارگذاری کنید.
شما میتوانید فایل ربات هر سایت دیگری را به راحتی مشاهده کنید. تنها کافی است به انتهای آدرس سایت عبارت robots.txt/اضافه نموده و سپس آن را باز کنید.
تست فایل Robots با استفاده از ابزار گوگل
برای تست این این که یک صفحه و یا هر نوع فایلی توسط فایل Robots.txt بلاک شده و اطمینان از اینکه خود فایل Robots در دسترس است، میتوانید از ابزاری مانند ابزار تست کننده در سرچ کنسول گوگل استفاده نمایید.
اگر سایت خود را به ابزار سرچ کنسول گوگل متصل کرده باشید زمانی که این ابزار تست را باز کنید از شما درخواست میکند که وبسایت متصل شده مد نظر را انتخاب کنید.
پس از انتخاب سایت به صفحهای هدایت میشوید که آخرین محتوای فایل Robots.txt گوگل دریافت و ارزیابی کرده است را به شما نشان میدهد. میتوانید این فایل را در همین صفحه ویرایش کنید و با زدن دکمه submit صفحهای باز میشود.
در این صفحه مانند تصویر زیر سه دکمه مشاهده میکنید:
- با دکمه اول فایل Robots.txt جدید را دانلود میکنید.
- حالا باید این فایل را در سرور میزبان به جای فایل قبلی قرار دهید.
- پس از آپلود اگر دکمه View uploaded version را بزنید نسخه جدید آن را باز میکنید.
- در نهایت فشردن دکمه submit از گوگل درخواست کنید تا فایل جدید را دریافت و بررسی کند.
اگر این کارها را با موفقیت انجام دهید ساعت و تاریخ آخرین بررسی فایل ربات به زمانی پس از درخواست شما تغییر مییابد. برای اطمینان نیز میتوانید دوباره از این ابزار استفاده کنید.
این ابزار میتواند به طور مستقیم اقدام به ویرایش فایل robots.txt کند. پس از زدن دکمه submit پنجره جدیدی باز میشود که از شما درخواست میکند فایل جدید ویرایش شده را دانلود کرده و به جای فایل قبلی در سرور میزبان سایت جایگزین نمایید.
اگر میخواهید صفحات مشخصی را تست کنید، تنها کافی است آدرس آن را در نوار پایینی وارد نمایید و بعد ربات گوگلی که مورد نظرتان است را انتخاب کنید. هر زمان که دکمه تست را بزنید در همان لحظه به شما نمایش داده میشود که اجازه دسترسی رباتها را به صفحه دادهاید یا خیر؟
به عنوان مثال میتوانید بررسی کنید که آیا ربات مخصوص تصاویر گوگل به یک صفحه خاص دسترسی دارد یا خیر! امکان دارد به همان صفحه اجازه دستیابی ربات به تصاویر را داده باشید. اما ربات تصاویر مجاز به دریافت تصاویر و نمایش آن در نتایج جستجو نباشد.
چگونه از گوگل بخواهیم صفحهای را در نتایج جستجو به کاربران نشان ندهد؟
گوگل پس از اینکه بیان کرد استفاده از دستورات noindex و disallow کمکی به خروج صفحات از نتایج جستجو نمیکنند روشهای دیگری را برای انجام این کار معرفی نمود.
گوگل بیان میکند اگر میخواهید صفحاتی از نتایج جستجو به طور کامل حذف شوند باید دستورات را در همان صفحه قرار دهید. آسانترین روش حذف کردن صفحه از نتایج جستجو استفاده از دستورالعملهای به اصطلاح متا تگ در قسمت هد صفحه است.
برای اضافه کردن این کدها یا باید به طور مستقیم کدهای html صفحه را ویرایش کنید و یا اینکه از سایر افزونهها برای نوایندکس کردن استفاده نمایید. در واقع افزونهها فقط این کدها را به صفحه اضافه میکنند.
اگر با کدهای html آشنایی دارید پس می دانید که هر صفحه ۲ دو بخش هد (head) و بدنه (body) دارد. شما باید دستور نوایندکس را در قسمت هد قرار دهید.
خوب این هم فایل این رباتها!
تقریباً دیگر برای معرفی فایل سخنی برای گفتن باقی نمانده است. هرآنچه که برای کنترل این روباتهای فضول اما مفید لازم بود را به زبانی ساده برایتان توضیح دادیم.
تنها نیاز است یکبار این فایل را آماده کنید و دیگر با آن کار نداشته باشید. مگر اینکه تغییرات اساسی و مهمی در ساختار وب سایت ایجاد کرده باشید.
ممنون از اینکه تا پایان این مقاله همراه وب سایت استاد وب بودید. امیدواریم که از مطالعه مطالب گفته شده نهایت لذت برده باشید و مطالب برایتان کاربردی، آموزنده و مفید واقع شده باشند. همچنین در صورت تمایل برای مطالعه سایر مطالب مرتبط به کسب و کار اینترنتی و بازاریابی دیجیتال میتوانید به لینکهای قرار داده شده در زیر مراجعه نموده و از این طریق اقدام به افزایش اطلاعات خود نمایید.