کاربرد فایل robots.txt
فایل robots.txt چیست ؟
فایل robots.txt ، فایل متنی است که در ریشه سایت قرار می گیرد و مشخص می کند که خزنده های موتورهای جستجو به چه بخش هایی از سایت می توانند دسترسی داشته باشند. این فایل شامل مجموعه کوچکی از دستورات است که دسترسی را به قسمت های مختلف سایت و هم چنین نوع خزنده وب جهت دسترسی مشخص می کند.
فایل robots.txt اجازه می دهد که صفحات بی ارزش و کم محتوا را که نمی خواهید موتورهای جستجو آنها را ایندکس کند از دید موتورهای جستجو پنهان کنید و خزنده موتور جستجو زمانی را صرف ایندکس صفحات ساده و بی ارزش نکند . شما نباید از فایل robots.txt برای مخفی کردن صفحات سایتتان از نتایج موتور جستجو استفاده کنید به این دلیل که ممکن است صفحات دیگر سایتتان به آنها اشاره کنند و صفحه از این راه ایندکس می شود و فایل robots.txt نادیده گرفته خواهد شد. اگر قصد دارید صفحاتی از سایت را از نتایج جستجو پنهان کنید بهتر است روش هایی مانند پسوردگذاری صفحات یا تگ noindex استفاده کنید.
با استفاده از این فایل می توانید فایل های منبع را در این فایل از دسترس ربات ها خارج کنید مانند تصاویر یا فایل های دیگر که اهمیت ندارند . اگر فکر می کنید این فایل ها بارگزاری صفحات دیگر را دچار مشکل می کند یا عدم حضور آنها درک صفحات را برای خزنده سخت می سازد نباید آنها را در فایل robots.txt بلوک کنید.
آشنایی با برخی از محدودیت های فایل robots.txt
دستورات robots.txt فقط دستور هستند
دستورات فایل robots.txt نمی توانند خزنده ها را وادار کنند که با سایت شما چگونه رفتار کنند ، این دستورات نحوه عملکرد را به خزنده ها نشان میدهد که به کدام به بخشی دسترسی دارد یا نه . ربات های گوگل و دیگر خزنده ها از این دستورات پیروی می کنند ولی برخی از خزنده ها مانند ربات های اسپم ممکن است سرپیچی کنند. بنابراین اگر می خواهید اطلاعاتی را محرمانه حفظ کنید همان طور که قبلا گفتیم بهتر است از پسوردگذاری صفحات در سرور استفاده کنید.
خزنده های مختلف تفسیرهای متفاوتی دارند
تمامی خزنده های وب دستورات فایل robots.txt را دنبال می کنند ، هر کدام از خزنده ها ممکن است متفاوت از دیگری دستورات را تفسیر کنند. شما باید با نحوه مناسب و درست تعریف دستورات آشنایی داشته باشید تا همه ربات ها قادر به پیروی و دنبال کردن دستورات باشند.
ساختار فایل robots.txt
دستورات موجود در فایل robots.txt به شرح زیر هستند :
User-agent : نوع روباتی است که نباید به صفحه دسترسی داشته باشد.
Disallow: آدرس صفحه ای است که میخواهید از دید روبات ها پنهان بماند.
مثال :
عدم دسترسی ربات ها به کل محتوا
* : User-agent
/ : Disallow
دسترسی کامل ربات ها به محتوای سایت
* : User-agent
:Disallow
محدود کردن یک نوع ربات (Googlebot) برای دسترسی به فایل خاص (no-google)
User-agent: Googlebot
/Disallow: /no-google
محدود کردن دسترسی ربات Googlebot به یک آدرس خاص از سایت
User-agent: Googlebot
Disallow: /no-google/blocked-page.html
محدود کردن یک تصویر
Googlebot-Image : این ربات مسئول بررسی تصاویر سایت ها و ایندکس کردن آنها می باشد.
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
مخفی کردن تمام تصاویر موجود بر روی سایت از دید موتورهای جستجو
User-agent: Googlebot-Image
/ : Disallow
برای انجام تغییرات در این فایل باید دانش کافی داشته باشید قبل از انجام هرگونه تغییرات اساسی در این فایل با کارشناسان سئو مشورت کنید. در صورت نیاز به مشاوره و راهنمایی با سئویار تماس بگیرید.