txt روبات ها از ایندکس شدن صفحه جلوگیری می کنند. نحوه غیرفعال کردن نمایه سازی صفحات ضروری

فایل Robots.txt— یک فایل متنی با فرمت txt که دسترسی روبات های جستجوگر را به محتوای سرور http محدود می کند. چگونه تعریف، Robots.txt- این هست استاندارد استثنا ربات، که توسط W3C در 30 ژانویه 1994 پذیرفته شد و به طور داوطلبانه توسط اکثر موتورهای جستجو استفاده می شود. فایل robots.txt شامل مجموعه‌ای از دستورالعمل‌ها برای خزنده‌ها است تا از ایندکس شدن برخی از فایل‌ها، صفحات یا فهرست‌ها در سایت جلوگیری کند. توضیحات robots.txt را برای مواردی در نظر بگیرید که سایت دسترسی روبات ها به سایت را محدود نمی کند.

یک مثال ساده robots.txt:

عامل کاربر: * مجاز: /

در اینجا، ربات ها به طور کامل اجازه فهرست بندی کل سایت را می دهند.

فایل robots.txt باید در دایرکتوری ریشه وب سایت شما آپلود شودبه طوری که در آدرس زیر موجود است:

Your_site.ru/robots.txt

قرار دادن فایل robots.txt در ریشه یک سایت معمولا نیاز به دسترسی FTP دارد. با این حال، برخی از سیستم های مدیریتی (CMS) به شما امکان می دهند robots.txt را مستقیماً از کنترل پنل سایت یا از طریق مدیر FTP داخلی ایجاد کنید.

اگر فایل موجود باشد، محتویات robots.txt را در مرورگر خواهید دید.

robots.txt برای چیست؟

Roots.txt برای سایت یک جنبه مهم است. چرا robots.txt مورد نیاز است? به عنوان مثال، در SEO robots.txt برای حذف از فهرست بندی صفحاتی که حاوی محتوای مفید نیستند و موارد دیگر مورد نیاز است.. چگونه، چه چیزی، چرا و چرا حذف می شود قبلا در مقاله در مورد آن توضیح داده شده است، ما در اینجا به این موضوع نمی پردازیم. آیا به فایل robots.txt نیاز دارم؟همه سایت ها؟ بله و خیر. اگر استفاده از robots.txt مستلزم حذف صفحات از جستجو باشد، پس برای سایت های کوچک با ساختار ساده و صفحات استاتیک، چنین استثناهایی ممکن است غیر ضروری باشد. با این حال، حتی برای یک سایت کوچک، برخی دستورات robots.txt، مانند دستور میزبان یا نقشه سایت، اما در زیر در مورد آن بیشتر توضیح می دهیم.

نحوه ایجاد robots.txt

از آنجایی که robots.txt یک فایل متنی است و به یک فایل robots.txt ایجاد کنید، برای مثال می توانید از هر ویرایشگر متنی استفاده کنید دفترچه یادداشت. به محض اینکه یک سند متنی جدید را باز کردید، قبلاً ایجاد robots.txt را شروع کرده اید، تنها باقی می ماند که محتوای آن را بسته به نیاز خود بنویسید و آن را به عنوان ذخیره کنید. فایل متنی به نام روبات با فرمت txt. ساده است و ایجاد یک فایل robots.txt حتی برای مبتدیان نیز نباید مشکلی ایجاد کند. در زیر به شما نشان خواهم داد که چگونه robots.txt بنویسید و چه چیزی در روبات بنویسید.

robots.txt را به صورت آنلاین ایجاد کنید

گزینه ای برای تنبل ها ربات ها را به صورت آنلاین ایجاد کنید و فایل robots.txt را دانلود کنیددر حال حاضر آماده است. ایجاد روبات txt به صورت آنلاین خدمات زیادی را ارائه می دهد، انتخاب با شماست. نکته اصلی این است که به وضوح بفهمیم چه چیزی ممنوع و چه چیزی مجاز است، در غیر این صورت ایجاد یک فایل robots.txt به صورت آنلاین می تواند به یک تراژدی تبدیل شودکه پس از آن اصلاح آن دشوار است. به خصوص اگر چیزی که باید بسته می شد وارد جستجو شود. مراقب باشید - فایل روبات خود را قبل از آپلود در سایت بررسی کنید. هنوز فایل سفارشی robots.txtساختار محدودیت‌ها را با دقت بیشتری نسبت به محدودیت‌هایی که به طور خودکار از سایت دیگری تولید و دانلود شده است، منعکس می‌کند. برای اینکه بدانید هنگام ویرایش robots.txt باید به چه نکاتی توجه ویژه ای داشته باشید، ادامه مطلب را بخوانید.

ویرایش robots.txt

هنگامی که موفق به ایجاد یک فایل robots.txt به صورت آنلاین یا دستی شدید، می توانید robots.txt را ویرایش کنید. شما می توانید محتوای آن را هر طور که دوست دارید تغییر دهید، نکته اصلی این است که از برخی قوانین و نحو robots.txt پیروی کنید. در روند کار در سایت، فایل robots ممکن است تغییر کند و اگر robots.txt را ویرایش می کنید، فراموش نکنید که نسخه به روز و به روز فایل را با تمام تغییرات در سایت آپلود کنید. در مرحله بعد، قوانین تنظیم یک فایل را در نظر بگیرید تا بدانید نحوه تغییر فایل robots.txtو «هیزم را خرد نکنید».

تنظیم صحیح robots.txt

تنظیم صحیح robots.txtبه شما این امکان را می دهد تا از دریافت اطلاعات خصوصی در نتایج جستجوی موتورهای جستجوی اصلی خودداری کنید. با این حال، این را فراموش نکنید دستورات robots.txt چیزی بیش از یک راهنمای عمل نیستند، نه یک دفاع. روبات‌های موتور جستجوی قابل اعتماد مانند Yandex یا Google از دستورالعمل‌های robots.txt پیروی می‌کنند، اما روبات‌های دیگر می‌توانند به راحتی آنها را نادیده بگیرند. درک صحیح و استفاده از robots.txt کلید رسیدن به نتیجه است.

فهمیدن نحوه درست کردن روبات های txt، ابتدا باید قوانین کلی، نحو و دستورات فایل robots.txt را بدانید.

robots.txt صحیح با دستورالعمل User-agent شروع می شود، که نشان می دهد دستورالعمل های خاص به کدام ربات خطاب می شود.

مثال‌های عامل کاربر در robots.txt:

# دستورالعمل‌ها را برای همه روبات‌ها به‌طور همزمان مشخص می‌کند-عامل: * # دستورالعمل‌ها را برای همه روبات‌های Yandex تعیین می‌کند User-agent: Yandex # دستورالعمل‌ها را فقط برای ربات اصلی نمایه‌ساز Yandex مشخص می‌کند. Googlebot

لطفا توجه داشته باشید که چنین راه اندازی فایل robots.txtبه ربات می گوید که فقط از دستورالعمل هایی استفاده کند که کاربر-عامل را با نام آن مطابقت دارد.

مثال Robots.txt با چندین ورودی User-agent:

# توسط همه ربات های Yandex استفاده خواهد شد. عامل: * مجاز: / *utm_

دستورالعمل عامل کاربرفقط یک نشانه برای یک ربات خاص ایجاد می کند و بلافاصله پس از دستورالعمل User-agent باید یک دستور یا دستوراتی با نشانه مستقیم شرایط برای ربات انتخاب شده وجود داشته باشد. مثال بالا از دستور غیرفعال کردن "Disallow" استفاده می کند که مقدار "/*utm_" دارد. بنابراین، ما همه چیز را می بندیم. تنظیم صحیح robots.txt از وجود خطوط خالی بین دستورالعمل‌های «User-agent»، «Disallow» و دستورالعمل‌های زیر «Disallow» در «User-agent» فعلی جلوگیری می‌کند.

مثال نه ترجمه صحیحخطوط در robots.txt:

نمونه ای از یک تغذیه خط صحیح در robots.txt:

عامل کاربر: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

همانطور که از مثال می بینید، دستورالعمل ها در robots.txt به صورت بلوک می آیند، که هر کدام شامل دستورالعمل هایی برای یک ربات خاص یا برای همه ربات های "*" است.

علاوه بر این، مهم است که دنبال کنید سفارش صحیحو مرتب سازی دستورات در robots.txt هنگام به اشتراک گذاری دستورالعمل هایی مانند "Disallow" و "Allow". دستور "Allow" دستور مجاز است و مخالف دستور robots.txt "Disallow" است که یک دستور غیر مجاز است.

نمونه ای از دستورالعمل های اشتراک گذاری در robots.txt:

User-agent: * Allow: /blog/page Disallow: /blog

این مثال مانع از ایندکس کردن تمام صفحاتی که با "/blog" شروع می شوند، همه روبات ها هستند، اما اجازه می دهد تا صفحاتی که با "/blog/page" شروع می شوند، فهرست شوند.

مثال قبلی robots.txt در مرتب سازی صحیح:

عامل کاربر: * غیر مجاز: /blog مجاز: /blog/page

ابتدا کل بخش را غیرفعال می کنیم، سپس برخی از قسمت های آن را مجاز می کنیم.

یکی دیگر نمونه صحیح robots.txtبا بخشنامه های مشترک:

User-agent: * Allow: / Disallow: /blog Allow: /blog/page

به ترتیب صحیح دستورات در این robots.txt دقت کنید.

دستورالعمل های "Allow" و "Disallow" را نیز می توان بدون پارامتر مشخص کرد، در این صورت مقدار به صورت معکوس با پارامتر "/" تفسیر می شود.

مثالی از دستورالعمل "عدم اجازه/اجازه" بدون پارامتر:

User-agent: * Disallow: # برابر است با Allow: / Disallow: /blog Allow: /blog/page

نحوه نوشتن robots.txt صحیحو نحوه استفاده از تفسیر بخشنامه ها انتخاب شماست. هر دو گزینه صحیح خواهد بود. نکته اصلی این است که گیج نشوید.

برای تالیف صحیح robots.txt، باید اولویت ها و موارد ممنوعه دانلود ربات ها را در پارامترهای دستورالعمل ها مشخص کنید. استفاده از دستورات "عدم اجازه" و "اجازه دادن" را به طور کامل در زیر بررسی خواهیم کرد، اما اکنون به نحو robots.txt نگاه می کنیم. دانستن نحو robots.txt شما را به آن نزدیک تر می کند با دستان خود بهترین روبات txt را ایجاد کنید.

نحو Robots.txt

ربات های موتور جستجو داوطلبانه دستورات robots.txt را دنبال می کنند- استاندارد برای استثناها برای روبات ها، اما نه همه موتورهای جستجوبا دستور robots.txt نیز به همین ترتیب رفتار کنید. فایل robots.txt دارای یک نحو کاملاً تعریف شده است، اما در عین حال نوشتن robots txtدشوار نیست زیرا ساختار آن بسیار ساده و قابل درک است.

در اینجا لیست خاصی از قوانین ساده وجود دارد که به دنبال آن شما را حذف خواهید کرد خطاهای رایج robots.txt:

  1. هر دستورالعمل از یک خط جدید شروع می شود.
  2. بیش از یک دستورالعمل را در یک خط وارد نکنید.
  3. در ابتدای یک خط فاصله قرار ندهید.
  4. پارامتر دستورالعمل باید در یک خط باشد.
  5. لازم نیست پارامترهای دستورالعمل را در علامت نقل قول قرار دهید.
  6. پارامترهای دستورالعمل نیازی به بستن نقطه ویرگول ندارند.
  7. دستور در robots.txt با فرمت - [direct_name]:[optional space][value][optional space];
  8. نظرات در robots.txt پس از علامت پوند # مجاز است.
  9. یک خط جدید خالی می تواند به عنوان پایان یک دستورالعمل کاربر-عامل تفسیر شود.
  10. دستورالعمل "Disallow:" (با مقدار خالی) معادل "Allow: /" است - همه چیز را مجاز می کند.
  11. دستورالعمل های "Allow"، "Disallow" بیش از یک پارامتر را مشخص نمی کند.
  12. نام فایل robots.txt اجازه حضور حروف بزرگ را نمی دهد، املای اشتباه نام فایل Robots.txt یا ROBOTS.TXT است.
  13. نوشتن نام دایرکتوری ها و پارامترها با حروف بزرگ بد تلقی می شود و اگر طبق استاندارد، robots.txt به حروف بزرگ و کوچک حساس نباشد، نام فایل ها و دایرکتوری ها اغلب به حروف بزرگ و کوچک حساس هستند.
  14. اگر پارامتر دایرکتوری یک دایرکتوری است، پس از نام دایرکتوری همیشه علامت اسلش "/" قرار می گیرد، به عنوان مثال: Disallow: /category
  15. robots.txt خیلی بزرگ (بیش از 32 کیلوبایت) کاملا مجاز در نظر گرفته می شود، معادل "Disallow: ";
  16. Robots.txt که به دلایلی غیرقابل دسترسی است ممکن است کاملاً مجاز تلقی شود.
  17. اگر robots.txt خالی باشد، به عنوان کاملا مجاز تلقی می شود.
  18. در نتیجه فهرست کردن چندین دستورالعمل «عامل کاربر» بدون خط جدید خالی، همه دستورالعمل‌های «عامل کاربر» بعدی به جز اولین مورد نادیده گرفته می‌شوند.
  19. استفاده از هر گونه علامت الفبای ملی در robots.txt مجاز نیست.

از آنجایی که موتورهای جستجوی مختلف ممکن است نحو robots.txt را متفاوت تفسیر کنند، برخی از نکات را می توان حذف کرد. بنابراین، برای مثال، اگر چندین دستورالعمل «عامل کاربر» را بدون خط خالی مشخص کنید، همه دستورالعمل‌های «عامل کاربر» به درستی توسط Yandex پذیرفته می‌شوند، زیرا Yandex ورودی‌ها را با حضور در خط «عامل کاربر» برجسته می‌کند. .

ربات ها باید به شدت فقط موارد مورد نیاز را نشان دهند و نه بیشتر. فکر نکن چگونه همه چیز را در روبات txt بنویسیمچه چیزی ممکن است و چگونه آن را پر کنید. ربات های کامل txtیکی با خطوط کمتر اما معنی بیشتر است. "اختصار روح شوخ طبعی است". این عبارت در اینجا بسیار مفید است.

نحوه بررسی robots.txt

به robots.txt را بررسی کنیدبرای نحو و ساختار صحیح فایل می توانید از یکی از سرویس های آنلاین استفاده کنید. به عنوان مثال، Yandex و Google خدمات خود را برای وب مسترها ارائه می دهند که شامل تجزیه robots.txt:

بررسی فایل robots.txt در Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

به robots.txt را به صورت آنلاین بررسی کنیدلازم است robots.txt را در دایرکتوری ریشه در سایت آپلود کنید. در غیر این صورت، سرویس ممکن است آن را گزارش کند robots.txt بارگیری نشد. توصیه می شود ابتدا robots.txt را برای در دسترس بودن در آدرسی که فایل در آن قرار دارد بررسی کنید، به عنوان مثال: your_site.ru/robots.txt.

علاوه بر خدمات تأیید از Yandex و Google، بسیاری دیگر به صورت آنلاین وجود دارد. اعتبار سنجی robots.txt.

Robots.txt در مقابل Yandex و Google

یک نظر ذهنی وجود دارد که Yandex نشانگر بلوک جداگانه دستورالعمل "User-agent: Yandex" را در robots.txt مثبت تر از بلوک عمومی دستورالعمل ها با "User-agent: *" درک می کند. وضعیت مشابه با robots.txt و Google. تعیین دستورالعمل های جداگانه برای Yandex و Google به شما امکان می دهد فهرست بندی سایت را از طریق robots.txt مدیریت کنید. شاید آنها از یک جذابیت شخصی متملق شوند، به خصوص که برای اکثر سایت ها محتوای بلوک های robots.txt Yandex، Google و سایر موتورهای جستجو یکسان خواهد بود. با استثناهای نادر، همه بلوک‌های «عامل کاربر» خواهند داشت پیش فرض برای robots.txtمجموعه دستورالعمل ها همچنین، با استفاده از "کاربر-عامل" مختلف می توانید نصب کنید ممنوعیت نمایه سازی در robots.txt برای Yandex، اما، برای مثال، نه برای گوگل.

به طور جداگانه، شایان ذکر است که Yandex دستورالعمل مهمی مانند "Host" را در نظر می گیرد و robots.txt صحیح برای Yandex باید شامل این دستورالعمل برای نشان دادن آینه اصلی سایت باشد. دستورالعمل "میزبان" در زیر با جزئیات بیشتر مورد بحث قرار خواهد گرفت.

غیرفعال کردن نمایه سازی: robots.txt غیر مجاز

غیر مجاز - دستورالعمل منعکه بیشتر در فایل robots.txt استفاده می شود. Disallow ایندکس کردن سایت یا بخشی از آن را بسته به مسیر مشخص شده در پارامتر دستورالعمل Disallow ممنوع می کند.

مثالی از نحوه غیرفعال کردن نمایه سازی سایت در robots.txt:

عامل کاربر: * غیر مجاز: /

این مثال کل سایت را از فهرست بندی برای همه روبات ها می بندد.

کاراکترهای ویژه * و $ را می توان در پارامتر دستور Disallow استفاده کرد:

* - هر تعداد از هر کاراکتر، به عنوان مثال، پارامتر /page* /page، /page1، /page-be-cool، /page/kak-skazat و غیره را برآورده می کند. با این حال، نیازی به تعیین * در پایان هر پارامتر نیست، زیرا، برای مثال، دستورالعمل‌های زیر به همین ترتیب تفسیر می‌شوند:

عامل کاربر: Yandex Disallow: /page User-agent: Yandex Disallow: /page*

$ - مطابقت دقیق استثنا را با مقدار پارامتر نشان می دهد:

عامل کاربر: Googlebot غیر مجاز: /page$

در این مورد، دستور Disallow /page را ممنوع می کند، اما /page1، /page-be-cool یا /page/kak-skazat را از ایندکس شدن منع نمی کند.

اگر یک بستن نمایه سازی سایت robots.txt، موتورهای جستجو ممکن است به چنین حرکتی با خطای "Blocked in robots.txt file" یا "URL محدود شده توسط robots.txt" (url ممنوع شده توسط robots.txt) پاسخ دهند. اگر احتیاج داری غیرفعال کردن نمایه سازی صفحه، می توانید نه تنها از robots txt، بلکه از تگ های html مشابه نیز استفاده کنید:

  • - محتوای صفحه را ایندکس نکنید.
  • - پیوندهای موجود در صفحه را دنبال نکنید.
  • - فهرست کردن مطالب و دنبال کردن پیوندها در صفحه ممنوع است.
  • - مشابه محتوا = "هیچ".

اجازه نمایه سازی: robots.txt مجاز است

اجازه - اجازه بخشنامهو برعکس دستورالعمل Disallow. این دستور دستوری شبیه به Disallow دارد.

مثالی از نحوه غیرفعال کردن نمایه سازی سایت در robots.txt به جز برخی از صفحات:

User-agent: * غیر مجاز: /Allow: /page

ایندکس کردن کل سایت ممنوع است، به جز صفحاتی که با /page شروع می شوند.

Disallow و Allow با مقدار پارامتر خالی

یک دستورالعمل غیر مجاز خالی:

عامل کاربر: * غیر مجاز:

هیچ چیزی را منع نکنید یا اجازه ایندکس کردن کل سایت را بدهید و معادل است با:

عامل کاربر: * مجاز: /

دستورالعمل خالی مجاز است:

عامل کاربر: * مجاز است:

هیچ چیز مجاز نباشد یا ممنوعیت کامل نمایه سازی سایت برابر است با:

عامل کاربر: * غیر مجاز: /

آینه اصلی سایت: robots.txt میزبان

دستورالعمل Host برای نشان دادن آینه اصلی سایت شما به ربات Yandex استفاده می شود. از میان همه موتورهای جستجوی محبوب، دستورالعمل هاست فقط توسط روبات های Yandex شناسایی می شود. دستورالعمل Host در صورتی مفید است که سایت شما در چندین سایت در دسترس باشد، به عنوان مثال:

mysite.ru mysite.com

یا اولویت بندی بین:

Mysite.ru www.mysite.ru

می توانید به ربات Yandex بگویید کدام آینه اصلی است. دستورالعمل Host در بلوک دستورالعمل "User-agent: Yandex" مشخص شده است و به عنوان یک پارامتر، آدرس سایت ترجیحی بدون "http://" نشان داده شده است.

نمونه ای از robots.txt که آینه اصلی را نشان می دهد:

عامل کاربر: Yandex Disallow: /page Host: mysite.ru

نام دامنه mysite.ru بدون www به عنوان آینه اصلی نشان داده شده است. بنابراین، این نوع آدرس در نتایج جستجو نشان داده می شود.

عامل کاربر: Yandex Disallow: / صفحه میزبان: www.mysite.ru

نام دامنه www.mysite.ru به عنوان آینه اصلی نشان داده شده است.

دستورالعمل میزبان در فایل robots.txtفقط یک بار قابل استفاده است، اگر دستورالعمل میزبان بیش از یک بار مشخص شده باشد، فقط اولین مورد در نظر گرفته می شود، سایر دستورالعمل های میزبان نادیده گرفته می شوند.

اگر می خواهید آینه اصلی را برای Googlebot مشخص کنید، از سرویس Google Webmaster Tools استفاده کنید.

نقشه سایت: نقشه سایت robots.txt

با استفاده از دستورالعمل نقشه سایت، می توانید مکان را در سایت در robots.txt مشخص کنید.

مثال Robots.txt با آدرس نقشه سایت:

عامل کاربر: * غیر مجاز: /page Sitemap: http://www.mysite.ru/sitemap.xml

تعیین آدرس نقشه سایت از طریق دستورالعمل نقشه سایت در robots.txtبه ربات جستجوگر اجازه می دهد تا از وجود نقشه سایت مطلع شود و شروع به فهرست کردن آن کند.

دستورالعمل Clean-param

دستورالعمل Clean-param به شما امکان می دهد صفحاتی با پارامترهای پویا را از نمایه سازی حذف کنید. صفحات مشابه می توانند محتوای یکسانی را با URL های صفحه مختلف ارائه دهند. به زبان ساده، گویی صفحه در آدرس های مختلف موجود است. وظیفه ما حذف تمام آدرس های پویا غیر ضروری است که می تواند یک میلیون باشد. برای انجام این کار، ما تمام پارامترهای پویا را حذف می کنیم، با استفاده از دستورالعمل Clean-param در robots.txt.

نحو دستور Clean-param:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [مسیر]

مثال صفحه ای با URL زیر را در نظر بگیرید:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

نمونه robots.txt Clean-param:

Clean-param: فقط parm1&parm2&parm3 /page.html # page.html

Clean-param: parm1&parm2&parm3 / # برای همه

دستورالعمل Crawl-Delay

این دستورالعمل به شما این امکان را می دهد که اگر ربات ها اغلب از سایت شما بازدید می کنند، بار روی سرور را کاهش دهید. این دستورالعمل عمدتاً برای سایت هایی با حجم زیادی از صفحات مرتبط است.

نمونه robots.txt Crawl-delay:

عامل کاربر: Yandex Disallow: /page Crawl-Delay: 3

در این مورد، ما از روبات های Yandex می خواهیم که صفحات سایت ما را بیش از هر سه ثانیه یک بار دانلود کنند. برخی از موتورهای جستجو از فرمت اعشاری به عنوان یک پارامتر پشتیبانی می کنند دستورات Crawl-Delay robots.txt.

گاهی اوقات لازم است که صفحات سایت یا لینک های قرار داده شده روی آنها در نتایج جستجو ظاهر نشوند. می‌توانید با استفاده از فایل robots.txt، نشانه‌گذاری HTML یا مجوز موجود در سایت، محتوای سایت را از نمایه‌سازی پنهان کنید.

ممنوعیت ایندکس کردن سایت، بخش یا صفحه

اگر برخی از صفحات یا بخش‌های سایت نباید ایندکس شوند (مثلاً با اطلاعات اختصاصی یا محرمانه)، دسترسی به آنها را به روش‌های زیر محدود کنید:

    از مجوز در سایت استفاده کنید. ما این روش را برای پنهان کردن صفحه اصلی سایت از نمایه سازی توصیه می کنیم. اگر صفحه اصلی در فایل robots.txt یا با استفاده از متا تگ noindex غیرفعال باشد، اما به آن پیوند داده شده باشد، ممکن است صفحه در نتایج جستجو ظاهر شود.

ممنوعیت نمایه سازی محتوای صفحه

بخشی از متن صفحه را از نمایه سازی پنهان کنید

در کد HTML صفحه، عنصر noindex را اضافه کنید. مثلا:

عنصر به تودرتو حساس نیست - می تواند در هر نقطه از کد HTML صفحه قرار گیرد. اگر می خواهید کد سایت را معتبر کنید، می توانید از برچسب در قالب زیر استفاده کنید:

متنی که باید نمایه شودیک پیوند در یک صفحه را از نمایه سازی پنهان کنید

در کد HTML صفحه، ویژگی a را به عنصر a اضافه کنید. مثلا:

ویژگی مشابه دستور nofollow در متا تگ robots عمل می کند، اما فقط برای پیوندی که برای آن مشخص شده است اعمال می شود.

Robots.txt برای وردپرس یکی از ابزارهای اصلی برای تنظیم نمایه سازی است. قبلاً در مورد تسریع و بهبود روند نمایه سازی مقاله صحبت کردیم. علاوه بر این، آنها این موضوع را طوری در نظر گرفتند که گویی ربات جستجوگر نمی داند و نمی تواند کاری انجام دهد. و ما باید به او بگوییم. برای این کار از یک فایل نقشه سایت استفاده کردیم.

شاید هنوز نمی دانید ربات جستجوگر چگونه سایت شما را ایندکس می کند؟ به‌طور پیش‌فرض، همه چیز مجاز است ایندکس شود. اما او بلافاصله این کار را نمی کند. ربات با دریافت سیگنالی مبنی بر لزوم بازدید از سایت، آن را در یک صف قرار می دهد. بنابراین، نمایه سازی به درخواست ما فوراً انجام نمی شود، بلکه پس از مدتی انجام می شود. هنگامی که نوبت به سایت شما می رسد، این ربات عنکبوتی همان جاست. اول از همه، به دنبال فایل robots.txt می گردد.

اگر robots.txt پیدا شود، تمام دستورالعمل ها را می خواند و آدرس فایل را در پایان می بیند. سپس ربات مطابق با نقشه سایت، تمام مواد ارائه شده برای نمایه سازی را دور می زند. او این کار را در مدت زمان محدودی انجام می دهد. به همین دلیل است که اگر یک سایت با چندین هزار صفحه ایجاد کرده باشید و آن را به طور کامل پست کرده باشید، ربات به سادگی وقت نخواهد داشت که تمام صفحات را یکجا دور بزند. و فقط آنهایی که او موفق به مشاهده آنها شده است وارد فهرست می شوند. و ربات در سراسر سایت قدم می زند و وقت خود را در آن می گذراند. و این یک واقعیت نیست که در وهله اول او دقیقاً صفحاتی را که شما منتظر آنها هستید در نتایج جستجو مشاهده می کند.

اگر ربات فایل robots.txt را پیدا نکند، در نظر می گیرد که همه چیز مجاز به ایندکس شدن است. و او شروع به گشت و گذار در تمام خیابان های پشتی می کند. پس از تهیه یک کپی کامل از هر چیزی که می توانست پیدا کند، سایت شما را تا دفعه بعد ترک می کند. همانطور که می دانید، پس از چنین جستجویی، هر چیزی که مورد نیاز است و هر چیزی که لازم نیست وارد پایگاه فهرست موتور جستجو می شود. آنچه شما باید بدانید مقالات، صفحات، تصاویر، ویدئوها و غیره است. چرا نیازی به ایندکس ندارید؟

برای وردپرس، این مسئله بسیار مهمی است. پاسخ به آن هم بر تسریع ایندکس شدن محتوای سایت شما و هم بر امنیت آن تأثیر می گذارد. واقعیت این است که تمام اطلاعات خدمات نیازی به فهرست بندی ندارند. و به طور کلی مطلوب است که فایل های وردپرس را از چشمان کنجکاو پنهان کنید. این امر احتمال هک شدن سایت شما را کاهش می دهد.

وردپرس کپی های زیادی از مقالات شما با URL های مختلف اما محتوای یکسان ایجاد می کند. به نظر می رسد این است:

//site_name/article_name،

//site_name/category_name/article_name،

//site_name/heading_name/subheading_name/article_name,

//site_name/tag_name/article_name،

//site_name/archive_creation_date/article_name

با تگ ها و بایگانی ها در گارد عمومی. به تعداد تگ هایی که یک مقاله پیوست می شود، تعداد زیادی کپی ایجاد می شود. هنگام ویرایش مقاله، بایگانی های زیادی در تاریخ های مختلف ایجاد می شود، به همان اندازه آدرس های جدید با محتوای تقریبا مشابه ظاهر می شود. و همچنین نسخه هایی از مقالات با آدرس برای هر نظر وجود دارد. این فقط افتضاح است.

تعداد زیادی از موتورهای جستجوی تکراری به عنوان یک سایت بد ارزیابی می شوند. اگر همه این کپی ها نمایه شوند و در جستجو ارائه شوند، وزن مقاله اصلی روی همه نسخه ها پخش می شود که بسیار بد است. و این یک واقعیت نیست که مقاله با آدرس اصلی در نتیجه جستجو نشان داده شود. از این رو ضروری است که نمایه سازی همه کپی ها ممنوع شود.

وردپرس تصاویر را به صورت مقالات جداگانه بدون متن قالب بندی می کند. در این شکل، بدون متن و شرح، مانند مقالاتی کاملاً نادرست به نظر می رسند. بنابراین، باید اقداماتی را برای جلوگیری از ایندکس شدن این آدرس ها توسط موتورهای جستجو انجام دهید.

چرا نباید ایندکس شود؟

پنج دلیل برای ممنوعیت ایندکس کردن!

  1. نمایه سازی کامل بار اضافی بر روی سرور شما وارد می کند.
  2. زمان گرانبهایی از خود ربات می گیرد.
  3. شاید این مهمترین چیز باشد، اطلاعات نادرست می تواند توسط موتورهای جستجو به اشتباه تفسیر شود. این امر منجر به رتبه بندی نادرست مقالات و صفحات و در نتیجه نتایج نادرست در نتایج جستجو می شود.
  4. پوشه‌های دارای قالب و افزونه حاوی تعداد زیادی لینک به سایت‌های سازندگان و تبلیغ‌کنندگان هستند. این برای یک سایت جوان بسیار بد است، زمانی که هنوز هیچ لینکی به سایت شما از خارج وجود ندارد یا بسیار کم است.
  5. با ایندکس کردن تمام نسخه های مقالات شما در آرشیو و نظرات، موتور جستجو نظر بدی نسبت به سایت شما می گیرد. تکراری زیاد بسیاری از لینک های خروجی موتور جستجو سایت شما را در نتایج جستجو تا حد فیلتر کاهش می دهد. و تصاویری که به صورت مقاله ای جداگانه با عنوان و بدون متن طراحی شده اند، ربات را به وحشت می اندازند. اگر تعداد زیادی از آنها وجود داشته باشد، ممکن است سایت تحت فیلتر Yandex AGS سر و صدا کند. سایت من اونجا بود بررسی شد!

حال، پس از تمام آنچه گفته شد، یک سؤال منطقی مطرح می شود: "آیا می توان به نحوی از نمایه سازی چیزی که ضروری نیست، منع کرد؟" معلوم می شود می توانید. حداقل نه به دستور، بلکه با توصیه. وضعیت عدم ممنوعیت کامل نمایه سازی برخی از اشیا به دلیل فایل sitemap.xml رخ می دهد که پس از robots.txt پردازش می شود. به این صورت معلوم می شود: robots.txt ممنوع می کند و sitemap.xml اجازه می دهد. و با این حال ما می توانیم این مشکل را حل کنیم. نحوه انجام آن در حال حاضر و در نظر گرفتن.

فایل wordpress robots.txt به طور پیش فرض پویا است و واقعاً در وردپرس وجود ندارد. و فقط در لحظه ای ایجاد می شود که کسی آن را درخواست کند، خواه یک ربات باشد یا فقط یک بازدید کننده. یعنی اگر از طریق اتصال FTP به سایت بروید، به سادگی فایل robots.txt برای wordpress را در پوشه ریشه پیدا نخواهید کرد. و اگر آدرس خاص آن http://your_site_name/robots.txt را در مرورگر مشخص کنید، محتویات آن را روی صفحه نمایش خواهید دید که انگار فایل وجود دارد. محتوای این فایل wordpress robots.txt تولید شده به صورت زیر خواهد بود:

در قوانین کامپایل فایل robots.txt به طور پیش فرض همه چیز اجازه ایندکس شدن دارد. دستورالعمل User-agent: * نشان می دهد که تمام دستورات بعدی برای همه عوامل جستجو اعمال می شود (*). اما پس از آن هیچ چیز محدود نیست. و همانطور که می دانید، این کافی نیست. ما قبلاً در مورد پوشه ها و سوابق با دسترسی محدود بحث کرده ایم.

برای اینکه بتوانید در فایل robots.txt تغییراتی ایجاد کنید و آنها را در آنجا ذخیره کنید، باید آن را به شکل ثابت و دائمی ایجاد کنید.

نحوه ایجاد robots.txt برای وردپرس

در هر ویرایشگر متنی (فقط در هیچ موردی از MS Word و مانند آن با عناصر قالب بندی خودکار متن استفاده نکنید) یک فایل متنی با محتوای تقریبی زیر ایجاد کنید و آن را به پوشه ریشه سایت خود ارسال کنید. در صورت نیاز می توان تغییراتی ایجاد کرد.

فقط باید ویژگی های کامپایل فایل را در نظر بگیرید:

در ابتدای خطوط اعداد، مانند اینجا در مقاله، نباید وجود داشته باشد. اعداد در اینجا برای سهولت در بررسی محتویات فایل آورده شده است. در پایان هر خط نباید هیچ کاراکتر اضافی از جمله فاصله یا برگه وجود داشته باشد. بین بلوک ها باید یک خط خالی بدون هیچ کاراکتری از جمله فاصله وجود داشته باشد. فقط یک فضا می تواند آسیب بزرگی به شما وارد کند - مراقب باشید .

چگونه robots.txt را برای وردپرس بررسی کنیم

می توانید robots.txt را برای فضاهای اضافی به روش زیر بررسی کنید. در یک ویرایشگر متن، تمام متن را با فشار دادن Ctrl+A انتخاب کنید. اگر در انتهای خطوط فاصله و خطوط خالی وجود نداشته باشد، متوجه این موضوع خواهید شد. و اگر یک فضای خالی انتخاب شده باشد، باید فاصله ها را حذف کنید و همه چیز درست می شود.

در پیوندهای زیر می توانید بررسی کنید که آیا قوانین تجویز شده به درستی کار می کنند:

  • تجزیه Robots.txt وب مستر Yandex
  • تجزیه robots.txt در کنسول جستجوی Google.
  • سرویس ایجاد فایل robots.txt: http://pr-cy.ru/robots/
  • سرویس ایجاد و بررسی robots.txt: https://seolib.ru/tools/generate/robots/
  • اسناد از Yandex .
  • مستندات از گوگل(انگلیسی)

راه دیگری برای بررسی فایل robots.txt برای یک سایت وردپرس وجود دارد، این است که محتوای آن را در وب مستر Yandex آپلود کنید یا آدرس مکان آن را مشخص کنید. اگر خطایی وجود داشته باشد، بلافاصله متوجه خواهید شد.

robots.txt را برای وردپرس درست کنید

حالا بیایید مستقیماً به محتوای فایل robots.txt برای یک سایت وردپرس برویم. چه بخشنامه هایی باید در آن وجود داشته باشد. محتوای تقریبی فایل robots.txt برای وردپرس با توجه به ویژگی های آن در زیر آورده شده است:

User-agent: * غیر مجاز: /wp-login.php غیر مجاز: /wp-admin غیر مجاز: /wp-includes غیر مجاز: /wp-content/plugins غیر مجاز: /wp-content/themes غیر مجاز: */* نظرات غیر مجاز: * ‎ /uploads/ مجاز است: /*?replytocom User-agent: Yandex غیر مجاز: /wp-login.php غیر مجاز: /wp-admin غیر مجاز: /wp-includes غیر مجاز: /wp-content/plugins غیر مجاز: /wp-content/themes غیر مجاز: */comments غیر مجاز: */*دسته غیرمجاز: */*برچسب غیر مجاز: */trackback غیر مجاز: */*feed غیر مجاز: /*؟* غیر مجاز: /*?s= مجاز: /wp-admin/admin- ajax.php مجاز: /wp-content/uploads/ مجاز: /*?replytocom Crawl-delay: 2.0 میزبان: site.ru نقشه سایت: http://site.ru/sitemap.xml

دستورالعمل های وردپرس robots.txt

حالا بیایید نگاه دقیق تری بیندازیم:

1 - 16 خط تنظیمات را برای همه ربات ها مسدود می کند

User-agent: - این یک دستورالعمل الزامی است که عامل جستجو را تعریف می کند. ستاره می گوید که این دستورالعمل برای ربات های همه موتورهای جستجو است. اگر بلوک برای یک ربات خاص در نظر گرفته شده است، باید نام آن را، به عنوان مثال، Yandex، مانند خط 18 مشخص کنید.

به طور پیش فرض، همه چیز برای نمایه سازی مجاز است. این معادل دستور Allow: / است.

بنابراین، برای جلوگیری از نمایه سازی پوشه ها یا فایل های خاص، از دستورالعمل Disallow: ویژه استفاده می شود.

در مثال ما، با استفاده از نام پوشه ها و ماسک های نام فایل، روی تمام پوشه های سرویس وردپرس مانند admin، themes، افزونه ها، نظرات، دسته بندی، برچسب ها ... اگر دستوری را در این فرم مشخص کنید Disallow: /, پس از آن ممنوعیت ایندکس کردن کل سایت داده می شود.

Allow: - همانطور که گفتم، دستورالعمل ایندکس کردن پوشه ها یا فایل ها را امکان پذیر می کند. زمانی که فایل‌هایی در اعماق پوشه‌های ممنوعه وجود دارند که هنوز نیاز به فهرست‌بندی دارند، باید استفاده شود.

در مثال من، خط 3 Disallow: /wp-admin - نمایه سازی پوشه /wp-admin را ممنوع می کند، و خط 14 Allow: /wp-admin/admin-ajax.php - اجازه فهرست بندی فایل /admin-ajax.php را می دهد. در پوشه نمایه سازی ممنوع /wp-admin/ قرار دارد.

17 - خط خالی (فقط فشار دادن دکمه Enter بدون فاصله)

بلوک تنظیمات 18 - 33 به طور خاص برای عامل Yandex (کاربر-عامل: Yandex). همانطور که متوجه شدید این بلوک تمام دستورات بلوک قبلی را به طور کامل تکرار می کند. و این سؤال مطرح می شود: "چه جهنمی چنین مشکلی دارد؟" بنابراین همه اینها فقط به دلیل چند دستورالعمل انجام می شود که ما بیشتر بررسی خواهیم کرد.

34 - Crawl-Delay - دستورالعمل اختیاری فقط برای Yandex. زمانی استفاده می شود که سرور به شدت بارگذاری می شود و زمان لازم برای پردازش درخواست های ربات را ندارد. این به شما امکان می دهد تا ربات جستجوگر را حداقل تاخیر (در ثانیه و دهم ثانیه) بین پایان بارگذاری یک صفحه و شروع بارگذاری صفحه بعدی تنظیم کنید. حداکثر مقدار مجاز 2.0 ثانیه است. مستقیماً بعد از دستورات Disallow و Allow اضافه می شود.

35 - رشته خالی

36 - میزبان: site.ru - نام دامنه سایت شما (دستورالعمل اجباری برای بلوک Yandex). اگر سایت ما از پروتکل HTTPS استفاده می کند، آدرس باید به طور کامل مطابق شکل زیر مشخص شود:

میزبان: https://site.ru

37 - یک رشته خالی (فقط فشار دادن دکمه Enter بدون فاصله) باید وجود داشته باشد.

38 - نقشه سایت: http://site.ru/sitemap.xml - آدرس محل فایل(های) sitemap.xml (دستورالعمل اجباری)، در انتهای فایل پس از یک خط خالی قرار دارد و برای همه بلوک ها اعمال می شود.

دستورالعمل های فایل ماسک برای robots.txt برای وردپرس

اکنون کمی نحوه ایجاد ماسک ها:

  1. Disallow: /wp-register.php - غیرفعال کردن فهرست بندی فایل wp-register.php واقع در پوشه ریشه.
  2. Disallow: /wp-admin - فهرست کردن محتویات پوشه wp-admin واقع در پوشه ریشه را ممنوع می کند.
  3. Disallow: /trackback - نمایه سازی اعلان ها را غیرفعال می کند.
  4. Disallow: /wp-content/plugins - فهرست کردن محتویات پوشه افزونه‌ها را که در یک زیرپوشه (پوشه سطح دوم) wp-content قرار دارد، ممنوع می‌کند.
  5. Disallow: /feed - نمایه سازی فید را ممنوع می کند. فید RSS سایت را می بندد.
  6. * - به معنای هر دنباله ای از کاراکترها است، بنابراین می تواند جایگزین یک کاراکتر و بخشی از نام یا کل نام یک فایل یا پوشه شود. عدم وجود یک نام خاص در پایان به منزله نوشتن * است.
  7. غیر مجاز: */* نظرات - فهرست کردن محتویات پوشه‌ها و فایل‌هایی را که به نام آن‌ها نظرات وجود دارد و در هر پوشه‌ای قرار دارند، ممنوع می‌کند. در این صورت از ایندکس شدن نظرات جلوگیری می کند.
  8. غیر مجاز: *?s= - فهرست کردن صفحات جستجو را ممنوع می کند

خطوط فوق را می توان به عنوان یک فایل robots.txt در حال کار برای وردپرس استفاده کرد. فقط در 36، 38 خط باید آدرس سایت خود را وارد کنید و شماره خطوط را حذف کنید. و یک فایل robots.txt کارآمد برای وردپرس دریافت خواهید کرد , سازگار با هر موتور جستجو

تنها ویژگی این است که اندازه فایل robots.txt کار برای یک سایت وردپرس نباید از 32 کیلوبایت فضای دیسک تجاوز کند.

اگر مطلقاً به Yandex علاقه ندارید ، به هیچ وجه به خطوط 18-35 احتیاج نخواهید داشت. احتمالاً همین است. امیدوارم که مقاله مفید بوده باشد. اگر سوالی دارید در نظرات بنویسید.

ROBOTS.TXT- استاندارد استثنائات برای روبات ها - فایلی با فرمت متنی.txt برای محدود کردن دسترسی روبات ها به محتوای سایت. فایل باید در ریشه سایت (در /robots.txt) قرار داشته باشد. استفاده از استاندارد اختیاری است، اما موتورهای جستجو از قوانین مندرج در robots.txt پیروی می کنند. خود فایل شامل مجموعه ای از رکوردهای فرم است

:

جایی که فیلد نام قانون است (User-Agent، Disallow، Allow و غیره)

رکوردها با یک یا چند خط خالی از هم جدا می شوند (خاتمه دهنده خط: کاراکترهای CR، CR+LF، LF)

چگونه ROBOTS.TXT را به درستی راه اندازی کنیم؟

AT این پاراگرافالزامات اساسی برای تنظیم فایل، توصیه های خاص برای راه اندازی، مثال هایی برای CMS محبوب ارائه شده است

  • حجم فایل نباید بیشتر از 32 کیلوبایت باشد.
  • کدگذاری باید ASCII یا UTF-8 باشد.
  • یک فایل robots.txt معتبر باید حاوی حداقل یک قانون متشکل از چندین دستورالعمل باشد. هر قانون باید حاوی دستورالعمل های زیر باشد:
    • این قانون برای کدام ربات است (دستورالعمل عامل کاربر)
    • این عامل به کدام منابع دسترسی دارد (Allow Directive) یا به کدام منابع دسترسی ندارد (Disallow).
  • هر قانون و دستورالعمل باید از یک خط جدید شروع شود.
  • مقدار قانون Disallow/Allow باید با یک / یا * شروع شود.
  • تمام خطوطی که با علامت # شروع می‌شوند یا قسمت‌هایی از خطوطی که با این نماد شروع می‌شوند، نظر محسوب می‌شوند و توسط نمایندگان در نظر گرفته نمی‌شوند.

بنابراین، حداقل محتوای یک فایل robots.txt که به درستی پیکربندی شده است به صورت زیر است:

User-agent: * #for all agents Disallow: #هیچ چیز مجاز نیست = دسترسی به همه فایل ها مجاز است

چگونه ROBOTS.TXT را ایجاد یا تغییر دهیم؟

می توانید با استفاده از هر ویرایشگر متنی (به عنوان مثال notepad++) یک فایل ایجاد کنید. برای ایجاد یا اصلاح یک فایل robots.txt، دسترسی به سرور از طریق FTP/SSH معمولاً مورد نیاز است، با این حال، بسیاری از CMS/CMF ها دارای یک رابط مدیریت محتوای فایل داخلی از طریق پنل مدیریت ("پنل مدیریت")، به عنوان مثال، هستند. : Bitrix، ShopScript و دیگران.

فایل ROBOTS.TXT در سایت برای چیست؟

همانطور که از تعریف می بینید، robots.txt به شما اجازه می دهد تا رفتار ربات ها را هنگام بازدید از یک سایت کنترل کنید. تنظیم نمایه سازی سایت توسط موتورهای جستجو - این باعث می شود این فایل بخش مهمی از بهینه سازی سئو سایت شما باشد. مهمترین ویژگی robots.txt ممنوعیت ایندکس کردن صفحات/فایل هایی است که حاوی اطلاعات مفید نیستند. یا به طور کلی کل سایت که ممکن است مثلا برای نسخه های آزمایشی سایت لازم باشد.

نمونه‌های اصلی مواردی که باید از نمایه‌سازی بسته شوند در زیر مورد بحث قرار خواهند گرفت.

چه چیزی باید از نمایه سازی بسته شود؟

اول، شما باید همیشه نمایه سازی سایت را در حین توسعه غیرفعال کنید تا از ورود به صفحات فهرستی که اصلاً در نسخه نهایی سایت نیستند و صفحات دارای محتوای گمشده/تکراری/آزمایشی قبل از پر شدن، جلوگیری کنید.

ثانیاً، کپی هایی از سایت ایجاد شده به عنوان سایت های آزمایشی برای توسعه باید از نمایه سازی پنهان شوند.

ثالثاً، ما تجزیه و تحلیل خواهیم کرد که چه محتوایی مستقیماً در سایت باید از نمایه سازی منع شود.

  1. بخش اداری سایت، فایل های خدماتی.
  2. صفحات مجوز / ثبت نام کاربر، در بیشتر موارد - بخش های شخصی کاربران (در صورت عدم دسترسی عمومی به صفحات شخصی).
  3. صفحات سبد خرید و پرداخت، بررسی سفارش.
  4. در صفحات مقایسه محصولات، امکان باز کردن انتخابی چنین صفحاتی برای نمایه سازی وجود دارد، مشروط بر اینکه منحصر به فرد باشند. به طور کلی جداول مقایسه صفحات بی شماری با محتوای تکراری هستند.
  5. صفحات جستجو و فیلتر را فقط در صورتی می توان برای نمایه سازی باز گذاشت تنظیم صحیح: URL های فردی پر از عناوین منحصر به فرد، متا تگ ها. در بیشتر موارد، چنین صفحاتی باید بسته شوند.
  6. صفحات دارای مرتب‌سازی محصولات/سوابق، اگر آدرس‌های متفاوتی داشته باشند.
  7. صفحات دارای تگ utm-, openstat- در URl (و همچنین سایر موارد).

نحو ROBOTS.TXT

حالا بیایید با جزئیات بیشتر در مورد دستور robots.txt صحبت کنیم.

مقررات عمومی:

  • هر دستورالعمل باید از یک خط جدید شروع شود.
  • رشته نباید با فاصله شروع شود.
  • مقدار دستورالعمل باید در یک خط باشد.
  • بدون نیاز به محصور کردن مقادیر دستورالعمل در علامت نقل قول؛
  • به طور پیش فرض، برای تمام مقادیر دستورات، * در انتها نوشته می شود، مثال:عامل کاربر: Yandex Disallow: /cgi-bin* # دسترسی به صفحات را مسدود می کند غیر مجاز: /cgi-bin # همان
  • یک خط جدید خالی به عنوان پایان قانون عامل کاربر تلقی می شود.
  • فقط یک مقدار در دستورالعمل های "Allow"، "Disallow" مشخص شده است.
  • نام فایل robots.txt اجازه حروف بزرگ را نمی دهد.
  • robots.txt بزرگتر از 32 کیلوبایت مجاز نیست، روبات ها چنین فایلی را دانلود نمی کنند و سایت را کاملا مجاز می دانند.
  • robots.txt غیرقابل دسترسی ممکن است به عنوان کاملا مجاز تلقی شود.
  • یک robots.txt خالی کاملاً مجاز در نظر گرفته می شود.
  • برای تعیین مقادیر سیریلیک قوانین، از Punycod استفاده کنید.
  • فقط رمزگذاری های UTF-8 و ASCII مجاز هستند: استفاده از هر گونه الفبای ملی و سایر کاراکترها در robots.txt مجاز نیست.

نمادهای خاص:

  • #

    کاراکتر شروع نظر، تمام متن‌های بعد از # و قبل از فید خط یک نظر در نظر گرفته می‌شود و توسط روبات‌ها استفاده نمی‌شود.

    *

    یک مقدار عام که نشان دهنده پیشوند، پسوند یا مقدار کامل دستورالعمل است - هر مجموعه ای از کاراکترها (از جمله کاراکتر خالی).

  • $

    نشان دادن انتهای خط، ممنوعیت تکمیل * به مقدار، روشن است مثال:

    عامل کاربر: * #برای همه مجاز است: /$ #مجاز نمایه سازی صفحه اصلی غیر مجاز: * #ممنوع نمایه سازی همه صفحات به جز مجاز

لیست بخشنامه ها

  1. عامل کاربر

    بخشنامه اجباری تعیین می کند که قانون به کدام ربات اشاره دارد، این قانون ممکن است حاوی یک یا چند دستورالعمل باشد. می توانید از کاراکتر * برای نشان دادن پیشوند، پسوند یا استفاده کنید نام و نام خانوادگیربات مثال:

    #سایت برای Google.News و Google بسته شد. Images User-agent: Googlebot-Image User-agent: Googlebot-News Disallow: / #برای همه روبات هایی که نامشان با Yandex شروع می شود، بخش «اخبار» را ببندید User-agent: Yandex* Disallow: /news #open to all other User-agent: * Disallow:

  2. غیر مجاز

    این دستورالعمل مشخص می کند که کدام فایل ها یا دایرکتوری ها نباید ایندکس شوند. مقدار دستور باید با کاراکتر / یا * شروع شود. به طور پیش‌فرض، * به انتهای مقدار اضافه می‌شود، مگر اینکه توسط نماد $ ممنوع شده باشد.

  3. اجازه

    هر قانون باید حداقل یک دستورالعمل Disallow: یا Allow: داشته باشد.

    دستورالعمل مشخص می کند که کدام فایل ها یا دایرکتوری ها باید ایندکس شوند. مقدار دستور باید با کاراکتر / یا * شروع شود. به طور پیش‌فرض، * به انتهای مقدار اضافه می‌شود، مگر اینکه توسط نماد $ ممنوع شده باشد.

    استفاده از دستورالعمل فقط در رابطه با Disallow مرتبط است تا امکان نمایه سازی برخی از زیرمجموعه‌های صفحاتی که توسط دستورالعمل Disallow از فهرست‌سازی منع شده‌اند، باشد.

  4. پارام تمیز

    اختیاری، دستورالعمل مقطعی. اگر آدرس‌های صفحه سایت حاوی پارامترهای GET هستند (که بعد از علامت ? در URL نشان داده شده است) که بر محتوای آنها تأثیری نمی‌گذارد (مثلاً UTM) از دستورالعمل Clean-param استفاده کنید. با کمک این قانون، تمام آدرس ها به یک فرم واحد - شکل اصلی، بدون پارامتر آورده می شوند.

    نحو دستوری:

    Clean-param: p0[&p1&p2&..&pn]

    p0… - نام پارامترهایی که نیازی به در نظر گرفتن ندارند
    path - پیشوند مسیر صفحاتی که قانون برای آنها اعمال می شود


    مثال.

    سایت دارای صفحاتی مانند

    www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

    هنگام تعیین یک قانون

    عامل کاربر: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

    ربات تمام آدرس های صفحه را به یک کاهش می دهد:

    www.example.com/some_dir/get_book.pl?book_id=123

  5. نقشه سایت

    دستورالعمل اختیاری، امکان قرار دادن چندین دستورالعمل از این دست در یک فایل به صورت مقطعی وجود دارد (کافی است یک بار آن را در پرونده مشخص کنید، بدون اینکه برای هر عامل تکرار شود).

    مثال:

    نقشه سایت: https://example.com/sitemap.xml

  6. خزیدن-تاخیر

    این دستورالعمل به شما امکان می دهد تا ربات جستجوگر را حداقل مدت زمان (بر حسب ثانیه) بین پایان بارگذاری یک صفحه و شروع بارگذاری صفحه بعدی تنظیم کنید. مقادیر کسری پشتیبانی می شود

    حداقل مقدار مجاز برای روبات های Yandex 2.0 است.

    ربات های گوگل این دستورالعمل را رعایت نمی کنند.

    مثال:

    عامل کاربر: Yandex Crawl-delay: 2.0 # زمان وقفه را روی 2 ثانیه تنظیم می کند.

  7. میزبان

    بخشنامه آینه اصلی سایت را مشخص می کند. در حال حاضر، تنها Mail.ru از موتورهای جستجوی محبوب پشتیبانی می شود.

    مثال:

    عامل کاربر: Mail.Ru میزبان: www.site.ru # آینه اصلی از www

نمونه هایی از robots.txt برای CMS محبوب

ROBOTS.TXT برای 1C:Bitrix

Bitrix CMS امکان مدیریت محتویات فایل robots.txt را فراهم می کند. برای انجام این کار، در رابط مدیریتی، باید با استفاده از جستجو به ابزار «تنظیمات Robots.txt» یا در مسیر Marketing->Search engine optimization->Robots.txt بروید. همچنین می توانید محتویات robots.txt را از طریق ویرایشگر داخلی فایل Bitrix یا از طریق FTP تغییر دهید.

مثال زیر می‌تواند به عنوان مجموعه‌ای از robots.txt برای سایت‌های Bitrix استفاده شود، اما جهانی نیست و بسته به سایت نیاز به تطبیق دارد.

توضیحات:

  1. تقسیم به قوانین برای عوامل مختلف به این دلیل است که Google دستورالعمل Clean-param را پشتیبانی نمی کند.
User-Agent: Yandex Disallow: */index.php Disallow: /bitrix/ Disallow: /* filter Disallow: /*order Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /*bitrix_include_are = غیر مجاز: /*clear_cache= غیر مجاز: /*clear_cache_session= غیر مجاز: /*ADD_TO_COMPARE_LIST غیر مجاز: /*ORDER_BY غیر مجاز: /*?print= غیر مجاز: /*&print= غیر مجاز: /*print_course= غیر مجاز: /*?action= غیر مجاز : /*&action= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*backurl= Disallow: / *back_url= غیر مجاز: /*BACKURL= غیر مجاز: /*BACK_URL= غیر مجاز: /*back_url_admin= غیر مجاز: /*?utm_source= غیر مجاز: /*?bxajaxid= غیر مجاز: /*&bxajaxid= غیر مجاز: /*?view_result= غیر مجاز: /*&view_result= غیر مجاز: /*?PAGEN*& Disallow: /*&PAGEN مجاز: */?PAGEN* مجاز: /bitrix/components/*/ مجاز: /bitrix/cache/*/ مجاز: /bitrix/js/* / Allow: /bitrix/templates/*/ Allow: /bitrix/panel/ */ Allow: /bitrix/components/*/*/ Allow: /bitrix/cache/*/*/ Allow: /bitrix/js/*/*/ Allow: /bitrix/templates/*/*/ Allow: /bitrix /panel/*/*/ Allow: /bitrix/components/ Allow: /bitrix/cache/ Allow: /bitrix/js/ Allow: /bitrix/templates/ Allow: /bitrix/panel/ Clean-Param: PAGEN_1 / Clean- Param: PAGEN_2 / #اگر مؤلفه‌های بیشتری با صفحه‌بندی در سایت وجود دارد، قانون را برای همه نسخه‌ها کپی کنید، عدد Clean-Param را تغییر دهید: مرتب‌سازی Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-Agent: * Disallow: * /index.php غیر مجاز: /bitrix/ Disallow: /*filter Disallow: /* sort Disallow: /* order Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= غیر مجاز: /*show_sql_stat= غیر مجاز: /*bitrix_include_areas= Disallow: /*clear_cache= غیر مجاز: /*clear_cache_session= غیر مجاز: /*ADD_TO_COMPARE_LIST غیر مجاز: /*ORDER_BY غیر مجاز: /*?print= غیر مجاز: /*&print= غیر مجاز: /*print_course= غیر مجاز: /*?action= غیر مجاز: /* &action= غیر مجاز: / *register= غیر مجاز: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*backurl= Disallow: /*back_url= Disallow: /*BACKURL= Disallow: /*BACK_URL= Disallow: ‎ ‎ templates/*/ Allow: /bitrix/panel/*/ Allow: /bitrix/components/*/*/ Allow: /bitrix/cache/*/*/ Allow: /bitrix/js/*/*/ Allow: /bitrix /templates/*/*/ Allow: /bitrix/panel/*/*/ Allow: /bitrix/components/ Allow: /bitrix/cache/ Allow: /bitrix/js/ Allow: /bitrix/templates/ Allow: /bitrix /panel/ نقشه سایت: http://site.com/sitemap.xml #با آدرس نقشه سایت خود جایگزین کنید

ROBOTS.TXT برای وردپرس

هیچ ابزار داخلی برای راه اندازی robots.txt در پنل مدیریت وردپرس وجود ندارد، بنابراین دسترسی به فایل تنها از طریق FTP یا پس از نصب یک افزونه خاص (مثلا DL Robots.txt) امکان پذیر است.

مثال زیر می تواند به عنوان یک کیت شروع robots.txt برای سایت های وردپرس استفاده شود، اما جهانی نیست و باید بسته به سایت تنظیم شود.


توضیحات:

  1. دستورالعمل های Allow شامل مسیرهای فایل های سبک ها، اسکریپت ها، تصاویر است: برای نمایه سازی صحیح سایت، لازم است که آنها برای روبات ها در دسترس باشند.
  2. برای اکثر سایت ها، صفحات آرشیو نویسنده و برچسب ها فقط محتوای تکراری ایجاد می کنند و محتوای مفیدی ایجاد نمی کنند، بنابراین در این مثالآنها برای نمایه سازی بسته هستند. اگر در پروژه شما چنین صفحاتی ضروری، مفید و منحصر به فرد هستند، باید دستورات Disallow: /tag/ و Disallow: /author/ را حذف کنید.

نمونه ای از ROBOTS.TXT صحیح برای یک سایت در وردپرس:

عامل کاربر: Yandex # برای Yandex Disallow: /cgi-bin Disallow: /؟ Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ embed Disallow: /xmlrpc.php Disallow: /tag/ Disallow: /readme.html Disallow: *?replytocom اجازه: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-* .png مجاز: /wp-*.jpg مجاز: /wp-*.jpeg مجاز: /wp-*.gif Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-agent: * غیر مجاز: /cgi-bin غیر مجاز: / ? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ embed Disallow: /xmlrpc.php غیر مجاز: *?utm غیر مجاز: *openstat= غیر مجاز: /tag/ غیر مجاز: /readme.html غیر مجاز: *?replytocom مجاز: */uploads مجاز: /*/*.js مجاز: /* /*.css مجاز: /wp-*.png مجاز: /wp-*.jpg مجاز: /wp-*.jpeg مجاز: /wp-*.gif نقشه سایت: http://site.com/sitemap.xml # آدرس نقشه سایت خود را جایگزین کنید

ROBOTS.TXT برای OpenCart

هیچ ابزار داخلی برای پیکربندی robots.txt در "پنل مدیریت" OpenCart وجود ندارد، بنابراین فایل فقط با استفاده از FTP قابل دسترسی است.

مثال زیر می‌تواند به‌عنوان راه‌انداز robots.txt برای سایت‌های OpenCart استفاده شود، اما جهانی نیست و باید بسته به سایت تطبیق داده شود.


توضیحات:

  1. دستورالعمل های Allow شامل مسیرهای فایل های سبک ها، اسکریپت ها، تصاویر است: برای نمایه سازی صحیح سایت، لازم است که آنها برای روبات ها در دسترس باشند.
  2. تقسیم به قوانین برای عوامل مختلف به این دلیل است که Google دستورالعمل Clean-param را پشتیبانی نمی کند.
User-agent: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search غیر مجاز: /index.php?route=product/product *&manufacturer_id= غیر مجاز: /admin غیر مجاز: /catalog غیر مجاز: /system غیر مجاز: /*?sort= غیر مجاز: /*&sort= غیر مجاز: /*?order= غیر مجاز: /*&order= غیر مجاز: /*?limit= غیر مجاز: ‎ غیر مجاز: /*&tracking= غیر مجاز: /*مقایسه-محصولات غیرمجاز: /*جستجو غیرمجاز: /*سبد خرید غیرمجاز: /*پرداخت غیرمجاز: /*ورود غیرمجاز: /*ورود غیرمجاز: /*کوپن ها غیرمجاز: /*لیست علاقه مندی ها غیرمجاز: . create-account Disallow: /*recurring Disallow: /*address-book Disallow: /*reward-points Disallow: /*affiliate-forgot-password Disallow: /*create-affiliate-account غیر مجاز: /*affiliate-login غیر مجاز: /*affiliates Disallow: /*?filter_tag = غیر مجاز: /*برندها غیر مجاز: /*specials غیر مجاز: /*simpleregister غیر مجاز: /*simplecheckout غیر مجاز: *utm= غیر مجاز: /*&صفحه غیر مجاز: /*?page*& Allow: /*?page Allow: /catalog/ view/javascript/ Allow: /catalog/view/theme/*/ User-agent: Yandex Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route= product/search غیر مجاز: /index.php?route=product/product*&manufacturer_id= غیر مجاز: /admin غیر مجاز: /catalog غیر مجاز: /system غیر مجاز: /*?sort= غیر مجاز: /*&sort= غیر مجاز: /*?order= غیر مجاز: /*&order= غیر مجاز: /*?limit= غیر مجاز: /*&limit= غیر مجاز: /*?filter_name= غیر مجاز: /*&filter_name= غیر مجاز: /*?filter_sub_category= غیر مجاز: /*&filter_sub_category= غیر مجاز: /*؟ filter_description= غیر مجاز: /*&filter_description= غیر مجاز: /*compa دوباره محصولات غیرمجاز: /*جستجو غیرمجاز: /*سبد خرید غیرمجاز: /*پرداخت غیرمجاز: /*ورود به سیستم غیرمجاز: /*خروج از سیستم غیرمجاز: /*کوپن‌ها غیرمجاز: /*لیست خواسته‌ها غیرمجاز: /*حساب من غیرمجاز: /*سفارش -history غیر مجاز: /*خبرنامه غیر مجاز: /*بازگشت-افزودن غیرمجاز: /*forgot-password غیرمجاز: /*دانلودها غیرمجاز: /*بازگشت غیرمجاز: /*معاملات غیرمجاز: /*ایجاد-حساب غیرمجاز: /*عدم اجازه تکرار: . : /*brands Disallow: /*specials Disallow: /*simpleregister Disallow: /*simplecheckout Disallow: /*&page Disallow: /*?page*& Allow: /*?page Allow: /catalog/view/javascript/ Allow: / catalog/view/theme/*/ Clean-Param: page / Clean-Param: utm_source&utm_medium&utm_campaign / نقشه سایت: http://site.com/sitemap.xml #با آدرس نقشه سایت خود جایگزین کنید

ROBOTS.TXT برای جوملا!

هیچ ابزار داخلی برای تنظیم robots.txt در پنل مدیریت جوملا وجود ندارد، بنابراین فایل فقط با استفاده از FTP قابل دسترسی است.

مثال زیر می‌تواند به‌عنوان راه‌انداز robots.txt برای سایت‌های جوملا با SEF فعال استفاده شود، اما جهانی نیست و باید بسته به سایت تطبیق داده شود.


توضیحات:

  1. دستورالعمل های Allow شامل مسیرهای فایل های سبک ها، اسکریپت ها، تصاویر است: برای نمایه سازی صحیح سایت، لازم است که آنها برای روبات ها در دسترس باشند.
  2. تقسیم به قوانین برای عوامل مختلف به این دلیل است که Google دستورالعمل Clean-param را پشتیبانی نمی کند.
عامل کاربر: Yandex Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /Includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: /component/ Disallow: /search* غیر مجاز: /*mailto/ مجاز: /*.css؟*$ مجاز: /*.less?*$ مجاز: /*.js؟*$ مجاز: /*.jpg؟*$ مجاز: /*.png?* $ مجاز: /*.gif؟*$ مجاز: /templates/*.css مجاز: /templates/*.less مجاز: /templates/*.js مجاز: /components/*.css مجاز: /components/*.less مجاز: /media/*.js مجاز: /media/*.css مجاز: /media/*.less مجاز: /index.php?*view=sitemap* #باز کردن نقشه سایت Clean-param: کلمه جستجو / Clean-param: limit&limitstart / Clean-param: کلیدواژه / User-agent: * Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /Includes/ Disallow: / نصب کنید ion/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: / component/ Disallow: /search* Disallow: /*mailto/ Disallow: /* searchword Disallow: /*keyword Allow: /*.css?*$ Allow: /*.less?*$ Allow: /*.js?*$ مجاز: /*.jpg؟*$ مجاز: /*.png؟*$ مجاز: /*.gif؟*$ مجاز: /templates/*.css مجاز: /templates/*.less مجاز: /templates/*. js Allow: /components/*.css Allow: /components/*.less Allow: /media/*.js Allow: /media/*.css Allow: /media/*.less Allow: /index.php?*view =sitemap* #باز کردن نقشه سایت نقشه سایت: http://your_sitemap_address

لیست عوامل اصلی

ربات عملکرد
Googlebot ربات اصلی نمایه ساز گوگل
اخبار Googlebot اخبار گوگل
تصویر Googlebot تصاویر گوگل
ویدیوی Googlebot ویدئو
Mediapartners-Google
شرکای رسانه ای Google Adsense، Google Mobile Adsense
AdsBot-Google بررسی کیفیت صفحه فرود
AdsBot-Google-Mobile-Apps ربات گوگل برای برنامه ها
YandexBot ربات اصلی نمایه ساز Yandex
YandexImages Yandex.Images
YandexVideo Yandex.Video
YandexMedia داده های چند رسانه ای
YandexBlogs ربات جستجوگر وبلاگ
YandexAddurl دسترسی ربات به صفحه هنگامی که از طریق فرم "افزودن URL" به صفحه اضافه می شود
YandexFavicons روباتی که آیکون های سایت را نمایه می کند (فاویکون ها)
YandexDirect Yandex.Direct
YandexMetrika Yandex.Metrica
YandexCatalog Yandex.Catalog
یاندکس نیوز Yandex.News
YandexImageResizer ربات خدمات موبایل
bingbot ربات نمایه کننده اصلی بینگ
اسلورپ ربات نمایه کننده اصلی Yahoo!
Mail.Ru ربات نمایه کننده اصلی Mail.Ru

سوالات متداول

فایل متنی robots.txt عمومی است، بنابراین توجه داشته باشید که این فایل نباید به عنوان وسیله ای برای پنهان کردن اطلاعات محرمانه استفاده شود.

آیا تفاوتی بین robots.txt برای Yandex و Google وجود دارد؟

هیچ تفاوت اساسی در پردازش robots.txt توسط موتورهای جستجوی Yandex و Google وجود ندارد، اما تعدادی از نکات هنوز باید برجسته شوند:

  • همانطور که قبلا ذکر شد، قوانین در robots.txt ماهیت مشاوره ای دارند که به طور فعال توسط گوگل استفاده می شود.

    در مستندات robots.txt، گوگل بیان می‌کند که «.. برای جلوگیری از نمایش صفحات وب در نتایج جستجوی Google در نظر گرفته نشده است. و «اگر فایل robots.txt از پردازش یک صفحه وب توسط Googlebot جلوگیری کند، همچنان می‌توان آن را به Google ارائه کرد.» برای حذف صفحات از جستجوی گوگل، باید از متا تگ های روبات استفاده کنید.

    Yandex همچنین صفحات را از جستجو مستثنی می کند، که توسط قوانین robots.txt هدایت می شود.

  • Yandex برخلاف گوگل از دستورات Clean-param و Crawl-Delay پشتیبانی می کند.
  • Google AdsBots از قوانین User-agent پیروی نمی کند: *، آنها به قوانین جداگانه نیاز دارند.
  • بسیاری از منابع نشان می‌دهند که فایل‌های اسکریپت و سبک (.js، .css) فقط باید برای نمایه‌سازی توسط روبات‌های Google باز شوند. در واقع، این درست نیست و این فایل ها نیز باید برای Yandex باز شوند: در 9 نوامبر 2015، Yandex شروع به استفاده از js و css هنگام نمایه سازی سایت ها کرد (پست در وبلاگ رسمی).

چگونه یک سایت را از ایندکس شدن در robots.txt مسدود کنیم؟

برای بستن یک سایت در Robots.txt، یکی از قوانین زیر باید استفاده شود:

User-agent: * Disallow: / User-agent: * Disallow: *

بسته شدن سایت فقط برای یک موتور جستجو (یا چند موتور) امکان پذیر است، در حالی که بقیه امکان نمایه سازی باقی می ماند. برای انجام این کار، باید دستورالعمل User-agent را در قانون تغییر دهید: جایگزین * با نام عاملی که دسترسی آن باید ممنوع شود ().

چگونه یک سایت برای نمایه سازی در robots.txt باز کنیم؟

در حالت معمول، برای باز کردن یک سایت برای نمایه سازی در robots.txt، نیازی به انجام هیچ اقدامی نیست، فقط باید مطمئن شوید که همه دایرکتوری های لازم در robots.txt باز هستند. به عنوان مثال، اگر سایت شما قبلاً از نمایه سازی پنهان بود، قوانین زیر باید از robots.txt حذف شوند (بسته به مورد استفاده شده):

  • غیر مجاز:/
  • غیر مجاز: *

لطفاً توجه داشته باشید که نمایه سازی را می توان نه تنها با استفاده از فایل robots.txt، بلکه با استفاده از متا تگ robots نیز غیرفعال کرد.

همچنین لازم به ذکر است که عدم وجود فایل robots.txt در ریشه سایت به معنای مجاز بودن ایندکس سایت است.

چگونه آینه اصلی سایت را در robots.txt مشخص کنیم؟

در حال حاضر تعیین آینه اصلی با استفاده از robots.txt امکان پذیر نیست. پیش از این، Yandex PS از دستورالعمل Host استفاده می کرد که حاوی نشانه ای از آینه اصلی بود، اما از 20 مارس 2018، Yandex به طور کامل استفاده از آن را رها کرد. اکنون تعیین آینه اصلی تنها با کمک یک تغییر مسیر 301 صفحه ای امکان پذیر است.

مولد فروش

زمان خواندن: 18 دقیقه

ما مطالب را برای شما ارسال خواهیم کرد:

مسائل مورد بحث در مطالب:

  • فایل robots.txt چه نقشی در نمایه سازی سایت دارد
  • نحوه غیرفعال کردن نمایه سازی سایت و صفحات جداگانه آن با استفاده از robots.txt
  • چه دستورالعمل های robots.txt برای تنظیمات نمایه سازی سایت استفاده می شود
  • رایج ترین اشتباهات هنگام ایجاد فایل robots.txt چیست؟

منبع وب آماده راه اندازی است: مملو از متون منحصر به فرد با کیفیت بالا، تصاویر اصلی است، حرکت در بخش ها راحت است و طراحی چشم نواز است. تنها باقی مانده است که فرزند فکری خود را به کاربران اینترنت ارائه دهید. اما موتورهای جستجو باید اولین کسانی باشند که با پورتال آشنا می شوند. فرآیند دوستیابی را نمایه سازی می نامند و یکی از نقش های اصلی آن را ربات های فایل متنی ایفا می کنند. برای اینکه سایت robots.txt با موفقیت ایندکس شود، تعدادی از الزامات خاص باید برآورده شود.



موتور منبع وب (CMS) یکی از عواملی است که به طور قابل توجهی بر سرعت نمایه سازی توسط عنکبوت های جستجو تأثیر می گذارد. چرا مهم است که خزنده ها را فقط به صفحات مهمی که باید در SERP ظاهر شوند هدایت کنیم؟

  1. ربات موتور جستجو به تعداد محدودی فایل در یک منبع خاص نگاه می کند و سپس به سایت بعدی می رود. در غیاب محدودیت‌های مشخص شده، عنکبوت جستجو می‌تواند با فهرست‌بندی فایل‌های موتور، که تعداد آن‌ها گاهی به هزاران می‌رسد، شروع شود - ربات به سادگی برای محتوای اصلی وقت نخواهد داشت.
  2. یا صفحات کاملاً متفاوتی را که قصد دارید در آنها پیشرفت کنید فهرست می کند. حتی بدتر از آن، اگر موتورهای جستجو محتوای تکراری را ببینند که بسیار متنفرند، زمانی که لینک‌های مختلف به متن یا تصویر یکسان (یا تقریباً یکسان) منتهی می‌شوند.

بنابراین، منع عنکبوت های موتور جستجو از دیدن بیش از حد یک ضرورت است. این همان چیزی است که robots.txt برای آن در نظر گرفته شده است - یک فایل متنی معمولی که نام آن با حروف کوچک بدون استفاده از حروف بزرگ نوشته شده است. در هر ویرایشگر متنی (Notepad++، SciTE، VEdit و غیره) ایجاد شده و در اینجا ویرایش می شود. این فایل به شما امکان می دهد بر نمایه سازی سایت توسط Yandex و Google تأثیر بگذارید.

برای برنامه نویسی که هنوز تجربه کافی ندارد، بهتر است ابتدا با نمونه هایی از پر کردن صحیح یک فایل آشنا شوید. باید منابع وب مورد علاقه او را انتخاب کنید و در نوار آدرس مرورگر تایپ کنید site.ru/robots.txt(جایی که قسمت اول قبل از "/" نام پورتال است).

مهم است که فقط سایت‌هایی را که بر روی موتور مورد نظر شما اجرا می‌شوند، مشاهده کنید، زیرا پوشه‌های CMS که از فهرست‌سازی منع شده‌اند در سیستم‌های مدیریتی مختلف نام‌های متفاوتی دارند. بنابراین، موتور به نقطه شروع تبدیل می شود. اگر سایت شما از وردپرس پشتیبانی می‌کند، باید به دنبال وبلاگ‌هایی باشید که روی همان موتور کار می‌کنند. برای جوملا! ربات‌های ایده‌آل خود را خواهد داشت و غیره. در عین حال، توصیه می‌شود فایل‌هایی را از پورتال‌هایی که ترافیک قابل توجهی را از جستجو جذب می‌کنند به عنوان نمونه بگیرید.

نمایه سازی سایت با robots.txt چیست؟



نمایه سازی جستجو- مهمترین شاخصی که موفقیت تبلیغات تا حد زیادی به آن بستگی دارد. به نظر می رسد که سایت کاملاً ایجاد شده است: درخواست های کاربر در نظر گرفته می شود ، محتوا در بالا است ، ناوبری راحت است ، اما سایت نمی تواند با موتورهای جستجو دوست شود. دلایل را باید در بخش فنی جستجو کرد، به ویژه در ابزارهایی که می توانید با آنها در نمایه سازی تأثیر بگذارید.

دو مورد از آنها وجود دارد - Sitemap.xml و robots.txt. فایل های مهمی که مکمل یکدیگر هستند و در عین حال مشکلات قطبی را حل می کنند. نقشه سایت از عنکبوت‌های جستجو دعوت می‌کند: «خوش آمدید، لطفاً همه این بخش‌ها را ایندکس کنید،» به ربات‌ها نشانی اینترنتی هر صفحه برای فهرست‌بندی و زمان صفحه را می‌دهد. آخرین به روز رسانی. از طرف دیگر، فایل robots.txt به عنوان علامت توقف عمل می کند و از خزیدن عنکبوت ها در هر قسمت از سایت جلوگیری می کند.

این فایل و متا تگ robots با نام مشابه، که تنظیمات دقیق‌تری را امکان‌پذیر می‌کند، حاوی دستورالعمل‌های واضحی برای خزنده‌های موتورهای جستجو است که نشان‌دهنده ممنوعیت ایندکس کردن صفحات خاص یا کل بخش‌ها است.

محدودیت هایی که به درستی تنظیم شده اند به بهترین وجه بر نمایه سازی سایت تأثیر می گذارد. اگرچه هنوز آماتورهایی وجود دارند که معتقدند می توان به ربات ها اجازه داد تا کاملاً همه پرونده ها را مطالعه کنند. اما در این شرایط، تعداد صفحات وارد شده به پایگاه داده موتور جستجو به معنای ایندکس با کیفیت بالا نیست. به عنوان مثال، چرا ربات ها به بخش های اداری و فنی سایت یا چاپ صفحات (برای کاربر راحت هستند و موتورهای جستجو به عنوان محتوای تکراری ارائه می شوند) نیاز دارند؟ صفحات و فایل‌های زیادی وجود دارند که ربات‌ها وقت خود را صرف آن‌ها می‌کنند، در واقع بیهوده.

هنگامی که یک عنکبوت از سایت شما بازدید می کند، بلافاصله به دنبال فایل robots.txt در نظر گرفته شده برای آن می گردد. با پیدا نکردن سند یا یافتن آن به شکل نادرست، ربات شروع به فعالیت مستقل می کند و به معنای واقعی کلمه همه چیز را در یک ردیف طبق الگوریتمی که فقط برای آن شناخته شده است فهرست می کند. لزوماً با محتوای جدیدی شروع نمی شود که بخواهید ابتدا کاربران را از آن مطلع کنید. در بهترین حالت، نمایه سازی به سادگی طولانی می شود، در بدترین حالت، می تواند منجر به جریمه هایی برای موارد تکراری شود.

داشتن یک فایل متنی ربات مناسب از بسیاری از مشکلات جلوگیری می کند.



سه راه برای جلوگیری از نمایه سازی بخش ها یا صفحات یک منبع وب، از نقطه به سطح بالا وجود دارد:

  • تگ noindex و ویژگی عناصر کد کاملاً متفاوتی هستند که اهداف متفاوتی را دنبال می‌کنند، اما به همان اندازه کمک‌کنندگان سئو ارزشمند هستند. موضوع پردازش آنها توسط موتورهای جستجو تقریباً فلسفی شده است ، اما واقعیت همچنان باقی است: noindex به شما امکان می دهد بخشی از متن را از روبات ها پنهان کنید (در استانداردهای html نیست ، اما قطعاً برای Yandex کار می کند) و nofollow دنبال کردن را ممنوع می کند. پیوند و عبور وزن آن (شامل طبقه بندی استاندارد، معتبر برای همه موتورهای جستجو).
  • متا تگ robots در یک صفحه خاص بر آن صفحه خاص تأثیر می گذارد. در زیر نگاهی دقیق تر به نحوه نشان دادن ممنوعیت نمایه سازی و دنبال کردن پیوندهای موجود در سند خواهیم داشت. متا تگ کاملا معتبر است، سیستم ها داده های مشخص شده را در نظر می گیرند (یا سعی می کنند در نظر بگیرند). علاوه بر این، گوگل با انتخاب بین ربات ها به صورت فایل در فهرست اصلی سایت و متا تگ صفحه، اولویت را به دومی می دهد.
  • robots.txt - این روش کاملاً معتبر است و توسط همه موتورهای جستجو و سایر ربات های ساکن در وب پشتیبانی می شود. با این وجود، دستورالعمل های او همیشه به عنوان دستوری برای اجرا در نظر گرفته نمی شود (در بالا در مورد عدم اقتدار برای گوگل گفته شد). قوانین نمایه سازی مشخص شده در فایل برای کل سایت معتبر است: صفحات جداگانه، دایرکتوری ها، بخش ها.

با استفاده از مثال ها، ممنوعیت ایندکس کردن پورتال و قطعات آن را در نظر بگیرید.



دلایل زیادی برای جلوگیری از ایندکس کردن یک وب سایت توسط عنکبوت ها وجود دارد. این منبع هنوز در حال توسعه است، در حال طراحی مجدد یا ارتقا است، منبع یک پلت فرم آزمایشی است و برای کاربران در نظر گرفته نشده است.

یک سایت را می توان از نمایه سازی توسط robots.txt برای همه موتورهای جستجو، برای یک ربات منفرد مسدود کرد، یا می توان آن را برای همه به جز یکی ممنوع کرد.

2. نحوه غیرفعال کردن نمایه سازی سایت robots.txt در صفحات جداگانه

اگر منبع کوچک است، بعید است که شما نیاز به پنهان کردن صفحات داشته باشید (آنچه در سایت کارت ویزیت پنهان می شود) و پورتال های بزرگ حاوی مقدار قابل توجهی از اطلاعات خدمات نمی توانند بدون ممنوعیت کاری انجام دهند. بستن از روبات ها ضروری است:

  • پنل اداری؛
  • فهرست خدمات؛
  • جستجوی سایت؛
  • منطقه شخصی;
  • فرم های ثبت نام؛
  • فرم های سفارش؛
  • مقایسه کالاها؛
  • موارد دلخواه
  • سبد؛
  • کپچا
  • پاپ آپ ها و بنرها؛
  • شناسه های جلسه

اخبار و رویدادهای نامربوط، رویدادهای تقویم، تبلیغات، پیشنهادات ویژه - اینها به اصطلاح صفحات زباله هستند که به بهترین شکل پنهان می شوند. همچنین بهتر است برای جلوگیری از امتیاز منفی موتورهای جستجو، مطالب قدیمی را در سایت های اطلاع رسانی ببندید. سعی کنید به‌روزرسانی‌ها را منظم نگه دارید - در این صورت مجبور نخواهید بود با موتورهای جستجو مخفی کاری کنید.

ممنوعیت ربات ها برای نمایه سازی:



در robots.txt، می‌توانید ممنوعیت‌های کامل یا انتخابی را در فهرست‌بندی پوشه‌ها، فایل‌ها، اسکریپت‌ها، تگ‌های utm ثبت کنید، که می‌تواند هم برای عنکبوت‌های جستجوی فردی و هم برای روبات‌های همه سیستم‌ها باشد.

ممنوعیت نمایه سازی:

متا تگ robots به عنوان جایگزینی برای فایل متنی به همین نام عمل می کند. تجویز شده در کد منبعمنبع وب (در فایل index.html)، قرار داده شده در یک ظرف . باید مشخص شود چه کسانی نمی توانند سایت را ایندکس کنند. اگر ممنوعیت عمومی است، روبات ها. اگر ورود فقط به یک خزنده ممنوع است، باید نام آن را مشخص کنید (Google - Googlebot، "Yandex" - Yandex).

دو گزینه برای نوشتن متا تگ وجود دارد.

ویژگی "content" می تواند مقادیر زیر را داشته باشد:

  • هیچ - ممنوعیت نمایه سازی (از جمله noindex و nofollow)؛
  • noindex - ممنوعیت نمایه سازی محتوا.
  • nofollow - لینک های نمایه سازی را ممنوع کنید.
  • دنبال کردن - اجازه فهرست کردن پیوندها.
  • نمایه - اجازه نمایه سازی محتوا.
  • همه - اجازه دهید محتوا و پیوندها ایندکس شوند.

برای موارد مختلف، باید از ترکیب مقادیر استفاده کنید. به عنوان مثال، اگر نمایه سازی محتوا را غیرفعال کنید، باید به ربات ها اجازه دهید تا پیوندها را فهرست کنند: content="noindex, follow".


با بستن وب سایت از موتورهای جستجو از طریق متا تگ ها، مالک نیازی به ایجاد robots.txt در ریشه ندارد.

باید به خاطر داشت که در موضوع نمایه سازی، خیلی به "مودب بودن" عنکبوت بستگی دارد. اگر او "تحصیل کرده" باشد، قوانین تجویز شده توسط استاد مرتبط خواهد بود. اما در کل اعتبار دستورالعمل های ربات ها (اعم از فایل و متا تگ) به معنای رعایت صد در صدی آنها نیست. حتی برای موتورهای جستجو، هر ممنوعیتی آهنین نیست و نیازی به صحبت در مورد انواع مختلف سارقان محتوا نیست. آنها در ابتدا برای دور زدن همه ممنوعیت ها پیکربندی شده اند.

علاوه بر این، همه خزنده ها به محتوا علاقه مند نیستند. برای برخی، فقط پیوندها مهم هستند، برای برخی دیگر - نشانه گذاری میکرو، برخی دیگر نسخه های آینه ای از سایت ها را بررسی می کنند و غیره. در عین حال، عنکبوت های سیستم به هیچ وجه مانند ویروس ها در اطراف سایت نمی خزند، بلکه از راه دور صفحات لازم را درخواست می کنند. بنابراین، اغلب آنها هیچ مشکلی برای صاحبان منابع ایجاد نمی کنند. اما، اگر در هنگام طراحی ربات اشتباهاتی رخ داده باشد یا وضعیت غیر استاندارد خارجی ایجاد شود، خزنده می تواند به طور قابل توجهی پورتال نمایه شده را بارگیری کند.



دستورات استفاده شده:

1. "کاربر-عامل:"

راهنمای اصلی فایل robots.txt. برای مشخصات استفاده می شود. نام ربات وارد شده است که دستورالعمل های بعدی در ادامه خواهد آمد. مثلا:

  • عامل کاربر: Googlebot- دستور اصلی در این فرم به این معنی است که تمام دستورات زیر فقط مربوط به ربات نمایه سازی گوگل است.
  • عامل کاربر: Yandex- مجوزها و ممنوعیت های تجویز شده برای ربات Yandex در نظر گرفته شده است.

در حال ضبط عامل کاربر: *به معنای مراجعه به تمام موتورهای جستجوی دیگر است (کاراکتر ویژه "*" به معنای "هر متن" است). اگر مثال بالا را در نظر بگیریم، ستاره تمام موتورهای جستجو را به جز "Yandex" مشخص می کند. زیرا گوگل به طور کامل از جذابیت شخصی خودداری می کند و به عنوان کلی «هر متن» راضی است.


رایج ترین دستور برای غیرفعال کردن نمایه سازی. با اشاره به ربات در "کاربر-عامل:"، برنامه نویس نشان می دهد که به ربات اجازه نمی دهد بخشی از سایت یا کل سایت را ایندکس کند (در این حالت، مسیر از ریشه نشان داده شده است). عنکبوت جستجو این را با گسترش دستور می فهمد. ما هم آن را کشف خواهیم کرد.

عامل کاربر: Yandex

اگر چنین ورودی در robots.txt وجود داشته باشد، ربات جستجوی Yandex می داند که نمی تواند منبع وب را به این صورت فهرست کند: هیچ توضیحی پس از علامت ممنوعه "/" وجود ندارد.

عامل کاربر: Yandex

غیر مجاز: /wp-admin

در این مثال، توضیحاتی وجود دارد: ممنوعیت نمایه سازی فقط برای پوشه سیستم اعمال می شود wp-admin(سایت با وردپرس طراحی شده است). ربات Yandex فرمان را می بیند و پوشه مشخص شده را فهرست نمی کند.

عامل کاربر: Yandex

غیر مجاز: /wp-content/themes

این دستورالعمل به خزنده می گوید که می تواند تمام محتوا را فهرست کند. wp-content"، به غیر از " تم ها"، که ربات انجام خواهد داد.

عامل کاربر: Yandex

غیر مجاز: /index$

نماد مهم دیگری "$" ظاهر می شود که امکان انعطاف پذیری در ممنوعیت ها را فراهم می کند. در این حالت، ربات می‌داند که مجاز به فهرست کردن صفحاتی که پیوندهای آنها حاوی ترتیب حروف است، نیست. فهرست مطالب". یک فایل جداگانه با همین نام " index.php» شما می توانید ایندکس کنید و ربات به وضوح این را درک می کند.

می توانید ممنوعیت فهرست بندی صفحات جداگانه منبع را که پیوندهای آنها حاوی کاراکترهای خاصی است وارد کنید. مثلا:

عامل کاربر: Yandex

ربات Yandex دستور را به این صورت می خواند: همه صفحات دارای URL های حاوی "&" بین هیچ کاراکتر دیگری ایندکس نکنید.

عامل کاربر: Yandex

در این حالت، ربات متوجه می شود که صفحات تنها در صورتی نمی توانند ایندکس شوند که آدرس آنها با "&" ختم شود.

چرا فهرست کردن فایل های سیستم، بایگانی ها، داده های شخصی کاربران غیرممکن است، فکر می کنیم واضح است - این موضوعی برای بحث نیست. مطلقاً نیازی به یک ربات جستجوگر برای تلف کردن زمان برای بررسی داده هایی که هیچ کس به آنها نیاز ندارد وجود ندارد. اما در مورد ممنوعیت ایندکس صفحات، بسیاری از افراد این سوال را مطرح می کنند که علت مصلحت بخشنامه های بازدارنده چیست؟ توسعه‌دهندگان باتجربه می‌توانند ده‌ها دلیل مختلف برای تابو کردن فهرست‌بندی ارائه دهند، اما اصلی‌ترین آنها نیاز به خلاص شدن از شر صفحات تکراری در جستجو است. در صورت وجود، به طور چشمگیری بر رتبه بندی، ارتباط و سایر جنبه های مهم تأثیر منفی می گذارد. بنابراین، بهینه سازی سئو داخلی بدون robots.txt غیرممکن است، که در آن مقابله با موارد تکراری بسیار ساده است: فقط باید از دستورالعمل "Disallow:" و کاراکترهای خاص به درستی استفاده کنید.

3. "مجاز:"



فایل ربات جادویی به شما این امکان را می دهد که نه تنها چیزهای غیر ضروری را از موتورهای جستجو مخفی کنید، بلکه سایت را برای نمایه سازی نیز باز کنید. robots.txt حاوی دستور " اجازه:" به عنکبوت های موتورهای جستجو می گوید که کدام عناصر از منبع وب باید به پایگاه داده اضافه شوند. همان توضیحاتی که در دستور قبلی وجود داشت به کمک می آیند ، فقط اکنون آنها دامنه مجوزها را برای خزنده ها گسترش می دهند.

بیایید یکی از مثال های ارائه شده در پاراگراف قبلی را در نظر بگیریم و ببینیم که چگونه وضعیت تغییر می کند:

عامل کاربر: Yandex

مجاز: /wp-admin

اگر "عدم اجازه:" به معنای ممنوعیت بود، اکنون محتویات پوشه سیستم wp-adminبه مالکیت Yandex تبدیل می شود زمینه های قانونیو ممکن است در نتایج جستجو ظاهر شود.

اما در عمل از این دستور به ندرت استفاده می شود. یک توضیح کاملاً منطقی برای این وجود دارد: عدم وجود یک غیر مجاز، که با "عدم اجازه:" نشان داده می شود، به عنکبوت های جستجو اجازه می دهد تا کل سایت را به عنوان مجاز برای نمایه سازی در نظر بگیرند. دستورالعمل جداگانه ای برای این مورد نیاز نیست. در صورت وجود ممنوعیت، محتوایی که تحت آنها قرار نمی گیرد نیز به طور پیش فرض توسط روبات ها ایندکس می شود.



دو دستور مهم دیگر برای جستجوی عنکبوت. " میزبان:"- یک دستورالعمل هدف برای یک موتور جستجوی داخلی. Yandex هنگام تعیین آینه اصلی یک منبع وب که آدرس آن (با یا بدون www) در جستجو شرکت می کند توسط آن هدایت می شود.

مثال PR-CY.ru را در نظر بگیرید:

عامل کاربر: Yandex

این دستورالعمل برای جلوگیری از تکرار محتوای منبع استفاده می شود.

تیم " نقشه سایت:» به ربات ها کمک می کند تا به درستی به نقشه سایت حرکت کنند - یک فایل ویژه که نمایانگر ساختار سلسله مراتبی صفحات، نوع محتوا، اطلاعات مربوط به دفعات به روز رسانی و غیره است. ناوبر برای عنکبوت های جستجو، فایل است. sitemap.xml(در موتور وردپرس) sitemap.xml.gz) که باید هر چه سریعتر به آن برسند. سپس نمایه سازی نه تنها نقشه سایت، بلکه سایر صفحاتی را که برای نمایش در نتایج جستجو کاهش نمی یابند، سرعت می بخشد.

مثال فرضی:

دستوراتی که در فایل متنی روبات ها نشان داده شده اند و توسط Yandex پذیرفته شده اند:

بخشنامه

داره چیکار میکنه

عنکبوت جستجویی را که قوانین فهرست شده در فایل برای آن نوشته شده است نام می برد.

نشان‌دهنده ممنوعیت ربات‌ها برای فهرست‌بندی سایت، بخش‌ها یا صفحات منفرد آن است.

مسیر نقشه سایت میزبانی شده در منبع وب را مشخص می کند.

حاوی اطلاعات زیر برای عنکبوت جستجو است: URL صفحه شامل پارامترهای غیرقابل نمایه سازی (مانند برچسب های UTM) است.

اجازه فهرست بندی بخش ها و صفحات یک منبع وب را می دهد.

به شما امکان می دهد اسکن را به تاخیر بیندازید. حداقل زمان (بر حسب ثانیه) برای خزنده بین بارگذاری صفحه را نشان می دهد: پس از بررسی یکی، عنکبوت قبل از درخواست صفحه بعدی از لیست، مدت زمان مشخص شده را منتظر می ماند.

*دستورالعمل مورد نیاز

دستورات Disallow، Sitemap و Clean-param متداول‌ترین درخواست‌ها هستند. بیایید به یک مثال نگاه کنیم:

  • User-agent: * # نشان دهنده روبات هایی است که دستورات زیر برای آنها در نظر گرفته شده است.
  • غیر مجاز: /bin/ # جلوگیری از خزیدن پیوندهای فهرست‌کننده‌ها از سبد خرید.
  • Disallow: /search/ # غیر مجاز نمایه سازی صفحات جستجو در سایت.
  • Disallow: /admin/ # غیر مجاز جستجو در پنل مدیریت.
  • نقشه سایت: http://example.com/sitemap # مسیر نقشه سایت را برای خزنده نشان می دهد.
  • Clean-param: ref /some_dir/get_book.pl

به یاد بیاورید که تفسیرهای بالا از دستورالعمل ها برای Yandex مرتبط است - عنکبوت های موتورهای جستجوی دیگر می توانند دستورات را متفاوت بخوانند.



پایه نظری ایجاد شده است - زمان ایجاد یک ربات متن ایده آل (خوب یا بسیار نزدیک به آن) فرا رسیده است. اگر سایت بر روی یک موتور (جوملا، وردپرس و غیره) کار می کند، با انبوهی از اشیاء عرضه می شود که بدون آنها عملکرد عادی غیرممکن است. اما هیچ جزء اطلاعاتی در چنین فایل هایی وجود ندارد. در اکثر CMS ها، ذخیره سازی محتوا پایگاه داده است، اما روبات ها نمی توانند به آن دسترسی پیدا کنند. و همچنان به دنبال محتوا در فایل های موتور می گردند. بر این اساس، زمان اختصاص داده شده برای نمایه سازی تلف می شود.

خیلی مهم برای محتوای منحصر به فرد تلاش کنیدمنبع وب شما , نظارت دقیق بر وقوع موارد تکراری حتی تکرار جزئی محتوای اطلاعاتی سایت بهترین تاثیر را در ارزیابی آن توسط موتورهای جستجو ندارد. اگر محتوای مشابهی در URL های مختلف یافت شود، این نیز تکراری در نظر گرفته می شود.

دو موتور جستجوی اصلی، Yandex و Google، به ناچار موارد تکراری را در حین خزیدن آشکار می کنند و به طور مصنوعی موقعیت منبع وب را در نتایج جستجو پایین می آورند.

یک ابزار عالی را فراموش نکنید که به شما در مقابله با تکراری کمک می کند - متا تگ معمولی. بنابراین مدیر وب سایت با نوشتن یک URL متفاوت در آن، صفحه ترجیحی برای نمایه سازی را به عنکبوت جستجو نشان می دهد که صفحه متعارف خواهد بود.

برای مثال، صفحه‌ای با صفحه‌بندی https://ktonanovenkogo.ru/page/2 حاوی متا تگ Canonical است که به https://ktonanovenkogo.ru اشاره می‌کند، که مشکلات هدرهای تکراری را برطرف می‌کند.

بنابراین، ما تمام دانش نظری به دست آمده را گرد هم می آوریم و به پیاده سازی عملی آنها در robots.txt برای منبع وب شما می پردازیم که باید مشخصات آن را در نظر گرفت. آنچه برای این فایل مهم مورد نیاز است:

  • ویرایشگر متن (Notepad یا هر نوع دیگری) برای نوشتن و ویرایش روبات ها.
  • آزمایش کننده ای که به یافتن خطاها در سند ایجاد شده کمک می کند و صحت ممنوعیت های نمایه سازی را بررسی می کند (به عنوان مثال Yandex.Webmaster).
  • یک سرویس گیرنده FTP که آپلود یک فایل تمام شده و تأیید شده را در ریشه یک منبع وب ساده می کند (اگر سایت روی وردپرس اجرا می شود، ربات ها اغلب در پوشه سیستم Public_html ذخیره می شوند).

اولین کاری که یک خزنده جستجو انجام می دهد درخواست فایلی است که به طور خاص برای آن ایجاد شده و در URL "/robots.txt" قرار دارد.

یک منبع وب می تواند حاوی یک فایل "/robots.txt" باشد. نیازی نیست آن را در زیر شاخه های سفارشی قرار دهید، جایی که عنکبوت ها به هر حال به دنبال سند نیستند. اگر می خواهید ربات ها را در زیر شاخه ها ایجاد کنید، باید به خاطر داشته باشید که هنوز باید آنها را در یک فایل واحد در پوشه ریشه جمع آوری کنید. استفاده از متا تگ "Robots" مناسب تر است.

URL ها به حروف کوچک و بزرگ حساس هستند - به یاد داشته باشید که "/robots.txt" با حروف بزرگ نوشته نمی شود.

اکنون باید صبور باشید و منتظر عنکبوت‌های جستجو باشید که ابتدا robots.txt را که درست ایجاد شده را بررسی کرده و شروع به خزیدن در پورتال وب شما می‌کنند.

تنظیم صحیح robots.txt برای نمایه سازی سایت ها در موتورهای مختلف

اگر منبع تجاری دارید، ایجاد فایل ربات را باید به یک متخصص سئو با تجربه سپرده شود. این امر به ویژه در صورتی که پروژه پیچیده باشد مهم است. برای کسانی که آمادگی پذیرش آنچه برای بدیهیات گفته شده را ندارند توضیح دهیم: این فایل متنی مهم تأثیر جدی در نمایه سازی منبع توسط موتورهای جستجو دارد، سرعت پردازش سایت توسط ربات ها به صحت آن بستگی دارد. ، و محتوای ربات ها ویژگی های خاص خود را دارد. توسعه‌دهنده باید نوع سایت (وبلاگ، فروشگاه آنلاین و غیره)، موتور، ویژگی‌های ساختاری و سایر جنبه‌های مهمی را که ممکن است یک استاد تازه کار نتواند انجام دهد، در نظر بگیرد.

در همان زمان، شما باید مهمترین تصمیمات را بگیرید: چه چیزی را از خزیدن ببندید، چه چیزی را برای خزنده ها قابل مشاهده بگذارید تا صفحات در جستجو ظاهر شوند. کنار آمدن با چنین حجمی از کار برای یک سئوکار بی تجربه بسیار دشوار خواهد بود.


عامل کاربر:* # قوانین عمومیبرای روبات ها، به جز "Yandex" و Google،

غیر مجاز: /cgi-bin # پوشه میزبانی
عدم اجازه:/؟ # همه پارامترهای پرس و جو در اصلی
غیر مجاز: /wp- # همه فایل‌های WP: /wp-json/، /wp-includes، /wp-content/plugins
غیر مجاز: /wp/ # اگر یک زیر شاخه /wp/ وجود دارد که در آن CMS نصب شده است (اگر نه، قانون # را می توان حذف کرد)
غیر مجاز: *?s= # جستجو
غیر مجاز: *&s= # جستجو
غیر مجاز: /search/ # جستجو
غیر مجاز: /author/ # بایگانی
غیر مجاز: /users/ # بایگانی
غیرمجاز: */trackback # بک‌بک، اعلان‌ها در نظرات درباره پیوند باز # به یک مقاله
غیر مجاز: */feed # همه فیدها
غیر مجاز: */rss # rssfeed
غیر مجاز: */embed # all embeds
غیر مجاز: */wlwmanifest.xml # فایل xml مانیفست Windows Live Writer (در صورت عدم استفاده قابل حذف است)
غیر مجاز: /xmlrpc.php # فایل API وردپرس
غیر مجاز: *utm*= # پیوند با برچسب utm
غیر مجاز: *openstat= # برچسب گذاری شده linksopenstat
مجاز است: */uploads # پوشه را با فایل های آپلود باز کنید
نقشه سایت: http://site.ru/sitemap.xml # آدرس نقشه سایت

عامل کاربر: GoogleBot&# قانون برای Google

غیر مجاز: /cgi-bin

غیر مجاز: /wp-
غیر مجاز: /wp/
غیر مجاز: *?s=
غیر مجاز: *&s=
غیر مجاز: /search/
غیر مجاز: /author/
غیر مجاز: /users/
غیر مجاز: */trackback
غیر مجاز: */feed
غیر مجاز: */rss
غیر مجاز: */embed
غیر مجاز: */wlwmanifest.xml
غیر مجاز: /xmlrpc.php
غیر مجاز: *utm*=
غیر مجاز: *openstat=
Allow: */uploadsAllow: /*/*.js # اسکریپت‌های js را در /wp- باز کنید (/*/ - برای اولویت)
مجاز است: /*/*.css # فایل های css را در داخل /wp- باز کنید (/*/ - برای اولویت)
اجازه دادن به: /wp-*.png # تصاویر در افزونه ها، پوشه کش و غیره.
مجاز به: /wp-*.jpg # تصاویر در افزونه ها، پوشه کش و غیره.
مجاز به: /wp-*.jpeg # تصاویر در پلاگین ها، پوشه کش و غیره.
اجازه دادن به: /wp-*.gif # تصاویر در افزونه ها، پوشه کش و غیره.
اجازه دهید: /wp-admin/admin-ajax.php # مورد استفاده پلاگین‌ها برای مسدود نکردن JS و CSS

عامل کاربر: قانون # Yandex برای Yandex

غیر مجاز: /cgi-bin

غیر مجاز: /wp-
غیر مجاز: /wp/
غیر مجاز: *?s=
غیر مجاز: *&s=
غیر مجاز: /search/
غیر مجاز: /author/
غیر مجاز: /users/
غیر مجاز: */trackback
غیر مجاز: */feed
غیر مجاز: */rss
غیر مجاز: */embed
غیر مجاز: */wlwmanifest.xml
غیر مجاز: /xmlrpc.php
مجاز: */آپلودها
مجاز: /*/*.js
مجاز: /*/*.css
مجاز: /wp-*.png
مجاز: /wp-*.jpg
مجاز: /wp-*.jpeg
مجاز: /wp-*.gif
مجاز: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Yandex توصیه می‌کند # را از نمایه‌سازی نبندید، اما پارامترهای برچسب را حذف کنید، # Google از چنین قوانینی پشتیبانی نمی‌کند
Clean-Param: openstat # مشابه



عامل کاربر: *
غیر مجاز: /administrator/
غیر مجاز: /cache/
غیر مجاز: /شامل/
غیر مجاز: /نصب/
غیر مجاز: /language/
غیر مجاز: /کتابخانه ها/
غیر مجاز: /media/
غیر مجاز: /modules/
غیر مجاز: /plugins/
غیر مجاز: /templates/
غیر مجاز: /tmp/
غیر مجاز: /xmlrpc/
نقشه سایت: http://path نقشه سایت XML شما



عامل کاربر: *
غیر مجاز: /*index.php$
غیر مجاز: /bitrix/
غیر مجاز: /auth/
غیر مجاز: /شخصی/
غیر مجاز: /upload/
غیر مجاز: /search/
غیر مجاز: /*/جستجو/
غیر مجاز: /*/slide_show/
غیر مجاز: /*/gallery/*order=*
غیر مجاز: /*?print=
غیر مجاز: /*&print=
غیر مجاز: /*register=
غیر مجاز: /*forgot_password=
غیر مجاز: /*change_password=
غیر مجاز: /*login=
غیر مجاز: /*logout=
غیر مجاز: /*auth=
غیر مجاز: /*?action=
غیر مجاز: /*action=ADD_TO_COMPARE_LIST
غیر مجاز: /*action=DELETE_FROM_COMPARE_LIST
غیر مجاز: /*action=ADD2BASKET
غیر مجاز: /*action=BUY
غیر مجاز: /*bitrix_*=
غیر مجاز: /*backurl=*
غیر مجاز: /*BACKURL=*
غیر مجاز: /*back_url=*
غیر مجاز: /*BACK_URL=*
غیر مجاز: /*back_url_admin=*
غیر مجاز: /*print_course=Y
غیر مجاز: /*COURSE_ID=
غیر مجاز: /*?COURSE_ID=
غیر مجاز: /*?PAGEN
غیر مجاز: /*PAGEN_1=
غیر مجاز: /*PAGEN_2=
غیر مجاز: /*PAGEN_3=
غیر مجاز: /*PAGEN_4=
غیر مجاز: /*PAGEN_5=
غیر مجاز: /*PAGEN_6=
غیر مجاز: /*PAGEN_7=


غیر مجاز: /*PAGE_NAME=جستجو
غیر مجاز: /*PAGE_NAME=user_post
غیر مجاز: /*PAGE_NAME=detail_slide_show
غیر مجاز: /*SHOWALL
غیر مجاز: /*show_all=
نقشه سایت: http://path نقشه سایت XML شما



عامل کاربر: *
غیر مجاز: /assets/cache/
غیر مجاز: /assets/docs/
غیر مجاز: /assets/export/
غیر مجاز: /assets/import/
غیر مجاز: /assets/modules/
غیر مجاز: /assets/plugins/
غیر مجاز: /assets/snippets/
غیر مجاز: /install/
غیر مجاز: /manager/
نقشه سایت: http://site.ru/sitemap.xml

5. Robots.txt، نمونه ای برای دروپال

عامل کاربر: *
غیر مجاز: /پایگاه داده/
غیر مجاز: /شامل/
غیر مجاز: /misc/
غیر مجاز: /modules/
غیر مجاز: /sites/
غیر مجاز: /themes/
غیر مجاز: /scripts/
غیر مجاز: /به روز رسانی/
غیر مجاز: /پروفایل/
غیر مجاز: /profile
غیر مجاز: /profile/*
غیر مجاز: /xmlrpc.php
غیر مجاز: /cron.php
غیر مجاز: /update.php
غیر مجاز: /install.php
غیر مجاز: /index.php
غیر مجاز: /admin/
عدم اجازه: /comment/reply/
غیر مجاز: /contact/
غیر مجاز: /logout/
غیر مجاز: /search/
غیر مجاز: /user/register/
غیر مجاز: /user/password/
غیر مجاز: *ثبت نام*
غیر مجاز: *ورود*
غیر مجاز: /top-rated-
غیر مجاز: /messages/
غیر مجاز: /book/export/
غیر مجاز: /user2userpoints/
غیر مجاز: /myuserpoints/
غیر مجاز: /tagadelic/
غیر مجاز: /ارجاع/
غیر مجاز: /aggregator/
غیر مجاز: /files/pin/
غیر مجاز: /Your-votes
غیر مجاز: /comments/recent
غیر مجاز: /*/edit/
غیر مجاز: /*/حذف/
غیر مجاز: /*/صادرات/html/
غیر مجاز: /taxonomy/term/*/0$
غیر مجاز: /*/edit$
غیر مجاز: /*/outline$
غیر مجاز: /*/revisions$
غیر مجاز: /*/contact$
غیر مجاز: /*downloadpipe
غیر مجاز: /node$
غیر مجاز: /node/*/track$

غیر مجاز: /*?page=0
غیر مجاز: /*بخش
غیر مجاز: /* سفارش
غیر مجاز: /*?مرتب کردن*
غیر مجاز: /*&مرتب کردن*
غیر مجاز: /*votesupdown
غیر مجاز: /*تقویم
غیر مجاز: /*index.php
مجاز: /*?page=

نقشه سایت: http://path به نقشه سایت XML شما

توجه!سیستم های مدیریت محتوای سایت به طور مداوم به روز می شوند، بنابراین فایل روبات ها نیز ممکن است تغییر کند: صفحات یا گروه های اضافی از فایل ها ممکن است بسته شوند، یا برعکس، برای نمایه سازی باز شوند. این به اهداف منبع وب و تغییرات موتور فعلی بستگی دارد.

7 اشتباه رایج هنگام نمایه سازی سایت با استفاده از robots.txt



خطاهای ایجاد شده در هنگام ایجاد فایل باعث می شود robots.txt نادرست عمل کند یا حتی منجر به عدم امکان کار فایل شود.

چه خطاهایی ممکن است:

  • منطقی (قوانین علامت گذاری شده با هم برخورد می کنند). می توانید این نوع خطا را در حین آزمایش در Yandex.Webmaster و GoogleRobotsTestingTool شناسایی کنید.
  • نحوی (دستورالعمل ها با خطا نوشته می شوند).

رایج تر از دیگران عبارتند از:

  • رکورد به حروف کوچک و بزرگ حساس نیست.
  • از حروف بزرگ استفاده می شود؛
  • همه قوانین در یک خط ذکر شده است.
  • قوانین با یک خط خالی از هم جدا نمی شوند.
  • مشخص کردن خزنده در دستورالعمل؛
  • هر فایل پوشه ای که باید بسته شود به طور جداگانه فهرست شده است.
  • دستورالعمل اجباری Disallow وجود ندارد.

اشتباهات رایج، عواقب آنها و مهمتر از همه، اقدامات لازم برای جلوگیری از آنها را در منبع وب خود در نظر بگیرید.

  1. محل فایل.آدرس فایل باید به شکل زیر باشد: http://site.ru/robots.txt (به جای site.ru، آدرس سایت شما ذکر شده است). فایل robots.txt منحصراً در پوشه اصلی منبع است - در غیر این صورت، عنکبوت های جستجو آن را نمی بینند. بدون ممنوع شدن، کل سایت و حتی آن دسته از فایل‌ها و پوشه‌هایی را که می‌خواهید از نتایج جستجو پنهان کنید، می‌خزند.
  2. حساس به حروف کوچک و بزرگبدون حروف بزرگ http://site.ru/Robots.txt اشتباه است. در این حالت، ربات موتور جستجو یک 404 (صفحه خطا) یا 301 (redirect) را به عنوان پاسخ سرور دریافت می کند. خزیدن بدون در نظر گرفتن دستورالعمل های مشخص شده در روبات ها انجام می شود. اگر همه چیز به درستی انجام شود، پاسخ سرور کد 200 است که در آن صاحب منبع می تواند خزنده جستجو را کنترل کند. تنها گزینه صحیح "robots.txt" است.
  3. باز شدن در صفحه مرورگرعنکبوت های جستجو فقط در صورتی می توانند دستورالعمل های فایل robots.txt را به درستی بخوانند و از آن استفاده کنند که در صفحه مرورگر باز شود. توجه دقیق به سمت سرور موتور مهم است. گاهی اوقات فایلی از این نوع برای دانلود ارائه می شود. سپس باید نمایشگر را تنظیم کنید - در غیر این صورت ربات ها هر طور که بخواهند در سایت می خزند.
  4. خطاهای ممنوعیت و اجازه."عدم اجازه" - دستورالعملی برای ممنوعیت اسکن سایت یا بخش های آن. به عنوان مثال، شما باید از ایندکس کردن صفحات با نتایج جستجو در سایت توسط ربات ها جلوگیری کنید. در این مورد، فایل robots.txt باید حاوی این خط باشد: "Disallow: /search/". خزنده می‌داند که تمام صفحاتی که "جستجو" در آنها انجام می‌شود، خزیدن ممنوع هستند. با ممنوعیت کامل در نمایه سازی، Disallow: / نوشته شده است. اما بخشنامه مجاز "Allow" در این مورد ضروری نیست. اگرچه غیرمعمول نیست که دستوری به این صورت نوشته شود: "Allow:"، با این فرض که ربات این را به عنوان اجازه فهرست کردن "هیچ چیز" درک می کند. شما می توانید اجازه دهید کل سایت از طریق دستورالعمل "Allow: /" ایندکس شود. نیازی به اشتباه گرفتن دستورات نیست. این منجر به خطاهای خزیدن توسط عنکبوت ها می شود که در نهایت صفحاتی را اضافه می کنند که مطلقاً آنهایی نیستند که باید تبلیغ شوند.
  5. مطابقت بخشنامه Disallow: و Allow: برای همان صفحه در روبات‌ها یافت می‌شوند، که باعث می‌شود خزنده‌ها دستور مجوز را در اولویت قرار دهند. به عنوان مثال، در ابتدا پارتیشن برای خزیدن توسط عنکبوت ها باز شد. سپس بنا به دلایلی تصمیم گرفته شد که آن را از شاخص پنهان کنیم. طبیعتاً یک ممنوعیت به فایل robots.txt اضافه می شود، اما مدیر وب سایت فراموش می کند مجوز را حذف کند. برای موتورهای جستجو، ممنوعیت چندان مهم نیست: آنها ترجیح می دهند صفحه را با دور زدن دستوراتی که یکدیگر را حذف می کنند فهرست بندی کنند.
  6. دستورالعمل میزبان:.فقط توسط عنکبوت های Yandex شناخته شده و برای تعیین آینه اصلی استفاده می شود. یک دستور مفید، اما، افسوس، به نظر می رسد اشتباه یا ناشناخته برای تمام موتورهای جستجوی دیگر است. هنگامی که آن را در روبات های خود درگیر می کنید، بهینه است که به عنوان User-agent مشخص کنید: همه و ربات Yandex، که می توانید شخصاً دستور Host را برای آن ثبت کنید:

    عامل کاربر: Yandex
    میزبان: site.ru

    دستورالعملی که برای همه خزنده ها تجویز شده است توسط آنها اشتباه تلقی می شود.

  7. دستورالعمل نقشه سایت:.با کمک نقشه سایت، ربات ها متوجه می شوند که چه صفحاتی در یک منبع وب قرار دارند. یک اشتباه بسیار رایج این است که توسعه دهندگان به مکان فایل sitemap.xml توجه نمی کنند، اگرچه لیست URL های موجود در نقشه را تعیین می کند. با قرار دادن فایل در خارج از پوشه ریشه، خود توسعه دهندگان سایت را در معرض خطر قرار می دهند: خزنده ها تعداد صفحات را به اشتباه تعیین می کنند، در نتیجه بخش های مهمی از منبع وب در نتایج جستجو گنجانده نمی شود.

به عنوان مثال، با قرار دادن یک فایل نقشه سایت در فهرستی در URL http://primer.ru/catalog/sitemap.xml، می توانید هر URL که با http://primer.ru/catalog/ شروع می شود ... و URL ها را وارد کنید. مانند، مثلاً، http://primer.ru/images/ ... نباید در لیست گنجانده شود.

خلاصه کنید. اگر صاحب سایت بخواهد بر روند نمایه سازی یک منبع وب توسط ربات های جستجو تأثیر بگذارد، فایل robots.txt از اهمیت ویژه ای برخوردار است. لازم است سند ایجاد شده را از نظر خطاهای منطقی و نحوی به دقت بررسی کنید تا در نهایت دستورالعمل ها برای موفقیت کلی سایت شما کار کنند و از نمایه سازی با کیفیت و سریع اطمینان حاصل کنند.

چگونه با ایجاد ساختار صحیح robots.txt برای نمایه سازی سایت از خطا جلوگیری کنیم



ساختار robots.txt واضح و ساده است، نوشتن فایل توسط خودتان کاملا امکان پذیر است. شما فقط باید به دقت سینتکسی را که برای روبات ها بسیار مهم است نظارت کنید. ربات های جستجو به طور داوطلبانه دستورالعمل های سند را دنبال می کنند، اما موتورهای جستجو نحو را متفاوت تفسیر می کنند.

فهرستی از قوانین اجباری زیر به حذف رایج ترین اشتباهات هنگام ایجاد robots.txt کمک می کند. برای نوشتن سند مناسب، باید به یاد داشته باشید که:

  • هر دستورالعمل از یک خط جدید شروع می شود.
  • در یک خط - بیش از یک دستور.
  • یک فاصله را نمی توان در ابتدای یک خط قرار داد.
  • پارامتر فرمان باید در یک خط باشد.
  • پارامترهای دستورالعمل نیازی به نقل قول ندارند.
  • پارامترهای فرمان به نقطه ویرگول در انتها نیاز ندارند.
  • دستورالعمل در robots.txt در قالب مشخص شده است: [command_name]:[optional space][value][optional space];
  • بعد از علامت پوند # نظر در robots.txt مجاز است.
  • یک رشته خالی را می توان به عنوان انتهای فرمان User-agent تفسیر کرد.
  • دستورالعمل منع با یک مقدار خالی - "Disallow:" مشابه دستورالعمل "Allow: /" است که اجازه اسکن کل سایت را می دهد.
  • دستورالعمل های "Allow"، "Disallow" نمی توانند بیش از یک پارامتر داشته باشند. هر پارامتر جدید در یک خط جدید نوشته می شود.
  • فقط از حروف کوچک در نام فایل robots.txt استفاده می شود. Robots.txt یا ROBOTS.TXT - املای اشتباه؛
  • استاندارد robots.txt حساسیت حروف کوچک و بزرگ را تنظیم نمی کند، اما فایل ها و پوشه ها اغلب در این مورد حساس هستند. بنابراین، اگرچه استفاده از حروف بزرگ در نام دستورات و پارامترها قابل قبول است، اما این حالت بد تلقی می شود. بهتر است با حروف بزرگ غافل نشوید.
  • هنگامی که پارامتر فرمان یک پوشه است، قبل از نام یک اسلش "/" لازم است، به عنوان مثال: Disallow: /category;
  • اگر فایل robots.txt بیش از 32 کیلوبایت وزن داشته باشد، ربات‌های جستجو آن را معادل "Disallow:" می‌دانند و آن را کاملاً اجازه فهرست‌سازی را می‌دهند.
  • غیرقابل دسترس بودن robots.txt (به دلایل مختلف) ممکن است توسط خزنده ها به عنوان عدم وجود ممنوعیت خزیدن درک شود.
  • robots.txt خالی به عنوان امکان نمایه سازی سایت به عنوان یک کل در نظر گرفته می شود.
  • اگر چندین دستور "کاربر-عامل" بدون خط خالی بین آنها فهرست شده باشد، عنکبوت های جستجو ممکن است اولین دستورالعمل را به عنوان تنها دستور دهند و همه دستورالعمل های "عامل کاربر" بعدی را نادیده بگیرند.
  • robots.txt استفاده از هیچ گونه علامت الفبای ملی را مجاز نمی داند.

قوانین بالا برای همه موتورهای جستجو مرتبط نیستند، زیرا آنها نحو robots.txt را به طور متفاوتی تفسیر می کنند. به عنوان مثال، "Yandex" ورودی ها را با حضور در خط "User-agent" انتخاب می کند، بنابراین وجود یک خط خالی بین دستورالعمل های مختلف "User-agent" برای آن مهم نیست.

به طور کلی، ربات ها باید فقط حاوی مواردی باشند که واقعاً برای نمایه سازی مناسب مورد نیاز است. نیازی به تلاش برای در آغوش کشیدن بیکران بودن و قرار دادن حداکثر داده ها در سند نیست. بهترین robots.txt یک فایل معنادار است، تعداد خطوط آن مهم نیست.

روبات های سند متنی باید از نظر ساختار صحیح و نحو صحیح بررسی شوند، که به خدمات ارائه شده در وب کمک می کند. برای انجام این کار، باید robots.txt را در پوشه ریشه سایت خود آپلود کنید، در غیر این صورت ممکن است سرویس گزارش دهد که قادر به بارگیری سند مورد نیاز نیست. قبل از اینکه robots.txt توصیه می شود در آدرس فایل (your_site.ru/robots.txt) در دسترس بودن را بررسی کنید.

بزرگترین موتورهای جستجو Yandex و Google خدمات تجزیه و تحلیل وب سایت خود را به مدیران وب سایت ارائه می دهند. یکی از جنبه های کار تحلیلی، بررسی ربات است:

اعتبارسنجی های آنلاین robots.txt زیادی در اینترنت وجود دارد، شما می توانید هر کدام را که دوست دارید انتخاب کنید.

آرایه ( => 24 [~ID] => 24 => 10.10.2019 18:52:28 [~TIMESTAMP_X] => 10.10.2019 18:52:28 => 1 [~MODIFIED_BY] => 1 => 10.10. 2019 18:51:03 [~DATE_CREATE] => 10/10/2019 18:51:03 => 1 [~CREATED_BY] => 1 => 6 [~IBLOCK_ID] => 6 => [~IBLOCK_SECTION_ID] => => Y [~ ACTIVE] => Y => Y [~GLOBAL_ACTIVE] => Y => 500 [~SORT] => 500 => مقالات توسط Pavel Bobylev [~NAME] => مقالات توسط Pavel Bobylev => 11744 [ ~PICTURE] = > 11744 => 13 [~LEFT_MARGIN] => 13 => 14 [~RIGHT_MARGIN] => 14 => 1 [~DEPTH_LEVEL] => 1 => Pavel Bobylev [~DESCRIPTION] => Pavel Bobylev => متن [~DESCRIPTION_TYPE ] => متن => مقاله‌های پاول بوبیلف پاول بابیلف [~SEARCHABLE_CONTENT] => مقالات پاول بوبیلف پاول بوبیلف => stati-pavla-bobyleva [~CODE] => stati-pavla-bobyleva => [~ XML_ID] => => [~TMP_ID] => => [~DETAIL_PICTURE] => => [~SOCNET_GROUP_ID] => => /blog/index.php?ID=6 [~LIST_PAGE_URL] => /blog/index .php?ID=6 => /blog/list.php?SECTION_ID=24 [~SECTION_PAGE_URL] => /b log/list.php?SECTION_ID=24 => وبلاگ [~IBLOCK_TYPE_ID] => وبلاگ => وبلاگ [~IBLOCK_CODE] => وبلاگ => [~IBLOCK_EXTERNAL_ID] => => [~EXTERNAL_ID] =>)