Роботите txt предотвратяват индексирането на страници. Как да деактивирате индексирането на необходимите страници

Robots.txt файл— текстов файл във формат .txt, който ограничава достъпа на търсещите роботи до съдържание на http сървъра. Как определение, Robots.txt- това стандарт за изключение на роботи, който беше приет от W3C на 30 януари 1994 г. и се използва доброволно от повечето търсачки. Файлът robots.txt се състои от набор от инструкции за роботите, за да предотвратят индексирането на определени файлове, страници или директории на сайт. Помислете за описанието на robots.txt за случая, когато сайтът не ограничава достъпа до сайта от роботи.

Прост пример за robots.txt:

Потребителски агент: * Разрешаване: /

Тук роботите напълно позволяват индексирането на целия сайт.

Файлът robots.txt трябва да бъде качен в главната директория на вашия уебсайттака че да е наличен на:

Your_site.ru/robots.txt

Поставянето на файл robots.txt в корена на сайта обикновено изисква FTP достъп. Някои системи за управление (CMS) обаче ви позволяват да създавате robots.txt директно от контролния панел на сайта или чрез вградения FTP мениджър.

Ако файлът е наличен, тогава ще видите съдържанието на robots.txt в браузъра.

За какво е robots.txt?

Roots.txt за сайта е важен аспект. Защо е необходим robots.txt? Например, в SEO robots.txt е необходим, за да изключите от индексирането страници, които не съдържат полезно съдържание и много други. Как, какво, защо и защо е изключено вече е описано в статията за това, няма да се спираме на това тук. Трябва ли ми файл robots.txtвсички сайтове? Да и не. Ако използването на robots.txt предполага изключване на страници от търсенето, тогава за малки сайтове с проста структура и статични страници, такива изключения може да са ненужни. Въпреки това, дори за малък сайт, някои директиви robots.txt, като директивата Host или Sitemap, но повече за това по-долу.

Как да създадете robots.txt

Тъй като robots.txt е текстов файл и за създайте файл robots.txt, можете да използвате всеки текстов редактор, например бележник. Веднага след като отворите нов текстов документ, вече сте започнали да създавате robots.txt, остава само да съставите съдържанието му в зависимост от вашите изисквания и да го запишете като текстов файл, наречен robots в txt формат. Това е просто и създаването на файл robots.txt не трябва да създава проблеми дори за начинаещи. По-долу ще ви покажа как да пишете robots.txt и какво да пишете в robots.

Създайте robots.txt онлайн

Вариант за мързеливи създайте роботи онлайн и изтеглете файла robots.txtвече готов. Създаването на роботи txt онлайн предлага много услуги, изборът е ваш. Основното нещо е ясно да се разбере какво ще бъде забранено и какво е позволено, в противен случай създаването на файл robots.txt онлайн може да се превърне в трагедиякоето след това може да бъде трудно за коригиране. Особено ако нещо, което е трябвало да бъде затворено, попадне в търсенето. Бъдете внимателни - проверете вашия файл robots, преди да го качите на сайта. Още персонализиран файл robots.txtпо-точно отразява структурата на ограниченията от тази, която е автоматично генерирана и изтеглена от друг сайт. Прочетете, за да знаете на какво да обърнете специално внимание, когато редактирате robots.txt.

Редактиране на robots.txt

След като успеете да създадете файл robots.txt онлайн или на ръка, можете редактирайте robots.txt. Можете да промените съдържанието му, както желаете, основното е да следвате някои правила и синтаксис на robots.txt. В процеса на работа на сайта файлът robots може да се промени и ако редактирате robots.txt, не забравяйте да качите актуализирана, актуална версия на файла с всички промени в сайта. След това помислете за правилата за създаване на файл, за да знаете как да промените файла robots.txtи "не цепете дърва".

Правилна настройка на robots.txt

Правилна настройка на robots.txtви позволява да избягвате получаването на лична информация в резултатите от търсенето на големите търсачки. Въпреки това, не забравяйте това Командите robots.txt не са нищо повече от ръководство за действие, а не защита. Надеждни роботи за търсачки като Yandex или Google следват инструкциите на robots.txt, но други роботи могат лесно да ги игнорират. Правилното разбиране и използване на robots.txt е ключът към постигане на резултати.

Да разбера как да направя правилния txt роботи, първо трябва да разберете общите правила, синтаксис и директиви на файла robots.txt.

Правилният robots.txt започва с директива User-agent, което показва към кой робот са адресирани специфичните директиви.

Примери за потребителски агент в robots.txt:

# Указва директиви за всички роботи едновременно User-agent: * # Указва директиви за всички роботи Yandex User-agent: Yandex # Указва директиви само за основния Yandex робот User-agent: YandexBot # Указва директиви за всички роботи на Google User-agent: Googlebot

Моля, имайте предвид, че такива настройка на файла robots.txtказва на робота да използва само директиви, които съответстват на потребителския агент с неговото име.

Пример за Robots.txt с множество записи на потребителски агент:

# Ще се използва от всички роботи на Yandex Потребителски агент: Yandex Disallow: /*utm_ # Ще се използва от всички роботи на Google Потребителски агент: Googlebot Disallow: /*utm_ # Ще се използва от всички роботи с изключение на роботите на Yandex и потребителя на Google- агент: * Разрешаване: / *utm_

Директива на потребителския агентсъздава само индикация за конкретен робот и веднага след директивата User-agent трябва да има команда или команди с директна индикация за състоянието за избрания робот. Примерът по-горе използва директивата за деактивиране "Disallow", която има стойността "/*utm_". Така затваряме всичко. Правилната настройка на robots.txt предотвратява наличието на празни прекъсвания на редове между директивите "User-agent", "Disallow" и директивите след "Disallow" в рамките на текущия "User-agent".

Пример за неправилно предаване на ред в robots.txt:

Пример за правилно предаване на ред в robots.txt:

Потребителски агент: Yandex Disallow: /*utm_ Разрешаване: /*id= User-agent: * Disallow: /*utm_ Разрешаване: /*id=

Както можете да видите от примера, инструкциите в robots.txt идват на блокове, всеки от които съдържа инструкции за конкретен робот или за всички роботи "*".

Освен това е важно да се спазва правилна подредбаи сортиране на команди в robots.txt при споделяне на директиви като "Disallow" и "Allow". Директивата „Allow“ е разрешителната директива и е противоположна на командата „Disallow“ robots.txt, която е директива за забрана.

Пример за директиви за споделяне в robots.txt:

Потребителски агент: * Разрешаване: /blog/page Забраняване: /blog

Този пример не позволява на всички роботи да индексират всички страници, започващи с "/blog", но позволява индексиране на страници, започващи с "/blog/page".

Предишният пример за robots.txt в правилното сортиране:

Потребителски агент: * Disallow: /blog Разрешаване: /blog/page

Първо деактивираме цялата секция, след това разрешаваме някои от нейните части.

Още едно правилен пример за robots.txtсъс съвместни директиви:

Потребителски агент: * Разрешаване: / Забраняване: /блог Разрешаване: /блог/страница

Обърнете внимание на правилната последователност от директиви в този robots.txt.

Директивите "Allow" и "Disallow" също могат да бъдат посочени без параметри, като в този случай стойността ще се интерпретира обратно на параметъра "/".

Пример за директива "Disallow/Allow" без параметри:

User-agent: * Disallow: # е еквивалентен на Allow: / Disallow: /blog Разрешаване: /blog/page

Как да съставите правилния robots.txtи как да използвате тълкуването на директивите е ваш избор. И двата варианта ще са правилни. Основното нещо е да не се бъркате.

За правилната компилация на robots.txt е необходимо точно да посочите приоритетите в параметрите на директивите и какво ще бъде забранено за изтегляне от роботи. По-долу ще разгледаме по-подробно използването на директивите "Disallow" и "Allow", но сега нека разгледаме синтаксиса на robots.txt. Познаването на синтаксиса на robots.txt ще ви доближи до създайте перфектните роботи txt със собствените си ръце.

Синтаксис на Robots.txt

Роботите на търсачките доброволно следват командите robots.txt- стандартът за изключения за роботи, но не всички търсачкитретирайте синтаксиса на robots.txt по същия начин. Файлът robots.txt има строго дефиниран синтаксис, но в същото време напишете robots txtне е трудно, тъй като структурата му е много проста и лесна за разбиране.

Ето конкретен списък с прости правила, следвайки които ще изключите често срещани грешки в robots.txt:

  1. Всяка директива започва от нов ред;
  2. Не включвайте повече от една директива на един ред;
  3. Не поставяйте интервал в началото на реда;
  4. Параметърът на директивата трябва да е на един ред;
  5. Не е необходимо да поставяте параметрите на директивата в кавички;
  6. Параметрите на директивата не изискват затваряне на точка и запетая;
  7. Командата в robots.txt е посочена във формата - [име_на_директива]:[незадължително пространство][стойност][незадължително пространство];
  8. Коментарите са разрешени в robots.txt след знака #;
  9. Празен нов ред може да се интерпретира като край на директива User-agent;
  10. Директивата "Disallow:" (с празна стойност) е еквивалентна на "Allow: /" - разрешава всичко;
  11. Директивите "Allow", "Disallow" определят не повече от един параметър;
  12. Името на файла robots.txt не позволява наличието на главни букви, грешното изписване на името на файла е Robots.txt или ROBOTS.TXT;
  13. Писането на имената на директиви и параметри с главни букви се счита за лоша форма и ако според стандарта robots.txt не е чувствителен към малки и големи букви, имената на файловете и директориите често са чувствителни към главни букви;
  14. Ако параметърът на директивата е директория, тогава името на директорията винаги се предхожда от наклонена черта "/", например: Disallow: /category
  15. Твърде големият robots.txt (повече от 32 KB) се счита за напълно разрешителен, еквивалентно на „Disallow: “;
  16. Robots.txt, който е недостъпен по някаква причина, може да се третира като напълно разрешителен;
  17. Ако robots.txt е празен, тогава той ще бъде третиран като напълно разрешителен;
  18. В резултат на изброяването на множество директиви "User-agent" без празен нов ред, всички следващи директиви "User-agent" с изключение на първата могат да бъдат игнорирани;
  19. Използването на символи от национални азбуки в robots.txt не е разрешено.

Тъй като различните търсачки могат да интерпретират синтаксиса robots.txt по различен начин, някои точки могат да бъдат пропуснати. Така, например, ако посочите няколко директиви „User-agent“ без празен прекъсване на ред, всички директиви „User-agent“ ще бъдат приети правилно от Yandex, тъй като Yandex подчертава записи чрез присъствието в реда „User-agent“ .

Роботите трябва стриктно да посочват само това, което е необходимо, и нищо повече. Не мислете как да напиша всичко в robots txtкакво е възможно и как да го попълним. Перфектни роботи txtе този с по-малко редове, но с повече значение. „Краткостта е душата на остроумието“. Този израз е много полезен тук.

Как да проверите robots.txt

За да проверете robots.txtза правилния синтаксис и структура на файла, можете да използвате една от онлайн услугите. Например, Yandex и Google предлагат свои собствени услуги за уеб администратори, които включват Разбор на robots.txt:

Проверка на файла robots.txt в Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

За да проверете robots.txt онлайннеобходимо качете robots.txt на сайта в основната директория. В противен случай службата може да съобщи това неуспешно зареждане на robots.txt. Препоръчително е първо да проверите наличността robots.txt на адреса, където се намира файлът, например: your_site.ru/robots.txt.

В допълнение към услугите за проверка от Yandex и Google, има много други онлайн. robots.txt валидатори.

Robots.txt срещу Yandex и Google

Съществува субективно мнение, че Yandex възприема индикацията на отделен блок от директиви "User-agent: Yandex" в robots.txt по-положително от общия блок от директиви с "User-agent: *". Подобна ситуация с robots.txt и Google. Посочването на отделни директиви за Yandex и Google ви позволява да управлявате индексирането на сайтове чрез robots.txt. Може би те са поласкани от лична привлекателност, особено след като за повечето сайтове съдържанието на блоковете robots.txt на Yandex, Google и други търсачки ще бъде същото. С редки изключения, всички блокове "User-agent" ще имат по подразбиране за robots.txtнабор от директиви. Също така, като използвате различен "Потребителски агент", можете да инсталирате забрана за индексиране в robots.txt за Yandex, но например не за Google.

Отделно, заслужава да се отбележи, че Yandex взема предвид такава важна директива като "Host", а правилният robots.txt за Yandex трябва да включва тази директива, за да посочи основното огледало на сайта. Директивата "Хост" ще бъде разгледана по-подробно по-долу.

Деактивиране на индексирането: robots.txt Disallow

Disallow - забраняваща директива, който най-често се използва във файла robots.txt. Disallow забранява индексирането на сайта или част от него, в зависимост от пътя, посочен в параметъра на директивата Disallow.

Пример за това как да деактивирате индексирането на сайта в robots.txt:

Потребителски агент: * Забрани: /

Този пример затваря целия сайт от индексиране за всички роботи.

Специалните символи * и $ могат да се използват в параметъра на директивата Disallow:

* - произволен брой всякакви знаци, например параметърът /page* удовлетворява /page, /page1, /page-be-cool, /page/kak-skazat и т.н. Въпреки това, не е необходимо да указвате * в края на всеки параметър, тъй като например следните директиви се тълкуват по същия начин:

Потребителски агент: Yandex Disallow: /page Потребителски агент: Yandex Disallow: /page*

$ - показва точното съвпадение на изключението със стойността на параметъра:

Потребителски агент: Googlebot Disallow: /page$

В този случай директивата Disallow ще забрани /page, но няма да забрани индексирането на /page1, /page-be-cool или /page/kak-skazat.

Ако затворете индексирането на сайта robots.txt, търсачките могат да отговорят на такъв ход с грешката „Блокиран във файла robots.txt“ или „URL адрес, ограничен от robots.txt“ (URL адрес, забранен от файла robots.txt). Ако се нуждаеш деактивирайте индексирането на страници, можете да използвате не само robots txt, но и подобни html тагове:

  • - не индексирайте съдържанието на страницата;
  • - не следвайте връзките на страницата;
  • - забранено е индексирането на съдържание и следване на връзки на страницата;
  • - подобно на content="none".

Разрешаване на индексиране: robots.txt Разрешаване

Разрешаване - разрешаваща директиваи обратното на директивата Disallow. Тази директива има синтаксис, подобен на Disallow.

Пример за това как да деактивирате индексирането на сайта в robots.txt с изключение на някои страници:

Потребителски агент: * Disallow: /Allow: /page

Забранено е индексирането на целия сайт, с изключение на страниците, започващи с /page.

Disallow и Allow с празна стойност на параметъра

Празна директива Disallow:

Потребителски агент: * Забрани:

Не забранявайте нищо и не позволявайте индексиране на целия сайт и е еквивалентно на:

Потребителски агент: * Разрешаване: /

Празна директива Разреши:

Потребителски агент: * Разрешаване:

Не позволявайте нищо или пълната забрана на индексирането на сайтове е еквивалентно на:

Потребителски агент: * Забрани: /

Основно огледало на сайта: robots.txt Хост

Директивата Host се използва, за да посочи на робота Yandex основното огледало на вашия сайт. От всички популярни търсачки, директивата Хостът се разпознава само от роботите на Yandex. Директивата Host е полезна, ако вашият сайт е достъпен на няколко сайта, например:

mysite.ru mysite.com

Или да дадете приоритет между:

Mysite.ru www.mysite.ru

Можете да кажете на робота Yandex кое огледало е основното. Директивата Host е посочена в блока на директивата "User-agent: Yandex" и като параметър е посочен предпочитаният адрес на сайта без "http://".

Пример за robots.txt, показващ основното огледало:

Потребителски агент: Yandex Disallow: /page Host: mysite.ru

Името на домейна mysite.ru без www е посочено като основно огледало. По този начин този тип адрес ще бъде посочен в резултатите от търсенето.

Потребителски агент: Yandex Disallow: /page Host: www.mysite.ru

Името на домейна www.mysite.ru е посочено като основно огледало.

Директива за хост във файла robots.txtможе да се използва само веднъж, ако директивата Host е посочена повече от веднъж, само първата ще бъде взета предвид, други директиви Host ще бъдат игнорирани.

Ако искате да посочите основното огледало за Googlebot, използвайте услугата Google Webmaster Tools.

Карта на сайта: robots.txt карта на сайта

С помощта на директивата Sitemap можете да посочите местоположението на сайта в robots.txt.

Пример за Robots.txt с адрес на карта на сайта:

User-agent: * Disallow: /page Sitemap: http://www.mysite.ru/sitemap.xml

Посочване на адреса на картата на сайта чрез Sitemap директива в robots.txtпозволява на робота за търсене да разбере за наличието на карта на сайта и да започне да я индексира.

Директива Clean-param

Директивата Clean-param ви позволява да изключите страници с динамични параметри от индексиране. Подобни страници могат да обслужват едно и също съдържание с различни URL адреси на страници. Просто казано, сякаш страницата е достъпна на различни адреси. Нашата задача е да премахнем всички ненужни динамични адреси, които могат да бъдат милион. За да направите това, изключваме всички динамични параметри, използвайки директивата Clean-param в robots.txt.

Синтаксис на директивата Clean-param:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Път]

Помислете за примера на страница със следния URL адрес:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Пример robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # само страница.html

Clean-param: parm1&parm2&parm3 / # за всички

Директива за забавяне на обхождането

Тази инструкция ви позволява да намалите натоварването на сървъра, ако роботите посещават вашия сайт твърде често. Тази директива е приложима главно за сайтове с голям обем страници.

Пример robots.txt Закъснение при обхождане:

Потребителски агент: Yandex Disallow: /page Забавяне на обхождането: 3

В този случай ние „молим“ роботите на Yandex да изтеглят страниците на нашия сайт не повече от веднъж на всеки три секунди. Някои търсачки поддържат десетичен формат като параметър Директиви robots.txt за забавяне на обхождането.

Понякога е необходимо страниците на сайта или поставените на тях връзки да не се показват в резултатите от търсенето. Можете да скриете съдържанието на сайта от индексиране, като използвате файла robots.txt, HTML маркиране или оторизация на сайта.

Забрана за индексиране на сайт, раздел или страница

Ако някои страници или секции на сайта не трябва да бъдат индексирани (например със собствена или поверителна информация), ограничете достъпа до тях по следните начини:

    Използвайте оторизация на сайта. Препоръчваме този метод за скриване на главната страница на сайта от индексиране. Ако началната страница е деактивирана във файла robots.txt или използва мета маркера noindex, но е свързана, страницата може да се появи в резултатите от търсенето.

Забрана за индексиране на съдържанието на страницата

Скриване на част от текста на страницата от индексиране

В HTML кода на страницата добавете елемента noindex. Например:

Елементът не е чувствителен към вмъкване - може да се намира навсякъде в HTML кода на страницата. Ако трябва да направите кода на сайта валиден, можете да използвате маркера в следния формат:

текст, който трябва да бъде индексиранСкриване на връзка на страница от индексиране

В HTML кода на страницата добавете атрибута a към елемента a. Например:

Атрибутът работи подобно на директивата nofollow в мета маркера на robots, но се прилага само за връзката, за която е посочен.

Robots.txt за wordpress е един от основните инструменти за настройка на индексиране. По-рано говорихме за ускоряване и подобряване на процеса на индексиране на статии. Освен това те разглеждаха този въпрос, сякаш роботът за търсене не знае и не може да направи нищо. И ние трябва да му кажем. За това използвахме файл с карта на сайта.

Може би все още не знаете как роботът за търсене индексира вашия сайт? По подразбиране всичко е разрешено да бъде индексирано. Но той не го прави веднага. Роботът, след като получи сигнал, че е необходимо да посетите сайта, го поставя на опашка. Следователно индексирането не се извършва незабавно по наша заявка, а след известно време. След като дойде ред на вашия сайт, този робот-паяк е точно там. На първо място, той търси файла robots.txt.

Ако robots.txt бъде намерен, той чете всички директиви и вижда адреса на файла в края. След това роботът, в съответствие с картата на сайта, заобикаля всички материали, предоставени за индексиране. Той прави това в рамките на ограничен период от време. Ето защо, ако сте създали сайт с няколко хиляди страници и сте го публикували изцяло, тогава роботът просто няма да има време да обиколи всички страници наведнъж. И само тези, които е успял да види, ще влязат в индекса. И роботът обикаля целия сайт и прекарва времето си в него. И не е факт, че на първо място той ще види точно тези страници, които чакате в резултатите от търсенето.

Ако роботът не намери файла robots.txt, той счита, че всичко е разрешено да бъде индексирано. И той започва да рови из всички задни улици. След като направи пълно копие на всичко, което може да намери, той напуска вашия сайт до следващия път. Както разбирате, след такова търсене всичко, което е необходимо, и всичко, което не е необходимо, попада в индексната база на търсачката. Това, което трябва да знаете, са вашите статии, страници, снимки, видеоклипове и т.н. Защо не трябва да индексирате?

За WordPress това се оказва много важен въпрос. Отговорът на него засяга както ускоряването на индексирането на съдържанието на вашия сайт, така и неговата сигурност. Факт е, че цялата информация за услугите не трябва да се индексира. И по принцип е желателно да скриете WordPress файловете от любопитни очи. Това ще намали вероятността вашият сайт да бъде хакнат.

WordPress създава много копия на вашите статии с различни URL адреси, но същото съдържание. Изглежда така:

//име_на_сайт/име_на_статия,

//име_на_сайт/име_на_категория/име_на_статия,

//име_на_сайт/име_на_заглавие/име_на_подзаглавие/име_на_статия,

//име_на сайт/име_на етикет/име_на_статия,

//name_site/archive_creation_date/article_name

С етикети и архиви в обща охрана. Към колко маркера е прикачена статия, толкова копия се създават. При редактиране на статия, колкото архиви ще бъдат създадени на различни дати, толкова нови адреси с почти подобно съдържание ще се появят. Има и копия на статии с адреси за всеки коментар. Просто е ужасно.

Огромен брой дублиращи се търсачките оценяват като лош сайт. Ако всички тези копия бъдат индексирани и предоставени в търсенето, тогава тежестта на основната статия ще бъде разпределена върху всички копия, което е много лошо. И не е факт, че статията с основния адрес ще бъде показана в резултат на търсенето. Следователно е необходимо да се забрани индексирането на всички копия.

WordPress форматира изображенията като отделни статии без текст. В този вид, без текст и описание, те изглеждат като статии абсолютно неправилни. Следователно трябва да вземете мерки, за да предотвратите индексирането на тези адреси от търсачките.

Защо не трябва да се индексира?

Пет причини да забраните индексирането!

  1. Пълното индексиране натоварва допълнително вашия сървър.
  2. Отнема ценно време на самия робот.
  3. Може би това е най-важното нещо, неправилната информация може да бъде интерпретирана погрешно от търсачките. Това ще доведе до неправилно класиране на статии и страници, а впоследствие и до неправилни резултати в резултатите от търсенето.
  4. Папките с шаблони и плъгини съдържат огромен брой връзки към сайтовете на създатели и рекламодатели. Това е много лошо за един млад сайт, когато все още няма или има много малко връзки към вашия сайт отвън.
  5. Като индексира всички копия на вашите статии в архиви и коментари, търсачката получава лошо мнение за вашия сайт. Много дубликати. Много изходящи връзки Търсачката ще понижи вашия сайт в резултатите от търсенето до точката на филтриране. А снимките, оформени като отделна статия със заглавие и без текст, ужасяват робота. Ако има много от тях, тогава сайтът може да трака под филтъра Yandex AGS. Моят сайт беше там. Проверено!

Сега, след всичко казано, възниква резонен въпрос: „Възможно ли е по някакъв начин да се забрани индексирането на нещо, което не е необходимо?“. Оказва се, че можете. Поне не по поръчка, а по препоръка. Ситуацията да не се забрани напълно индексирането на някои обекти възниква поради файла sitemap.xml, който се обработва след robots.txt. Оказва се така: robots.txt забранява, а sitemap.xml позволява. И все пак можем да решим този проблем. Как да го направите точно сега и помислете.

Файлът wordpress robots.txt е динамичен по подразбиране и всъщност не съществува в wordpress. И се генерира само в момента, когато някой го поиска, било то робот или просто посетител. Тоест, ако отидете на сайта чрез FTP връзка, тогава просто няма да намерите файла robots.txt за wordpress в основната папка. И ако посочите неговия конкретен адрес http://your_site_name/robots.txt в браузъра, тогава ще получите съдържанието му на екрана, сякаш файлът съществува. Съдържанието на този генериран файл wordpress robots.txt ще бъде:

В правилата за компилиране на файла robots.txt по подразбиране всичко е разрешено да бъде индексирано. Директивата User-agent: * показва, че всички следващи команди се прилагат към всички агенти за търсене (*). Но тогава нищо не е ограничено. И както знаете, това не е достатъчно. Вече обсъдихме папки и записи с ограничен достъп, доста.

За да можете да правите промени във файла robots.txt и да ги запишете там, трябва да го създадете в статичен, постоянен вид.

Как да създадете robots.txt за wordpress

Във всеки текстов редактор (само в никакъв случай не използвайте MS Word и други подобни с елементи за автоматично форматиране на текст) създайте текстов файл с приблизителното съдържание по-долу и го изпратете в основната папка на вашия сайт. Промените могат да бъдат направени според нуждите.

Просто трябва да вземете предвид характеристиките на компилирането на файла:

В началото на редовете с числа, както тук в статията, не трябва да има. Цифрите са дадени тук за удобство при преглед на съдържанието на файла. В края на всеки ред не трябва да има допълнителни знаци, включително интервали или табулатори. Между блоковете трябва да има празен ред без никакви знаци, включително интервали. Само едно място може да ви причини голяма вреда – ВНИМАВАЙТЕ .

Как да проверите robots.txt за wordpress

Можете да проверите robots.txt за допълнителни интервали по следния начин. В текстов редактор изберете целия текст, като натиснете Ctrl+A. Ако няма интервали в края на редовете и празни редове, ще забележите това. И ако има избрана празнота, тогава трябва да премахнете интервалите и всичко ще бъде наред.

Можете да проверите дали предписаните правила работят правилно на следните връзки:

  • Разбор на Robots.txt Уеб администратор на Yandex
  • Анализирайте robots.txt в конзолата за търсене на Google.
  • Услуга за създаване на файл robots.txt: http://pr-cy.ru/robots/
  • Услуга за създаване и проверка на robots.txt: https://seolib.ru/tools/generate/robots/
  • Документация от Yandex .
  • Документация от google(Английски)

Има и друг начин да проверите файла robots.txt за wordpress сайт, това е да качите съдържанието му на уеб администратора на Yandex или да посочите адреса на неговото местоположение. Ако има някакви грешки, веднага ще разберете.

Правилно robots.txt за wordpress

Сега нека преминем директно към съдържанието на файла robots.txt за сайт на WordPress. Какви директиви трябва да присъстват в него. Приблизителното съдържание на файла robots.txt за wordpress, като се имат предвид неговите характеристики, е дадено по-долу:

Потребителски агент: * Забрани: /wp-login.php Забрани: /wp-admin Забрани: /wp-includes Забрани: /wp-content/plugins Забрани: /wp-content/themes Забрани: */*Забрани коментарите: * /*category Disallow: */*tag Disallow: */trackback Disallow: */*feed Disallow: /*?* Disallow: /?s= Разрешаване: /wp-admin/admin-ajax.php Разрешаване: /wp-content /uploads/ Разреши: /*?replytocom Потребителски агент: Yandex Забрани: /wp-login.php Забрани: /wp-admin Забрани: /wp-includes Забрани: /wp-content/plugins Забрани: /wp-content/themes Disallow: */comments Disallow: */*category Disallow: */*tag Disallow: */trackback Disallow: */*feed Disallow: /*?* Disallow: /*?s= Разрешаване: /wp-admin/admin- ajax.php Разрешаване: /wp-content/uploads/ Разрешаване: /*?replytocom Crawl-delay: 2.0 Хост: site.ru Карта на сайта: http://site.ru/sitemap.xml

Директиви на Wordpress robots.txt

Сега нека разгледаме по-отблизо:

1 - 16 реда блокиращи настройки за всички роботи

User-agent: - Това е задължителна директива, която дефинира агента за търсене. На звездичката пише, че директивата е за роботи от всички търсачки. Ако блокът е предназначен за конкретен робот, тогава трябва да посочите името му, например Yandex, както е в ред 18.

По подразбиране всичко е разрешено за индексиране. Това е еквивалентно на директивата Allow: /.

Следователно, за да се забрани индексирането на конкретни папки или файлове, се използва специална директива Disallow:.

В нашия пример, използвайки имена на папки и маски за имена на файлове, се прави забрана на всички папки на услуги на WordPress, като администратор, теми, плъгини, коментари, категория, етикет... Ако посочите директива в този формуляр Disallow: /, тогава ще бъде дадена забрана за индексиране на целия сайт.

Разреши: - както казах, директивата позволява индексиране на папки или файлове. Трябва да се използва, когато има файлове дълбоко в забранените папки, които все още трябва да бъдат индексирани.

В моя пример ред 3 Disallow: /wp-admin - забранява индексирането на папката /wp-admin, а ред 14 Allow: /wp-admin/admin-ajax.php - позволява индексиране на файла /admin-ajax.php намиращ се в забранената папка за индексиране /wp-admin/.

17 - Празен ред (просто натискане на бутона Enter без интервали)

18 - 33 блок за настройки специално за агента на Yandex (Потребителски агент: Yandex). Както забелязахте, този блок напълно повтаря всички команди от предишния блок. И възниква въпросът: "Какво, по дяволите, е такава неприятност?". Така че всичко това е направено само заради няколко директиви, които ще разгледаме допълнително.

34 - Закъснение при обхождане - Незадължителна директива само за Yandex. Използва се, когато сървърът е силно натоварен и няма време да обработва заявки от роботи. Позволява ви да зададете на робота за търсене минималното забавяне (в секунди и десети от секундата) между края на зареждането на една страница и началото на зареждането на следващата. Максимално допустимата стойност е 2,0 секунди. Добавя се директно след директивите Disallow и Allow.

35 - Празен низ

36 - Хост: site.ru - име на домейн на вашия сайт (ЗАДЪЛЖИТЕЛНА директива за блока на Yandex). Ако нашият сайт използва HTTPS протокол, тогава адресът трябва да бъде посочен изцяло, както е показано по-долу:

Домакин: https://site.ru

37 - Трябва да присъства празен низ (просто натискане на бутона Enter без интервали).

38 - Sitemap: http://site.ru/sitemap.xml - адресът на местоположението на файла(ите) на sitemap.xml (директива ЗАДЪЛЖИТЕЛНО), намира се в края на файла след празен ред и се прилага за всички блокове.

Маски за директиви на файла robots.txt за wordpress

Сега малко как да създадете маски:

  1. Disallow: /wp-register.php - Деактивирайте индексирането на файла wp-register.php, намиращ се в основната папка.
  2. Disallow: /wp-admin - забранява индексирането на съдържанието на папката wp-admin, намираща се в основната папка.
  3. Disallow: /trackback - забранява индексирането на известия.
  4. Disallow: /wp-content/plugins - забранява индексирането на съдържанието на папката с плъгини, намираща се в подпапка (папка от второ ниво) на wp-content.
  5. Disallow: /feed - забранява индексирането на емисията, т.е. затваря RSS емисията на сайта.
  6. * - означава всяка последователност от знаци, следователно може да замени както един знак, така и част от името или цялото име на файл или папка. Липсата на конкретно име в края е равносилна на изписване на *.
  7. Disallow: */*comments - забранява индексирането на съдържанието на папки и файлове, в името на които има коментари и се намират във всякакви папки. В този случай той предотвратява индексирането на коментари.
  8. Disallow: *?s= - забранява индексирането на страници за търсене

Горните редове могат да се използват като работещ файл robots.txt за wordpress. Само в 36, 38 реда трябва да въведете адреса на вашия сайт и ЗАДЪЛЖИТЕЛНО ПРЕМАХВАНЕ номера на редове. И ще получите работещ файл robots.txt за wordpress , адаптиран към всяка търсачка.

Единствената особеност е, че размерът на работния файл robots.txt за wordpress сайт не трябва да надвишава 32 kB дисково пространство.

Ако абсолютно не се интересувате от Yandex, тогава изобщо няма да имате нужда от редове 18-35. Това вероятно е всичко. Надявам се статията да е била полезна. Ако имате въпроси пишете в коментарите.

ROBOTS.TXT- Стандарт за изключения за роботи - файл в текстов формат.txt за ограничаване на достъпа до съдържанието на сайта от роботи. Файлът трябва да се намира в корена на сайта (в /robots.txt). Използването на стандарта не е задължително, но търсачките следват правилата, съдържащи се в robots.txt. Самият файл се състои от набор от записи от формата

:

където полето е името на правилото (User-Agent, Disallow, Allow и т.н.)

Записите са разделени от един или повече празни реда (терминатор на ред: знаци CR, CR+LF, LF)

Как да настроя правилно ROBOTS.TXT?

Този параграф предоставя основните изисквания за настройка на файл, конкретни препоръки за настройка, примери за популярни CMS

  • Размерът на файла не трябва да надвишава 32 KB.
  • Кодирането трябва да е ASCII или UTF-8.
  • Валидният файл robots.txt трябва да съдържа поне едно правило, състоящо се от няколко директиви. Всяко правило трябва да съдържа следните директиви:
    • за кой робот е това правило (директива потребителски агент)
    • до кои ресурси има достъп този агент (директива Allow) или до кои ресурси няма достъп (Disallow).
  • Всяко правило и директива трябва да започват на нов ред.
  • Стойността на правилото Disallow/Allow трябва да започва с / или *.
  • Всички редове, започващи със символа #, или части от редове, започващи с този символ, се считат за коментари и не се вземат предвид от агентите.

По този начин минималното съдържание на правилно конфигуриран файл robots.txt изглежда така:

Потребителски агент: * #за всички агенти Disallow: #нищо не е разрешено = достъпът до всички файлове е разрешен

Как да създадете/промените ROBOTS.TXT?

Можете да създадете файл с всеки текстов редактор (например notepad++). За да създадете или модифицирате файл robots.txt, обикновено се изисква достъп до сървъра чрез FTP/SSH, но много CMS/CMF имат вграден интерфейс за управление на съдържанието на файла чрез административния панел („администраторски панел“), например : Bitrix, ShopScript и др.

За какво е файлът ROBOTS.TXT на сайта?

Както можете да видите от определението, robots.txt ви позволява да контролирате поведението на роботите при посещение на сайт, т.е. настройте индексиране на сайта от търсачките – това прави този файл важна част от SEO оптимизацията на вашия сайт. Най-важната характеристика на robots.txt е забраната за индексиране на страници/файлове, които не съдържат полезна информация. Или като цяло целият сайт, който може да е необходим, например за тестови версии на сайта.

Основните примери за това, което трябва да бъде затворено от индексиране, ще бъдат разгледани по-долу.

Какво трябва да бъде затворено от индексиране?

Първо, винаги трябва да деактивирате индексирането на сайта по време на разработката, за да избегнете попадането в индексните страници, които изобщо няма да бъдат в готовата версия на сайта, и страниците с липсващо/дублирано/тестово съдържание, преди да бъдат попълнени.

Второ, копията на сайта, създадени като тестови сайтове за разработка, трябва да бъдат скрити от индексиране.

На трето място, ще анализираме какво съдържание директно на сайта трябва да бъде забранено за индексиране.

  1. Административна част на сайта, сервизни файлове.
  2. Страници за авторизация/регистрация на потребители, в повечето случаи - лични секции на потребители (ако не е осигурен публичен достъп до лични страници).
  3. Страници за количка и плащане, преглед на поръчките.
  4. Страници за сравнение на продукти, възможно е избирателно да отваряте такива страници за индексиране, при условие че са уникални. Като цяло таблиците за сравнение са безброй страници с дублирано съдържание.
  5. Страниците за търсене и филтриране могат да бъдат оставени отворени за индексиране само ако са правилна настройка: отделни URL адреси, изпълнени с уникални заглавия, мета тагове. В повечето случаи такива страници трябва да бъдат затворени.
  6. Страници със сортиращи продукти/записи, ако имат различни адреси.
  7. Страници с utm-, openstat-тагове в URL адрес (както и всички останали).

Синтаксис ROBOTS.TXT

Сега нека се спрем на синтаксиса на robots.txt по-подробно.

Общи положения:

  • всяка директива трябва да започва от нов ред;
  • низът не трябва да започва с интервал;
  • стойността на директивата трябва да е на един ред;
  • няма нужда да поставяте стойности на директивата в кавички;
  • по подразбиране, за всички стойности на директивите, * се изписва в края, пример:Потребителски агент: Yandex Disallow: /cgi-bin* # блокира достъпа до страници Disallow: /cgi-bin # същото
  • празен нов ред се третира като край на правилото за потребителски агент;
  • само една стойност е посочена в директивите "Allow", "Disallow";
  • името на файла robots.txt не позволява главни букви;
  • robots.txt по-голям от 32 KB не е разрешен, роботите няма да изтеглят такъв файл и ще считат сайта за напълно разрешен;
  • недостъпният robots.txt може да се третира като напълно разрешаващ;
  • празен robots.txt се счита за напълно разрешителен;
  • за да посочите стойностите на кирилицата на правилата, използвайте Punycod;
  • разрешени са само UTF-8 и ASCII кодировки: използването на всякакви национални азбуки и други знаци в robots.txt не е разрешено.

Специални символи:

  • #

    Началният символ на коментар, целият текст след # и преди превод на ред се счита за коментар и не се използва от роботи.

    *

    Заместваща стойност, обозначаваща префикса, суфикса или пълната стойност на директивата - всеки набор от знаци (включително празния).

  • $

    Индикация на края на реда, забрана за попълване на * до стойността, включено пример:

    Потребителски агент: * #за всички Разреши: /$ #разреши индексиране на главната страница Забрани: * #забрани индексирането на всички страници с изключение на разрешените

Списък с директиви

  1. потребителски агент

    Задължителна директива. Определя за кой робот се отнася правилото, правилото може да съдържа една или повече такива директиви. Можете да използвате знака *, за да посочите префикс, суфикс или пълно имеробот. пример:

    #сайтът е затворен за Google.News и Google.Images Потребителски агент: Googlebot-Image Потребителски агент: Googlebot-News Disallow: / #за всички роботи, чието име започва с Yandex, затворете секцията „Новини“ Потребителски агент: Yandex* Disallow: /news #open за всички останали User-agent: * Disallow:

  2. Забрани

    Директивата определя кои файлове или директории не трябва да бъдат индексирани. Стойността на директивата трябва да започва със знака / или *. По подразбиране * се добавя в края на стойността, освен ако не е забранено от символа $.

  3. позволява

    Всяко правило трябва да има поне една директива Disallow: или Allow:.

    Директивата определя кои файлове или директории трябва да бъдат индексирани. Стойността на директивата трябва да започва със знака / или *. По подразбиране * се добавя в края на стойността, освен ако не е забранено от символа $.

    Използването на директивата е уместно само във връзка с Disallow, за да позволи индексиране на някои подмножества от страници, забранени за индексиране от директивата Disallow.

  4. Чист парам

    Незадължителна директива за напречното сечение. Използвайте директивата Clean-param, ако адресите на страниците на сайта съдържат GET параметри (показани след знака ? в URL адреса), които не засягат тяхното съдържание (например UTM). С помощта на това правило всички адреси ще бъдат приведени в една форма - оригиналната, без параметри.

    Синтаксис на директивата:

    Clean-param: p0[&p1&p2&..&pn]

    p0… - имена на параметри, които не трябва да се вземат предвид
    път - префикс на пътя на страниците, за които се прилага правилото


    Пример.

    Сайтът има страници като

    www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

    При определяне на правило

    Потребителски агент: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

    роботът ще намали всички адреси на страници до един:

    www.example.com/some_dir/get_book.pl?book_id=123

  5. Карта на сайта

    Незадължителна директива, възможно е да се поставят няколко такива директиви в един файл, напречно (достатъчно е да се посочи във файла веднъж, без да се дублира за всеки агент).

    пример:

    Карта на сайта: https://example.com/sitemap.xml

  6. Закъснение при обхождане

    Директивата ви позволява да зададете на робота за търсене минималния период от време (в секунди) между края на зареждането на една страница и началото на зареждането на следващата. Поддържат се дробни стойности

    Минималната допустима стойност за роботите на Yandex е 2.0.

    Роботите на Google не спазват тази директива.

    пример:

    Потребителски агент: Yandex Закъснение при обхождане: 2.0 # задава времето за изчакване на 2 секунди Потребителски агент: * Закъснение при обхождане: 1.5 # задава времето за изчакване на 1.5 секунди

  7. Домакин

    Директивата определя главното огледало на сайта. В момента само Mail.ru се поддържа от популярни търсачки.

    пример:

    Потребителски агент: Mail.Ru Хост: www.site.ru # главно огледало от www

Примери за robots.txt за популярни CMS

ROBOTS.TXT за 1C:Bitrix

Bitrix CMS предоставя възможност за управление на съдържанието на файла robots.txt. За да направите това, в административния интерфейс трябва да отидете до инструмента „Настройки на Robots.txt“, като използвате търсенето или по пътя Маркетинг->Оптимизация за търсачки->Настройки на Robots.txt. Можете също да промените съдържанието на robots.txt чрез вградения файлов редактор на Bitrix или чрез FTP.

Примерът по-долу може да се използва като начален набор от robots.txt за сайтове на Bitrix, но не е универсален и изисква адаптация в зависимост от сайта.

Обяснения:

  1. разделянето на правила за различни агенти се дължи на факта, че Google не поддържа директивата Clean-param.
Потребителски агент: Yandex Disallow: */index.php Disallow: /bitrix/ Disallow: /*filter Disallow: /*order Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /*show_sql_stat= Disallow: /*show_include_exec_time= = Disallow: /*clear_cache= Disallow: /*clear_cache_session= Disallow: /*ADD_TO_COMPARE_LIST Disallow: /*ORDER_BY Disallow: /*?print= Disallow: /*&print= Disallow: /*print_course= Disallow: /*?action= Disallow: /*? : /*&action= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*backurl= Disallow: / *back_url= Забранява: /*BACKURL= Забранява: /*BACK_URL= Забранява: /*back_url_admin= Забранява: /*?utm_source= Забранява: /*?bxajaxid= Забранява: /*&bxajaxid= Забранява: /*?view:result= Забранява /*&view_result= Disallow: /*?PAGEN*& Disallow: /*&PAGEN Разрешаване: */?PAGEN* Разрешаване: /bitrix/components/*/ Разрешаване: /bitrix/cache/*/ Разрешаване: /bitrix/js/* / Разрешаване: /bitrix/templates/*/ Разрешаване: /bitrix/panel/ */ Разрешаване: /bitrix/components/*/*/ Разрешаване: /bitrix/cache/*/*/ Разрешаване: /bitrix/js/*/*/ Разрешаване: /bitrix/templates/*/*/ Разрешаване: /bitrix /panel/*/*/ Разрешаване: /bitrix/components/ Разрешаване: /bitrix/cache/ Разрешаване: /bitrix/js/ Разрешаване: /bitrix/templates/ Разрешаване: /bitrix/panel/ Clean-Param: PAGEN_1 / Clean- Параметр: PAGEN_2 / #ако има повече страничен компонент на сайта, тогава дублирайте правилото за всички варианти, променяйки номера Clean-Param: sort Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-Agent: * Disallow: */ index.php Disallow : /bitrix/ Disallow: /*filter Disallow: /*sort Disallow: /*забранява поръчката: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /*bitrias=in *clear_cache= Disallow : /*clear_cache_session= Disallow: /*ADD_TO_COMPARE_LIST Забранява: /*ORDER_BY Забранява: /*?print= Забранява: /*&print= Disallow: /*print_course= Disallow: /*?action= Disallow: /*&a = Забранено: / *регистриране= Забранено: /*забравена_парола= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*backurl= Disallow: /*back_url= Disallow: /*BACKURL= Disallow: /*BACK_URL= Disallow: /*back_url_admin= Disallow: /*?utm_source= Disallow: /*?bxajaxid= Disallow: /*&bxajaxid= Disallow: /*?view_result= Disallow: /*&view_result= Disallow: /*utm_ Disallow: /*openstat= Disallow: /*?PAGEN*& Disallow: /*&PAGEN Разрешаване: */?PAGEN* Разрешаване: /bitrix/components/*/ Разрешаване: /bitrix/cache/*/ Разрешаване: /bitrix/js/*/ Разрешаване: /bitrix/ шаблони/*/ Разрешаване: /bitrix/panel/*/ Разрешаване: /bitrix/components/*/*/ Разрешаване: /bitrix/cache/*/*/ Разрешаване: /bitrix/js/*/*/ Разрешаване: /bitrix /templates/*/*/ Разрешаване: /bitrix/panel/*/*/ Разрешаване: /bitrix/components/ Разрешаване: /bitrix/cache/ Разрешаване: /bitrix/js/ Разрешаване: /bitrix/templates/ Разрешаване: /bitrix /панел/ Карта на сайта: http://site.com/sitemap.xml #замени с адреса на вашата карта на сайта

ROBOTS.TXT за WordPress

Няма вграден инструмент за настройка на robots.txt в административния панел на WordPress, така че достъпът до файла е възможен само чрез FTP или след инсталиране на специален плъгин (например DL Robots.txt).

Примерът по-долу може да се използва като начален комплект robots.txt за сайтове на Wordpress, но не е универсален и трябва да бъде адаптиран в зависимост от сайта.


Обяснения:

  1. директивите Allow съдържат пътищата към файловете със стилове, скриптове, картинки: за правилното индексиране на сайта е необходимо те да са достъпни за роботи;
  2. за повечето сайтове страниците на архива на автора и маркера създават само дублирано съдържание и не създават полезно съдържание, така че в този примерте са затворени за индексиране. Ако във вашия проект такива страници са необходими, полезни и уникални, тогава трябва да премахнете директивите Disallow: /tag/ и Disallow: /author/.

Пример за правилния ROBOTS.TXT за сайт в WoRdPress:

Потребителски агент: Yandex # За Yandex Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ вграждане Disallow: /xmlrpc.php Disallow: /tag/ Disallow: /readme.html Disallow: *?replytocom Разрешаване: */uploads Разрешаване: /*/*.js Разрешаване: /*/*.css Разрешаване: /wp-* .png Разрешаване: /wp-*.jpg Разрешаване: /wp-*.jpeg Разрешаване: /wp-*.gif Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-agent: * Disallow: /cgi-bin Disallow: / ? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ вграждане Disallow: /xmlrpc.php Disallow: *?utm Disallow: *openstat= Disallow: /tag/ Disallow: /readme.html Disallow: *?replytocom Разрешаване: */uploads Разрешаване: /*/*.js Разрешаване: /* /*.css Разрешаване: /wp-*.png Разрешаване: /wp-*.jpg Разрешаване: /wp-*.jpeg Разрешаване: /wp-*.gif Карта на сайта: http://site.com/sitemap.xml # заменете с адреса на вашата карта на сайта

ROBOTS.TXT за OpenCart

Няма вграден инструмент за конфигуриране на robots.txt в „административния панел“ на OpenCart, така че файлът може да бъде достъпен само чрез FTP.

Примерът по-долу може да се използва като стартиращ robots.txt за сайтове на OpenCart, но не е универсален и трябва да бъде адаптиран в зависимост от сайта.


Обяснения:

  1. директивите Allow съдържат пътищата към файловете със стилове, скриптове, картинки: за правилното индексиране на сайта е необходимо те да са достъпни за роботи;
  2. разделянето на правила за различни агенти се дължи на факта, че Google не поддържа директивата Clean-param;
User-agent: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product *&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description*= Disallow Disallow: /*&tracking= Disallow: /*compare-products Disallow: /*търсене Disallow: /*количка Disallow: /*checkout Disallow: /*login Disallow: /*logout Disallow: /*ваучери Disallow: /*списък с желания Disallow: /*my-account Disallow: /*order-history Disallow: /*newsletter Disallow: /*return-add Disallow: /*forgot-password Disallow: /*downloads Disallow: /*връща Disallow: /*transactions Disallow: /* create-account Disallow: /*повтарящо се Disallow: /*address-book Disallow: /*reward-points Disallow: /*affiliate-forgot-password Disallow: /*create-affiliate-account Disallow: /*affiliate-login Disallow: /*affiliates Disallow: /*?filter_tag = Disallow: /*brands Disallow: /*specials Disallow: /*simpleregister Disallow: /*simplecheckout Disallow: *utm= Disallow: /*&page Disallow: /*?page*& Разрешаване: /*?page Разрешаване: /catalog/ view/javascript/ Разрешаване: /catalog/view/theme/*/ Потребителски агент: Yandex Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route= продукт/търсене Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*? filter_description= Забранено: /*&filter_description= Забранено: /*compa повторно продукти Disallow: /*търсене Disallow: /*cart Disallow: /*checkout Disallow: /*вход Disallow: /*изход Disallow: /*ваучери Disallow: /*списък с желания Disallow: /*my-account Disallow: /*поръчка -history Disallow: /*бюлетин Disallow: /*return-add Disallow: /*forgot-password Disallow: /*downloads Disallow: /*returns Disallow: /*transactions Disallow: /*create-account Disallow: /*повтарящи се Disallow: /*address-book Disallow: /*reward-points Disallow: /*affiliate-forgot-password Disallow: /*create-affiliate-account Disallow: /*affiliate-login Disallow: /*affiliates Disallow: /*?filter_tag= Disallow : /*brands Disallow: /*specials Disallow: /*simpleregister Disallow: /*simplecheckout Disallow: /*&page Disallow: /*?page*& Разрешаване: /*?page Разрешаване: /catalog/view/javascript/ Разрешаване: / catalog/view/theme/*/ Clean-Param: страница / Clean-Param: utm_source&utm_medium&utm_campaign / Sitemap: http://site.com/sitemap.xml #замени с адреса на вашата карта на сайта

ROBOTS.TXT за Joomla!

Няма вграден инструмент за настройка на robots.txt в администраторския панел на Joomla, така че файлът може да бъде достъпен само чрез FTP.

Примерът по-долу може да се използва като стартиращ robots.txt за сайтове на Joomla с активиран SEF, но не е универсален и трябва да бъде адаптиран в зависимост от сайта.


Обяснения:

  1. директивите Allow съдържат пътищата към файловете със стилове, скриптове, картинки: за правилното индексиране на сайта е необходимо те да са достъпни за роботи;
  2. разделянето на правила за различни агенти се дължи на факта, че Google не поддържа директивата Clean-param;
Потребителски агент: Yandex Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: /component/ Disallow: /search* Disallow: /*mailto/ Разрешаване: /*.css?*$ Разрешаване: /*.less?*$ Разрешаване: /*.js?*$ Разрешаване: /*.jpg?*$ Разрешаване: /*.png?* $ Разрешаване: /*.gif?*$ Разрешаване: /templates/*.css Разрешаване: /templates/*.less Позволяване: /templates/*.js Разрешаване: /components/*.css Разрешаване: /components/*.less Разрешаване: /media/*.js Разрешаване: /media/*.css Разрешаване: /media/*.less Разрешаване: /index.php?*view=sitemap* #open sitemap Clean-param: searchword / Clean-param: limit&limitstart / Clean-param: ключова дума / User-agent: * Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: / installat ion/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: / компонент/ Disallow: /search* Disallow: /*mailto/ Disallow: /*търсене Disallow: /*keyword Разрешаване: /*.css?*$ Разрешаване: /*.less?*$ Разрешаване: /*.js?*$ Разрешаване: /*.jpg?*$ Разрешаване: /*.png?*$ Разрешаване: /*.gif?*$ Разрешаване: /templates/*.css Разрешаване: /templates/*.less Разрешаване: /templates/*. js Разрешаване: /components/*.css Разрешаване: /components/*.less Позволяване: /media/*.js Разрешаване: /media/*.css Разрешаване: /media/*.less Разрешаване: /index.php?*view =sitemap* #open sitemap Карта на сайта: http://your_sitemap_address

Списък на основните агенти

бот Функция
Googlebot Основният робот за индексиране на Google
Новини за Googlebot Google Новини
Изображение на Googlebot Google Pictures
Видео на Googlebot видео
Mediapartners-Google
медийни партньори Google Adsense, Google Mobile Adsense
AdsBot-Google проверка на качеството на целевата страница
AdsBot-Google-Mobile-Apps Google Robot за приложения
YandexBot Основният робот за индексиране на Yandex
YandexImages Yandex.Изображения
YandexVideo Yandex.Video
YandexMedia мултимедийни данни
YandexBlogs робот за търсене в блогове
YandexAddurl робот, който осъществява достъп до страницата, когато е добавена чрез формуляра „Добавяне на URL“.
YandexFavicons робот, който индексира икони на сайтове (favicons)
YandexDirect Yandex.Direct
Yandexmetric Yandex.Metrica
YandexCatalog Yandex.Catalog
YandexNews Yandex.News
YandexImageResizer робот за мобилни услуги
bingbot основният индексиращ робот Bing
Хлюпайте основен индексиращ робот Yahoo!
Mail.Ru основен робот за индексиране Mail.Ru

ЧЗВ

Текстовият файл robots.txt е публичен, така че имайте предвид, че този файл не трябва да се използва като средство за скриване на поверителна информация.

Има ли разлики между robots.txt за Yandex и Google?

Няма фундаментални разлики в обработката на robots.txt от търсачките Yandex и Google, но все пак трябва да се подчертаят редица точки:

  • както беше споменато по-рано, правилата в robots.txt имат препоръчителен характер, който се използва активно от Google.

    В документацията на robots.txt Google заявява, че „..не е предназначен да предотвратява показването на уеб страници в резултатите от търсенето с Google. “ и „Ако файлът robots.txt пречи на Googlebot да обработи уеб страница, той все още може да бъде предоставен на Google.“ За да изключите страници от търсенето с Google, трябва да използвате мета тагове на robots.

    Yandex също изключва страници от търсенето, ръководейки се от правилата на robots.txt.

  • Yandex, за разлика от Google, поддържа директивите Clean-param и Crawl-delay.
  • Google AdsBots не спазва правилата за User-agent: *, те се нуждаят от отделни правила.
  • Много източници сочат, че файловете на скриптове и стилове (.js, .css) трябва да се отварят само за индексиране от роботи на Google. Всъщност това не е вярно и тези файлове също трябва да бъдат отворени за Yandex: на 9 ноември 2015 г. Yandex започна да използва js и css при индексиране на сайтове (официална публикация в блога).

Как да блокирам индексирането на сайт в robots.txt?

За да затворите сайт в Robots.txt, трябва да се използва едно от следните правила:

Потребителски агент: * Забраняване: / Потребителски агент: * Забраняване: *

Възможно е да затворите сайта само за една търсачка (или няколко), като оставите останалата част от възможността за индексиране. За да направите това, трябва да промените директивата User-agent в правилото: заменете * с името на агента, чийто достъп трябва да бъде отказан ().

Как да отворя сайт за индексиране в robots.txt?

В обичайния случай, за да отворите сайт за индексиране в robots.txt, не е необходимо да предприемате никакви действия, просто трябва да се уверите, че всички необходими директории са отворени в robots.txt. Например, ако вашият сайт преди това е бил скрит от индексиране, тогава следните правила трябва да бъдат премахнати от robots.txt (в зависимост от използваното):

  • забрани: /
  • Забрани: *

Моля, имайте предвид, че индексирането може да бъде деактивирано не само с помощта на файла robots.txt, но и с помощта на мета маркера robots.

Трябва също да се отбележи, че отсъствието на файл robots.txt в корена на сайта означава, че индексирането на сайта е разрешено.

Как да посочите основното огледало на сайта в robots.txt?

В момента посочването на основното огледало с помощта на robots.txt не е възможно. Преди това Yandex PS използва директивата Host, която съдържаше индикация за основното огледало, но от 20 март 2018 г. Yandex напълно се отказа от използването му. Сега посочването на основното огледало е възможно само с помощта на пренасочване от 301 страница.

Генератор на продажби

Време за четене: 18 минути

Ние ще Ви изпратим материала:

Проблеми, обсъждани в материала:

  • Каква роля играе файлът robots.txt при индексирането на сайта
  • Как да деактивирате индексирането на сайта и отделните му страници с помощта на robots.txt
  • Какви директиви robots.txt се използват за настройки за индексиране на сайтове
  • Кои са най-често допусканите грешки при създаване на файл robots.txt

Уеб ресурсът е готов за работа: пълен е с висококачествени уникални текстове, оригинални изображения, удобен е за навигация през секции, а дизайнът е приятен за окото. Остава само да представите вашето въображение на интернет потребителите. Но търсачките трябва да са първите, които ще се запознаят с портала. Процесът на запознанства се нарича индексиране и една от основните роли в него играят текстовите файлови роботи. За да може сайтът robots.txt да бъде индексиран успешно, трябва да бъдат изпълнени редица специфични изисквания.



Машината за уеб ресурси (CMS) е един от факторите, които значително влияят върху скоростта на индексиране от паяците за търсене. Защо е важно да се насочват роботите само към важни страници, които трябва да се показват в SERP?

  1. Роботът на търсачката разглежда ограничен брой файлове на конкретен ресурс и след това отива на следващия сайт. При липса на определени ограничения, паякът за търсене може да започне с индексиране на файлове на двигателя, чийто брой понякога е в хиляди - роботът просто няма да има време за основното съдържание.
  2. Или ще индексира напълно различни страници, на които планирате да продължите напред. Още по-лошо, ако търсачките видят дублирането на съдържание, което толкова мразят, когато различните връзки водят до един и същ (или почти идентичен) текст или изображение.

Следователно, да се забрани на паяците на търсачката да виждат твърде много, е необходимост. За това е предназначен robots.txt - обикновен текстов файл, чието име се изписва с малки букви, без да се използват главни букви. Създава се във всеки текстов редактор (Notepad++, SciTE, VEdit и др.) и се редактира тук. Файлът ви позволява да влияете върху индексирането на сайта от Yandex и Google.

За програмист, който все още няма достатъчно опит, е по-добре първо да се запознаете с примери за правилното попълване на файла. Трябва да изберете уеб ресурсите, които представляват интерес за него, и да въведете в адресната лента на браузъра site.ru/robots.txt(където първата част преди "/" е името на портала).

Важно е да преглеждате само сайтове, работещи на двигателя, който ви интересува, тъй като CMS папките, които са забранени за индексиране, се наричат ​​различно в различните системи за управление. Следователно двигателят се превръща в отправна точка. Ако вашият сайт се захранва от WordPress, трябва да потърсите блогове, работещи на същия двигател; за Joomla! ще има свои собствени идеални роботи и т.н. В същото време е препоръчително да се вземат файлове от портали, които привличат значителен трафик от търсенето като проби.

Какво е индексиране на сайтове с robots.txt



Индексиране на търсене- най-важният показател, от който до голяма степен зависи успехът на промоцията. Изглежда, че сайтът е създаден идеално: заявките на потребителите се вземат предвид, съдържанието е отгоре, навигацията е удобна, но сайтът не може да се сприятелява с търсачките. Причините трябва да се търсят в техническата страна, по-конкретно в инструментите, с които можете да повлияете на индексирането.

Има две от тях - Sitemap.xml и robots.txt. Важни файлове, които се допълват взаимно и в същото време решават полярни проблеми. Картата на сайта приканва търсещите паяци да „Добре дошли, моля, индексирайте всички тези раздели“, като дава на ботовете URL адреса на всяка страница, която трябва да бъде индексирана, и часа на страницата. най-новата актуализация. Файлът robots.txt, от друга страна, служи като знак за "стоп", предотвратяващ роуминг на паяци в която и да е част от сайта без разрешение.

Този файл и метатагът с подобно име robots, който позволява по-фини настройки, съдържат ясни инструкции за роботите на търсачките, посочващи забрани за индексиране на определени страници или цели секции.

Правилно зададените ограничения ще повлияят най-добре на индексирането на сайта. Въпреки че все още има любители, които вярват, че е възможно да се позволи на ботовете да изучават абсолютно всички файлове. Но в тази ситуация броят на страниците, въведени в базата данни на търсачката, не означава висококачествено индексиране. Защо, например, роботите се нуждаят от административната и техническата част на сайта или да отпечатват страници (те са удобни за потребителя, а търсачките се представят като дублирано съдържание)? Има много страници и файлове, за които ботовете прекарват време, всъщност за нищо.

Когато паяк посети вашия сайт, той незабавно търси файла robots.txt, предназначен за него. След като не намери документ или го намери в неправилна форма, ботът започва да действа независимо, индексирайки буквално всичко подред според алгоритъм, познат само на него. Не е задължително да започва с ново съдържание, за което искате първо да уведомите потребителите. В най-добрия случай индексирането просто ще се проточи, в най-лошия може също да доведе до наказания за дубликати.

Наличието на подходящ текстов файл на robots ще избегне много проблеми.



Има три начина да предотвратите индексирането на секции или страници от уеб ресурс, от точка до високо ниво:

  • Тагът noindex и атрибутът са напълно различни елементи на кода, които служат за различни цели, но са еднакво ценни SEO помощници. Въпросът за тяхната обработка от търсачките стана почти философски, но фактът остава: noindex ви позволява да скриете част от текста от роботи (не е в html стандартите, но определено работи за Yandex), а nofollow забранява следването връзката и предаването на нейната тежест (включена в стандартната класификация, валидна за всички търсачки).
  • Мета маркерът robots на конкретна страница засяга тази конкретна страница. По-долу ще разгледаме по-подробно как да посочим в него забраната за индексиране и следване на връзки, разположени в документа. Мета маркерът е напълно валиден, системите вземат предвид (или се опитват да вземат предвид) посочените данни. Освен това Google, избирайки между роботи под формата на файл в основната директория на сайта и мета тага на страницата, дава приоритет на последния.
  • robots.txt – този метод е напълно валиден, поддържа се от всички търсачки и други ботове, живеещи в мрежата. Независимо от това, неговите директиви не винаги се разглеждат като заповед, която трябва да бъде изпълнена (по-горе беше казано за неправомощия за Google). Правилата за индексиране, посочени във файла, са валидни за сайта като цяло: отделни страници, директории, секции.

Като използвате примери, помислете за забрана за индексиране на портала и неговите части.



Има много причини да спрете паяците да индексират уебсайт. Все още е в процес на разработка, преработва се или надгражда, ресурсът е експериментална платформа, не е предназначена за потребители.

Robots.txt може да затвори сайта от индексиране за всички търсачки, за отделен робот или да забрани за всички освен един.

2. Как да деактивирате индексирането на сайта robots.txt на отделни страници

Ако ресурсът е малък, тогава е малко вероятно да се наложи да скриете страници (какво има да се скрие на сайта за визитки), а големите портали, съдържащи значително количество информация за услуги, не могат без забрани. Необходимо е да се затвори от роботи:

  • административен панел;
  • указатели за услуги;
  • търсене в сайта;
  • Лична зона;
  • регистрационни формуляри;
  • формуляри за поръчки;
  • сравнение на стоки;
  • любими;
  • кошница;
  • captcha;
  • изскачащи прозорци и банери;
  • идентификатори на сесии.

Неподходящи новини и събития, събития в календара, промоции, специални оферти - това са така наречените страници за боклук, които са най-добре скрити. Също така е по-добре да затворите остарялото съдържание в информационните сайтове, за да предотвратите отрицателни оценки от търсачките. Опитайте се да поддържате актуализациите редовни - тогава няма да ви се налага да играете на криеница с търсачките.

Забрана на роботи за индексиране:



В robots.txt можете да посочите пълни или селективни забрани за индексиране на папки, файлове, скриптове, utm-тагове, което може да бъде поръчка както за отделни паяци за търсене, така и за роботи от всички системи.

Забрана за индексиране:

Метатагът robots служи като алтернатива на едноименния текстов файл. Предписани в програмен кодуеб ресурс (във файла index.html), поставен в контейнер . Необходимо е да се изясни кой не може да индексира сайта. Ако забраната е обща, роботи; ако влизането е отказано само на един робот, трябва да посочите неговото име (Google - Googlebot, "Yandex" - Yandex).

Има две опции за писане на мета таг.

Атрибутът "content" може да има следните стойности:

  • none - забрана за индексиране (включително noindex и nofollow);
  • noindex - забрана за индексиране на съдържание;
  • nofollow - забрана на индексиране на връзки;
  • follow - разрешение за индексиране на връзки;
  • index - позволява индексиране на съдържанието;
  • всички - позволяват индексиране на съдържание и връзки.

За различни случаи трябва да използвате комбинации от стойности. Например, ако деактивирате индексирането на съдържание, трябва да разрешите на ботовете да индексират връзки: content="noindex, follow".


Като затвори уебсайта от търсачките чрез мета тагове, собственикът не трябва да създава robots.txt в корена.

Трябва да се помни, че по въпроса за индексирането много зависи от „учтивостта“ на паяка. Ако той е „образован“, тогава правилата, предписани от капитана, ще бъдат от значение. Но като цяло валидността на директивите за роботите (както файла, така и мета маркера) не означава стопроцентово следване. Дори за търсачките не всяка забрана е железна и няма нужда да говорим за различни видове крадци на съдържание. Първоначално са конфигурирани да заобикалят всички забрани.

Освен това не всички обхождащи се интересуват от съдържание. За някои са важни само връзките, за други - микро-маркиране, трети проверяват огледални копия на сайтове и т.н. В същото време системните паяци изобщо не пълзят из сайта, като вируси, а отдалечено изискват необходимите страници. Следователно най-често те не създават проблеми за собствениците на ресурси. Но ако при проектирането на робота са направени грешки или възникне някаква външна нестандартна ситуация, роботът може значително да зареди индексирания портал.



Използвани команди:

1. "Потребителски агент:"

Основната насока на файла robots.txt. Използва се за спецификация. Въвежда се името на бота, за което следват допълнителни инструкции. Например:

  • Потребителски агент: Googlebot- основната директива в тази форма означава, че всички следващи команди се отнасят само до робота за индексиране на Google;
  • Потребителски агент: Yandex- предписаните разрешения и забрани са предназначени за робота Yandex.

Записване Потребителски агент: *означава препращане към всички други търсачки (специалният знак "*" означава "всякакъв текст"). Ако вземем предвид горния пример, тогава звездичката ще обозначи всички търсачки, с изключение на "Yandex". Тъй като Google напълно се отказва от личната привлекателност, като се задоволява с общото обозначение „всякакъв текст“.


Най-често срещаната команда за деактивиране на индексирането. Позовавайки се на робота в "User-agent:", програмистът посочва, че не позволява на бота да индексира част от сайта или целия сайт (в този случай е посочен пътят от корена). Паякът за търсене разбира това, като разширява командата. И ние ще го разберем.

Потребителски агент: Yandex

Ако има такъв запис в robots.txt, тогава ботът за търсене на Yandex разбира, че не може да индексира уеб ресурса като такъв: няма разяснения след забранителния знак „/“.

Потребителски агент: Yandex

Забрани: /wp-admin

В този пример има пояснения: забраната за индексиране се отнася само за системната папка wp-admin(сайтът се захранва от WordPress). Роботът Yandex вижда командата и не индексира посочената папка.

Потребителски агент: Yandex

Забрани: /wp-content/themes

Тази директива казва на робота, че може да индексира цялото съдържание " wp-съдържание", с изключение на " теми“, което роботът ще направи.

Потребителски агент: Yandex

Забрани: /index$

Появява се друг важен символ "$", който позволява гъвкавост при забраните. В този случай роботът разбира, че не е разрешено да индексира страници, чиито връзки съдържат последователността от букви " индекс". Отделен файл със същото име " index.php» Можете да индексирате и роботът ясно разбира това.

Можете да въведете забрана за индексиране на отделни страници на ресурса, връзките на които съдържат определени знаци. Например:

Потребителски агент: Yandex

Роботът Yandex чете командата по следния начин: не индексирайте всички страници с URL адреси, съдържащи "&" между други знаци.

Потребителски агент: Yandex

В този случай роботът разбира, че страниците не могат да бъдат индексирани само ако техните адреси завършват с "&".

Защо е невъзможно да се индексират системни файлове, архиви, лични данни на потребителите, смятаме, че е ясно - това не е тема за обсъждане. Няма абсолютно никаква нужда от бот за търсене да губи време да проверява данни, от които никой не се нуждае. Но по отношение на забраните за индексиране на страници много хора задават въпроси: каква е причината за целесъобразността на забранителните директиви? Опитните разработчици могат да дадат дузина различни причини за налагане на табу на индексирането, но основната ще бъде необходимостта да се отърват от дублиращи се страници в търсенето. Ако има такива, това драстично се отразява негативно на класирането, уместността и други важни аспекти. Следователно вътрешната SEO оптимизация е немислима без robots.txt, в който е доста лесно да се справите с дубликати: просто трябва правилно да използвате директивата „Disallow:“ и специалните знаци.

3. "Разреши:"



Файлът magic robots ви позволява не само да скриете ненужни неща от търсачките, но и да отворите сайта за индексиране. robots.txt, съдържащ командата " позволява:“, казва на паяците на търсачките кои елементи от уеб ресурса трябва да бъдат добавени към базата данни. На помощ идват същите разяснения като в предишната команда, само че сега разширяват обхвата от разрешения за обхождане.

Нека вземем един от примерите, дадени в предишния параграф, и да видим как се променя ситуацията:

Потребителски агент: Yandex

Разрешаване: /wp-admin

Ако "Disallow:" означаваше забрана, тогава сега съдържанието на системната папка wp-adminстава собственост на Yandex на правни основанияи може да се появи в резултатите от търсенето.

Но на практика тази команда се използва рядко. Има напълно логично обяснение за това: отсъствието на disallow, обозначено с "Disallow:", позволява на търсещите паяци да считат целия сайт като разрешен за индексиране. За това не се изисква отделна директива. Ако има забрани, съдържанието, което не попада под тях, също се индексира от роботи по подразбиране.



Още две важни команди за паяци за търсене. " домакин:„- целева директива за местна търсачка. Yandex се ръководи от него, когато определя основното огледало на уеб ресурс, чийто адрес (със или без www) ще участва в търсенето.

Помислете за примера на PR-CY.ru:

Потребителски агент: Yandex

Директивата се използва за избягване на дублиране на съдържанието на ресурса.

команда " карта на сайта:» помага на роботите да се придвижват правилно към картата на сайта - специален файл, който представлява йерархична структура от страници, тип съдържание, информация за честотата на актуализации и т.н. Файлът служи като навигатор за паяци за търсене карта на сайта.xml(на wordpress машина) sitemap.xml.gz), до който трябва да стигнат възможно най-бързо. Тогава индексирането ще ускори не само картата на сайта, но и всички други страници, които няма да се забавят да се появят в резултатите от търсенето.

Хипотетичен пример:

Команди, които са посочени в текстовия файл на robots и се приемат от Yandex:

Директива

Какво прави той

Наименува търсещия паяк, за който са написани правилата, изброени във файла.

Указва забрана за роботите да индексират сайта, неговите секции или отделни страници.

Указва пътя към картата на сайта, хоствана в уеб ресурса.

Съдържа следната информация за паяка за търсене: URL адресът на страницата включва параметри, които не могат да бъдат индексирани (като UTM тагове).

Дава разрешение за индексиране на секции и страници на уеб ресурс.

Позволява ви да отложите сканирането. Показва минималното време (в секунди) за робота между зарежданията на страницата: след като провери една, паякът изчаква определеното време, преди да поиска следващата страница от списъка.

*Задължителна директива.

Командите Disallow, Sitemap и Clean-param са най-често търсените. Нека да разгледаме пример:

  • Потребителски агент: * #посочване на роботите, за които са предназначени следните команди.
  • Disallow: /bin/ # Предотвратяване на индексаторите да обхождат връзки от пазарската количка.
  • Disallow: /search/ # забранява индексирането на страниците за търсене в сайта.
  • Disallow: /admin/ # забранява търсенето в администраторския панел.
  • Sitemap: http://example.com/sitemap # указва пътя към картата на сайта за робота.
  • Clean-param: ref /some_dir/get_book.pl

Припомнете си, че горните интерпретации на директивите са подходящи за Yandex - паяците на други търсачки могат да четат командите по различен начин.



Теоретичната база е създадена - време е да се създаде идеален (добре, или много близък до него) текстов файл роботи. Ако сайтът работи на двигател (Joomla!, WordPress и др.), той е снабден с маса обекти, без които нормалната работа е невъзможна. Но в такива файлове няма информационен компонент. В повечето CMS съхранението на съдържанието е базата данни, но роботите не могат да стигнат до нея. И те продължават да търсят съдържание във файловете на двигателя. Съответно времето, отделено за индексиране, се губи.

Много важно Стремете се към уникално съдържаниевашия уеб ресурс , внимателно следене на появата на дубликати. Дори частичното повторение на информационното съдържание на сайта не оказва най-добрия ефект върху оценката му от търсачките. Ако едно и също съдържание може да бъде намерено на различни URL адреси, това също се счита за дублирано.

Двете основни търсачки, Yandex и Google, неизбежно ще разкрият дублиране по време на обхождане и изкуствено ще намалят позицията на уеб ресурса в резултатите от търсенето.

Не забравяйте страхотен инструмент, който да ви помогне да се справите с дублирането - каноничен мета маркер. Като напише различен URL в него, уеб администраторът по този начин посочва на търсещия паяк предпочитаната страница за индексиране, която ще бъде каноничната.

Например, страница с пагинация https://ktonanovenkogo.ru/page/2 съдържа Canonical мета таг, сочещ към https://ktonanovenkogo.ru , което елиминира проблемите с дублиращи се заглавки.

И така, събираме всички получени теоретични знания и пристъпваме към тяхното практическо прилагане в robots.txt за вашия уеб ресурс, чиято специфика трябва да се вземе предвид. Какво е необходимо за този важен файл:

  • текстов редактор (Notepad или друг) за писане и редактиране на роботи;
  • тестер, който ще ви помогне да откриете грешки в създадения документ и да проверите правилността на забраните за индексиране (например Yandex.Webmaster);
  • FTP клиент, който опростява качването на готов и проверен файл в корена на уеб ресурс (ако сайтът работи на WordPress, тогава robots най-често се съхранява в системната папка Public_html).

Първото нещо, което прави роботът за търсене, е да поиска файл, създаден специално за него и разположен на URL адреса "/robots.txt".

Уеб ресурсът може да съдържа един файл "/robots.txt". Няма нужда да го поставяте в персонализирани поддиректории, където паяците така или иначе няма да търсят документа. Ако искате да създадете роботи в поддиректории, трябва да запомните, че все още трябва да ги съберете в един файл в главната папка. По-подходящо е използването на мета тага „Robots“.

URL адресите са чувствителни към главни букви – не забравяйте, че „/robots.txt“ не е с главни букви.

Сега трябва да бъдете търпеливи и да изчакате търсещите паяци, които първо ще проучат правилно създадения ви, правилен robots.txt и ще започнат да обхождат вашия уеб портал.

Правилна настройка на robots.txt за индексиране на сайтове на различни двигатели

Ако имате търговски ресурс, тогава създаването на файла robots трябва да бъде поверено на опитен SEO специалист. Това е особено важно, ако проектът е сложен. За тези, които не са готови да приемат казаното за аксиома, нека обясним: този важен текстов файл има сериозно влияние върху индексирането на ресурса от търсачките, скоростта на обработка на сайта от ботове зависи от неговата коректност , а съдържанието на роботите има своите специфики. Разработчикът трябва да вземе предвид типа на сайта (блог, онлайн магазин и т.н.), двигателя, структурните характеристики и други важни аспекти, които начинаещият майстор може да не е в състояние да направи.

В същото време трябва да вземете най-важните решения: какво да затворите от обхождане, какво да оставите видимо за обхождащите, така че страниците да се показват в търсенето. За един неопитен SEO ще бъде много трудно да се справи с такъв обем работа.


Потребителски агент:* # Общи правилаза роботи, с изключение на "Yandex" и Google,

Disallow: /cgi-bin # хостинг папка
забрани: /? # всички параметри на заявката в main
Забрани: /wp- # всички WP файлове: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/ # ако има поддиректория /wp/, където е инсталирана CMS (ако не, # правилото може да бъде премахнато)
Забрани: *?s= # търсене
Забрани: *&s= # търсене
Забрани: /търсене/ # търсене
Disallow: /автор/ # архивист
Забрани: /потребители/ # архиватори
Disallow: */trackback # обратни връзки, известия в коментари за отворена # връзка към статия
Disallow: */feed # всички емисии
Забранено: */rss # rssfeed
Disallow: */embed # всички вградени
Disallow: */wlwmanifest.xml # xml файл с манифест на Windows Live Writer (може да бъде премахнат, ако не се използва)
Disallow: /xmlrpc.php # WordPress API файл
Disallow: *utm*= # връзки с utm тагове
Disallow: *openstat= # маркирани връзкиsopenstat
Разрешаване: */качва # отворена папка с файлове за качване
Карта на сайта: http://site.ru/sitemap.xml # адрес на карта на сайта

Потребителски агент: GoogleBot& # правила за Google

Забрани: /cgi-bin

Забрани: /wp-
Забрани: /wp/
Забрани: *?s=
Забрани: *&s=
Забрани: /търсене/
Забрани: /автор/
Забрани: /потребители/
Забранено: */trackback
Забрани: */feed
Забранете: */rss
Забрани: */embed
Забраняване: */wlwmanifest.xml
Забранете: /xmlrpc.php
Забрани: *utm*=
Забрани: *openstat=
Разрешаване: */uploadsAllow: /*/*.js # отваряне на js скриптове в /wp- (/*/ - за приоритет)
Разрешаване: /*/*.css # отваряне на css файлове в /wp- (/*/ - за приоритет)
Разрешаване: /wp-*.png # изображения в плъгини, папка в кеша и т.н.
Разрешаване: /wp-*.jpg # изображения в плъгини, папка в кеша и т.н.
Разрешаване: /wp-*.jpeg # снимки в плъгини, папка в кеша и т.н.
Разрешаване: /wp-*.gif # снимки в плъгини, папка в кеша и т.н.
Разрешаване: /wp-admin/admin-ajax.php # използвано от плъгините, за да не блокира JS и CSS

Потребителски агент: Yandex # правила за Yandex

Забрани: /cgi-bin

Забрани: /wp-
Забрани: /wp/
Забрани: *?s=
Забрани: *&s=
Забрани: /търсене/
Забрани: /автор/
Забрани: /потребители/
Забранено: */trackback
Забрани: */feed
Забранете: */rss
Забрани: */embed
Забраняване: */wlwmanifest.xml
Забранете: /xmlrpc.php
Разрешаване: */качвания
Разрешаване: /*/*.js
Разрешаване: /*/*.css
Разрешете: /wp-*.png
Позволете: /wp-*.jpg
Позволете: /wp-*.jpeg
Позволете: /wp-*.gif
Разрешете: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Yandex препоръчва да не се затваря # от индексирането, а да се изтрият параметрите на маркера, # Google не поддържа такива правила
Clean-Param: openstat # подобен



Потребителски агент: *
Забрани: /администратор/
Забрани: /кеш/
Забрани: /включва/
Забрани: /инсталиране/
Disallow: /език/
Забрани: /библиотеки/
Забрани: /медия/
Забрани: /модули/
Забрани: /plugins/
Забрани: /шаблони/
Забрани: /tmp/
Забрани: /xmlrpc/
Sitemap: http://път на вашата XML карта на сайта



Потребителски агент: *
Забрани: /*index.php$
Забрани: /bitrix/
Забрани: /auth/
Disallow: /лично/
Забрани: /качване/
Забрани: /търсене/
Забрани: /*/търсене/
Забрани: /*/slide_show/
Забрани: /*/галерия/*поръчка=*
Забрани: /*?print=
Забрани: /*&print=
Забрани: /*регистрация=
Disallow: /*forgot_password=
Забраняване: /*change_password=
Забрани: /*вход=
Забрани: /*изход=
Забраняване: /*auth=
Забрани: /*?action=
Забраняване: /*action=ADD_TO_COMPARE_LIST
Забраняване: /*action=DELETE_FROM_COMPARE_LIST
Забрани: /*action=ADD2BASKET
Забрани: /*действие=КУПЕНЕ
Забраняване: /*bitrix_*=
Забрани: /*backurl=*
Забрани: /*BACKURL=*
Забрани: /*back_url=*
Забрани: /*BACK_URL=*
Забрани: /*back_url_admin=*
Disallow: /*print_course=Y
Забраняване: /*COURSE_ID=
Забрани: /*?COURSE_ID=
Забрани: /*?PAGEN
Забраняване: /*PAGEN_1=
Забраняване: /*PAGEN_2=
Забраняване: /*PAGEN_3=
Забраняване: /*PAGEN_4=
Забраняване: /*PAGEN_5=
Забраняване: /*PAGEN_6=
Забраняване: /*PAGEN_7=


Забрани: /*PAGE_NAME=търсене
Забрани: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Забрани: /*SHOWALL
Забрани: /*show_all=
Sitemap: http://път на вашата XML карта на сайта



Потребителски агент: *
Забрани: /assets/cache/
Забрани: /assets/docs/
Забрани: /активи/експорт/
Забрани: /assets/import/
Забрани: /активи/модули/
Забрани: /assets/plugins/
Забрани: /assets/snippets/
Забрани: /инсталиране/
Забрани: /мениджър/
Карта на сайта: http://site.ru/sitemap.xml

5. Robots.txt, пример за Drupal

Потребителски агент: *
Забрани: /база данни/
Забрани: /включва/
Забрани: /разни/
Забрани: /модули/
Забрани: /сайтове/
Забрани: /теми/
Забрани: /скриптове/
Забрани: /актуализации/
Забрани: /профили/
Забрани: /профил
Забрани: /профил/*
Забранете: /xmlrpc.php
Забрани: /cron.php
Забранете: /update.php
Забрани: /install.php
Забрани: /index.php
Забрани: /admin/
Забрани: /коментар/отговор/
Забрани: /контакт/
Забрани: /изход/
Забрани: /търсене/
Забрани: /потребител/регистрация/
Забрани: /потребител/парола/
Забрани: *регистрация*
Забрани: *вход*
Disallow: /top-rated-
Забрани: /съобщения/
Забрани: /book/export/
Забрани: /user2userpoints/
Забрани: /myuserpoints/
Disallow: /tagadelic/
Забрани: /препоръка/
Забрани: /агрегатор/
Забрани: /files/pin/
Забрани: /вашите гласове
Забрани: /коментари/скоро
Забрани: /*/редактиране/
Забрани: /*/изтриване/
Забрани: /*/export/html/
Disallow: /таксономия/термин/*/0$
Забрани: /*/редактиране$
Забрани: /*/outline$
Забрани: /*/revisions$
Забраняване: /*/contact$
Забрани: /*downloadpipe
Забрани: /node$
Disallow: /node/*/track$

Забраняване: /*?page=0
Забрани: /*раздел
Disallow: /* поръчка
Disallow: /*?sort*
Забрани: /*&сортиране*
Забраняване: /*votesupdown
Забрани: /*календар
Забрани: /*index.php
Разрешаване: /*?page=

Sitemap: http://път към вашата XML карта на сайта

ВНИМАНИЕ!Системите за управление на съдържанието на сайта се актуализират постоянно, така че файлът robots също може да се промени: допълнителни страници или групи файлове могат да бъдат затворени или, обратно, отворени за индексиране. Зависи от целите на уеб ресурса и текущите промени в двигателя.

7 често срещани грешки при индексиране на сайт с помощта на robots.txt



Грешки, направени по време на създаване на файл, причиняват неправилно функциониране на robots.txt или дори до невъзможност файлът да работи.

Какви грешки са възможни:

  • Логично (маркирани правила се сблъскват). Можете да идентифицирате този тип грешка по време на тестване в Yandex.Webmaster и GoogleRobotsTestingTool.
  • Синтактичен (директивите са написани с грешки).

По-чести от другите са:

  • записът не е чувствителен към малки и големи букви;
  • използват се главни букви;
  • всички правила са изброени на един ред;
  • правилата не са разделени с празен ред;
  • посочване на обхода в директивата;
  • всеки файл от папката, който трябва да бъде затворен, е посочен отделно;
  • липсва задължителната директива Disallow.

Обмислете често срещаните грешки, техните последствия и най-важното, мерките за предотвратяването им във вашия уеб ресурс.

  1. Местоположение на файла. URL адресът на файла трябва да бъде в следната форма: http://site.ru/robots.txt (вместо site.ru е посочен адресът на вашия сайт). Файлът robots.txt се базира изключително в основната папка на ресурса - в противен случай търсещите паяци няма да го видят. Без да бъдат забранени, те ще обхождат целия сайт и дори онези файлове и папки, които бихте искали да скриете от резултатите от търсенето.
  2. Различаващ главни от малки букви.Без главни букви. http://site.ru/Robots.txt е грешен. В този случай роботът на търсачката ще получи 404 (страница за грешка) или 301 (пренасочване) като отговор на сървъра. Обхождането ще се извършва без да се вземат предвид указанията, посочени в роботите. Ако всичко е направено правилно, отговорът на сървъра е код 200, в който собственикът на ресурса ще може да контролира робота за търсене. Единствената правилна опция е "robots.txt".
  3. Отваряне в страница на браузъра.Паяците за търсене ще могат да четат и използват правилно директивите на файла robots.txt само ако се отвори в страница на браузъра. Важно е да обърнете голямо внимание на сървърната страна на двигателя. Понякога файл от този тип се предлага за изтегляне. След това трябва да настроите дисплея - в противен случай роботите ще обхождат сайта, както пожелаят.
  4. Грешки за забрана и разрешение.„Disallow“ – директива за забрана на сканирането на сайта или неговите секции. Например, трябва да попречите на роботите да индексират страници с резултати от търсенето в сайта. В този случай файлът robots.txt трябва да съдържа реда: „Disallow: /search/“. Роботът разбира, че всички страници, където се извършва „търсене“, са забранени за обхождане. С пълна забрана за индексиране се пише Disallow: /. Но разрешаващата директива "Allow" не е необходима в този случай. Въпреки че не е необичайно командата да бъде написана така: „Разреши:“, като се приеме, че роботът ще възприеме това като разрешение да индексира „нищо“. Можете да разрешите целият сайт да бъде индексиран чрез директивата "Разреши: /". Няма нужда да бъркате командите. Това води до грешки при обхождане от паяци, които в крайна сметка добавят страници, които абсолютно не са тези, които трябва да бъдат популяризирани.
  5. съвпадение на директивата. Disallow: и Allow: за същата страница се намират в роботи, което кара роботите да дават приоритет на директивата за разрешаване. Например, първоначално дялът беше отворен за пълзене от паяци. Тогава по някаква причина беше решено да се скрие от индекса. Естествено, към файла robots.txt се добавя забрана, но уеб администраторът забравя да премахне разрешението. За търсачките забраната не е толкова важна: те предпочитат да индексират страницата, заобикаляйки команди, които се изключват взаимно.
  6. Директива за хост:.Разпознава се само от паяците на Yandex и се използва за определяне на основното огледало. Полезна команда, но, уви, изглежда е грешна или неизвестна за всички други търсачки. Когато го включвате във вашите роботи, оптимално е да посочите като User-agent: всеки и робота Yandex, за който можете лично да регистрирате командата Host:

    Потребителски агент: Yandex
    Домакин: site.ru

    Директивата, предписана за всички роботи, ще бъде възприета от тях като погрешна.

  7. Директива за Sitemap:.С помощта на карта на сайта ботовете откриват кои страници са в даден уеб ресурс. Много често срещана грешка е, че разработчиците не обръщат внимание на местоположението на файла sitemap.xml, въпреки че той определя списъка с URL адреси, включени в картата. Поставяйки файла извън главната папка, самите разработчици излагат сайта на риск: роботите неправилно определят броя на страниците, в резултат на което важни части от уеб ресурса не са включени в резултатите от търсенето.

Например, като поставите файл Sitemap в директория на URL http://primer.ru/catalog/sitemap.xml , можете да включите всякакви URL адреси, започващи с http://primer.ru/catalog/ ... И URL адреси като, да речем, http://primer.ru/images/ ... не трябва да бъдат включени в списъка.

Обобщавайте. Ако собственикът на сайта иска да повлияе върху процеса на индексиране на уеб ресурс от ботове за търсене, файлът robots.txt е от особено значение. Необходимо е внимателно да проверите създадения документ за логически и синтактични грешки, така че в крайна сметка директивите да работят за цялостния успех на вашия сайт, осигурявайки качествено и бързо индексиране.

Как да избегнете грешки, като създадете правилната структура на robots.txt за индексиране на сайта



Структурата на robots.txt е ясна и проста, напълно възможно е да напишете файла сами. Просто трябва внимателно да следите синтаксиса, който е изключително важен за роботите. Ботовете за търсене следват директивите на документа доброволно, но търсачките интерпретират синтаксиса по различен начин.

Списък със следните задължителни правила ще помогне за премахване на най-често срещаните грешки при създаване на robots.txt. За да напишете правилния документ, трябва да запомните, че:

  • всяка директива започва от нов ред;
  • в един ред - не повече от една команда;
  • интервал не може да бъде поставен в началото на ред;
  • командният параметър трябва да е на един ред;
  • не е необходимо параметрите на директивата да бъдат цитирани;
  • командните параметри не изискват точка и запетая в края;
  • директивата в robots.txt е посочена във формат: [име_на_команда]:[незадължително пространство][стойност][незадължително пространство];
  • след знака за лири # са разрешени коментари в robots.txt;
  • празен низ може да се интерпретира като край на командата User-agent;
  • забраняващата директива с празна стойност - "Disallow:" е подобна на директивата "Allow: /", която позволява сканиране на целия сайт;
  • Директивите "Allow", "Disallow" могат да съдържат не повече от един параметър. Всеки нов параметър се записва на нов ред;
  • само малки букви се използват в името на файла robots.txt. Robots.txt или ROBOTS.TXT - грешно изписване;
  • Стандартът robots.txt не регулира чувствителността на малки и малки букви, но файловете и папките често са чувствителни по този въпрос. Следователно, въпреки че е приемливо да се използват главни букви в имената на команди и параметри, това се счита за лоша форма. По-добре е да не се увличате с главния регистър;
  • когато параметърът на командата е папка, се изисква наклонена черта "/" преди името, например: Disallow: /category;
  • ако файлът robots.txt тежи повече от 32 KB, ботовете за търсене го възприемат като еквивалентен на "Disallow:" и считат, че напълно позволява индексиране;
  • недостъпността на robots.txt (по различни причини) може да се възприеме от роботите като липса на забрани за обхождане;
  • празният robots.txt се счита за позволяващ индексиране на сайта като цяло;
  • ако множество команди "User-agent" са изброени без празен ред между тях, търсещите паяци могат да третират първата директива като единствената, игнорирайки всички следващи директиви "User-agent";
  • robots.txt не позволява използването на символи от национални азбуки.

Горните правила не са подходящи за всички търсачки, тъй като те интерпретират синтаксиса robots.txt по различен начин. Например, "Yandex" избира записи по присъствието в реда "User-agent", така че няма значение за него наличието на празен ред между различни директиви "User-agent".

По принцип роботите трябва да съдържат само това, което наистина е необходимо за правилното индексиране. Няма нужда да се опитвате да прегърнете необятността и да вместите максималните данни в документа. Най-добрият robots.txt е смислен файл, броят на редовете няма значение.

Роботите за текстови документи трябва да бъдат проверени за правилна структура и правилен синтаксис, което ще помогне на услугите, представени в мрежата. За да направите това, трябва да качите robots.txt в главната папка на вашия сайт, в противен случай услугата може да съобщи, че не е успяла да зареди необходимия документ. Преди robots.txt се препоръчва да проверите за наличност на адреса на файла (your_site.ru/robots.txt).

Най-големите търсачки Yandex и Google предлагат своите услуги за анализ на уебсайтове на уеб администратори. Един от аспектите на аналитичната работа е проверката на роботи:

В интернет има много онлайн валидатори robots.txt, можете да изберете всеки, който харесвате.

Масив ( => 24 [~ID] => 24 => 10.10.2019 18:52:28 [~TIMESTAMP_X] => 10.10.2019 18:52:28 => 1 [~MODIFIED_BY] => 1 => 10.10. 2019 18:51:03 [~DATE_CREATE] => 10/10/2019 18:51:03 => 1 [~CREATED_BY] => 1 => 6 [~IBLOCK_ID] => 6 => [~IBLOCK_SECTION_ID] => => Y [~ACTIVE] => Y => Y [~GLOBAL_ACTIVE] => Y => 500 [~SORT] => 500 => Статии от Павел Бобилев [~NAME] => Статии от Павел Бобилев => 11744 [ ~ИЗОБРАЖЕНИЕ] = > 11744 => 13 [~ЛЯВ_МАРГИН] => 13 => 14 [~ДЕСЕН_МАРГИН] => 14 => 1 [~DEPTH_LEVEL] => 1 => Павел Бобилев [~ОПИСАНИЕ] => Павел Бобилев => текст [~DESCRIPTION_TYPE ] => текст => Статии от Павел Бобилев Павел Бобилев [~SEARCHABLE_CONTENT] => Статии от Павел Бобилев Павел Бобилев => stati-pavla-bobyleva [~CODE] => stati-pavla-bobyleva => [~ XML_ID] => => [~TMP_ID] => => [~DETAIL_PICTURE] => => [~SOCNET_GROUP_ID] => => /blog/index.php?ID=6 [~LIST_PAGE_URL] => /blog/index .php?ID=6 => /blog/list.php?SECTION_ID=24 [~SECTION_PAGE_URL] => /b log/list.php?SECTION_ID=24 => блог [~IBLOCK_TYPE_ID] => блог => блог [~IBLOCK_CODE] => блог => [~IBLOCK_EXTERNAL_ID] => => [~EXTERNAL_ID] =>)