Robotai txt neleidžia indeksuoti puslapių. Kaip išjungti būtinų puslapių indeksavimą

Robots.txt failas– tekstinis failas .txt formatu, ribojantis paieškos robotų prieigą prie turinio http serveryje. Kaip apibrėžimas, Robots.txt- tai roboto išimties standartas, kurį W3C priėmė 1994 m. sausio 30 d. ir kurį savanoriškai naudoja dauguma paieškos sistemų. Failą robots.txt sudaro instrukcijų, skirtų tikrintuvams, rinkinys, siekiant užkirsti kelią tam tikrų failų, puslapių ar katalogų indeksavimui svetainėje. Apsvarstykite robots.txt aprašą tuo atveju, kai svetainė neriboja robotų prieigos prie svetainės.

Paprastas robots.txt pavyzdys:

Vartotojo agentas: * Leisti: /

Čia robotai visiškai leidžia indeksuoti visą svetainę.

Failas robots.txt turi būti įkeltas į jūsų svetainės šakninį katalogą kad jį būtų galima rasti adresu:

Jūsų_svetainė.ru/robots.txt

Norint įdėti robots.txt failą į svetainės šaknį, paprastai reikia FTP prieigos. Tačiau kai kurios valdymo sistemos (TVS) leidžia kurti robots.txt tiesiai iš svetainės valdymo skydelio arba naudojant integruotą FTP tvarkyklę.

Jei failas yra, naršyklėje matysite robots.txt turinį.

Kam skirtas robots.txt?

Svetainės Roots.txt yra svarbus aspektas. Kodėl reikalingas robots.txt? Pavyzdžiui, in SEO robots.txt reikalingas norint iš indeksavimo pašalinti puslapius, kuriuose nėra naudingo turinio ir daug daugiau. Kaip, kas, kodėl ir kodėl jis neįtraukiamas, jau buvo aprašyta straipsnyje apie tai, mes čia nesigilinsime. Ar man reikia robots.txt failo? visos svetainės? Taip ir ne. Jei robots.txt naudojimas reiškia puslapių pašalinimą iš paieškos, tada mažose svetainėse, kurių struktūra yra paprasta ir statiški puslapiai, tokie išskyrimai gali būti nereikalingi. Tačiau net ir nedidelėje svetainėje kai kurie robots.txt direktyvas, pvz., prieglobos arba svetainės schemos direktyvą, bet daugiau apie tai toliau.

Kaip sukurti robots.txt

Kadangi robots.txt yra tekstinis failas, ir į sukurti robots.txt failą, galite naudoti, pavyzdžiui, bet kurį teksto rengyklę Užrašų knygelė. Kai tik atidarėte naują tekstinį dokumentą, jau pradėjote kurti robots.txt, belieka tik sukurti jo turinį, atsižvelgiant į jūsų poreikius, ir išsaugoti kaip tekstinis failas, vadinamas robotais txt formatu. Tai paprasta, o robots.txt failo kūrimas neturėtų sukelti problemų net pradedantiesiems. Žemiau parodysiu, kaip parašyti robots.txt ir ką rašyti robotuose.

Sukurkite robots.txt internete

Variantas tinginiams kurkite robotus internete ir atsisiųskite robots.txt failą jau paruoštas. Robotų txt kūrimas internete siūlo daugybę paslaugų, pasirinkimas yra jūsų. Svarbiausia yra aiškiai suprasti, kas bus draudžiama, o kas leidžiama, kitaip robots.txt failo sukūrimas internete gali virsti tragedija kurias tada gali būti sunku ištaisyti. Ypač jei į paiešką patenka kažkas, kas turėjo būti uždaryta. Būkite atsargūs – patikrinkite savo robotų failą prieš įkeldami jį į svetainę. Dar tinkintas robots.txt failas tiksliau atspindi apribojimų struktūrą nei tas, kuris buvo automatiškai sugeneruotas ir atsisiųstas iš kitos svetainės. Skaitykite toliau, kad sužinotumėte, į ką atkreipti ypatingą dėmesį redaguojant robots.txt.

Redaguoti robots.txt

Sukūrę robots.txt failą internete arba ranka, galite redaguoti robots.txt. Jo turinį galite keisti kaip norite, svarbiausia laikytis tam tikrų robots.txt taisyklių ir sintaksės. Dirbant svetainėje, robotų failas gali keistis, o jei redaguosite robots.txt, nepamirškite įkelti atnaujintos, naujausios failo versijos su visais svetainės pakeitimais. Tada apsvarstykite failo nustatymo taisykles, kad sužinotumėte kaip pakeisti failą robots.txt ir „neskaldykite medienos“.

Tinkamas robots.txt nustatymas

Tinkamas robots.txt nustatymas leidžia negauti privačios informacijos pagrindinių paieškos sistemų paieškos rezultatuose. Tačiau nepamirškite to robots.txt komandos yra ne kas kita, kaip veiksmų vadovas, o ne gynyba. Patikimi paieškos sistemų robotai, tokie kaip „Yandex“ ar „Google“, vykdo robots.txt instrukcijas, tačiau kiti robotai gali lengvai jų nepaisyti. Tinkamas robots.txt supratimas ir naudojimas yra raktas į rezultatus.

Suprasti kaip padaryti teisingą robotų txt, pirmiausia turite suprasti bendrąsias robots.txt failo taisykles, sintaksę ir direktyvas.

Teisingas robots.txt prasideda naudotojo priemonės direktyva, kuris nurodo, kuriam robotui yra skirtos konkrečios direktyvos.

Naudotojo priemonės pavyzdžiai faile robots.txt:

# Nurodo nurodymus visiems robotams vienu metu User-agent: * # Nurodo direktyvas visiems Yandex robotams User-agent: Yandex # Nurodo nurodymus tik pagrindiniam Yandex robotui User-agent: YandexBot # Nurodo direktyvas visiems Google robotams User-agent: Googlebot

Atkreipkite dėmesį, kad toks nustatydami failą robots.txt liepia robotui naudoti tik direktyvas, kurios atitinka vartotojo agentą su jo pavadinimu.

Robots.txt pavyzdys su keliais naudotojo priemonės įrašais:

# Naudos visi „Yandex“ robotai User-agent: Yandex Disallow: /*utm_ # Naudos visi „Google“ robotai User-agent: Googlebot Disallow: /*utm_ # Naudos visi robotai, išskyrus „Yandex“ robotus ir „Google“ naudotoją- agentas: * Leisti: / *utm_

Vartotojo agento direktyva sukuria tik nurodymą konkrečiam robotui, o iškart po User-agent direktyvos turi būti komanda ar komandos su tiesiogine pasirinkto roboto būsenos nuoroda. Aukščiau pateiktame pavyzdyje naudojama išjungimo direktyva „Disallow“, kurios reikšmė yra „/*utm_“. Taigi mes viską uždarome. Tinkamas robots.txt nustatymas apsaugo nuo tuščių eilučių pertraukų tarp direktyvų „User-agent“, „Disallow“ ir direktyvų po „Disallow“ dabartinėje „User-agent“.

Neteisingo eilutės tiekimo robots.txt pavyzdys:

Tinkamo robots.txt eilutės tiekimo pavyzdys:

Vartotojo priemonė: Yandex Neleisti: /*utm_ Leisti: /*id= Vartotojo priemonė: * Neleisti: /*utm_ Leisti: /*id=

Kaip matote iš pavyzdžio, robots.txt pateiktos instrukcijos pateikiamos blokais, kurių kiekviename yra instrukcijos, skirtos konkrečiam robotui arba visiems robotams „*“.

Be to, svarbu laikytis teisinga tvarka ir komandų rūšiavimas faile robots.txt, kai bendrinami nurodymai, pvz., „Neleisti“ ir „Leisti“. „Allow“ direktyva yra leistinoji direktyva ir yra priešinga robots.txt komandai „Disallow“, kuri yra neleisti direktyva.

Robots.txt direktyvų bendrinimo pavyzdys:

Vartotojo agentas: * Leisti: /blog/page Disallow: /blog

Šis pavyzdys neleidžia visiems robotams indeksuoti visų puslapių, prasidedančių raide „/blog“, tačiau leidžia indeksuoti puslapius, prasidedančius raide „/blog/page“.

Ankstesnis tinkamo rūšiavimo robots.txt pavyzdys:

Vartotojo agentas: * Neleisti: /blog Leisti: /blog/puslapis

Pirmiausia išjungiame visą skyrių, tada leidžiame kai kurias jo dalis.

Kitas teisingas robots.txt pavyzdys su bendromis direktyvomis:

Vartotojo agentas: * Leisti: / Neleisti: /blog Leisti: /blog/puslapis

Atkreipkite dėmesį į teisingą direktyvų seką šiame robots.txt faile.

„Allow“ ir „Disallow“ direktyvos taip pat gali būti nurodytos be parametrų, tokiu atveju reikšmė bus interpretuojama atvirkščiai kaip parametras „/“.

„Disallow/Allow“ direktyvos be parametrų pavyzdys:

Vartotojo agentas: * Disallow: # atitinka Allow: / Disallow: /blog Leisti: /blog/puslapis

Kaip sukurti tinkamą robots.txt o kaip naudoti direktyvų aiškinimą – jūs pasirenkate. Abu variantai bus teisingi. Svarbiausia nesusipainioti.

Norint teisingai sukompiliuoti robots.txt, direktyvų parametruose reikia tiksliai nurodyti prioritetus ir ką bus draudžiama atsisiųsti robotams. Toliau išsamiau apžvelgsime direktyvų „Disallow“ ir „Allow“ naudojimą, bet dabar pažvelkime į robots.txt sintaksę. Žinodami robots.txt sintaksę priartėsite prie jos sukurkite tobulą robotų txt savo rankomis.

Robots.txt sintaksė

Paieškos sistemų robotai savanoriškai vykdo robots.txt komandas- standartas dėl išimčių robotams, bet ne visiems paieškos sistemos taip pat apdorokite robots.txt sintaksę. Failas robots.txt turi griežtai apibrėžtą sintaksę, bet tuo pačiu metu Rašyti robotai txt nėra sunku, nes jo struktūra yra labai paprasta ir lengvai suprantama.

Čia pateikiamas konkretus paprastų taisyklių sąrašas, kurių laikydamiesi atsisakysite dažnos robots.txt klaidos:

  1. Kiekviena direktyva prasideda nauja eilute;
  2. Vienoje eilutėje neįtraukite daugiau nei vienos direktyvos;
  3. Nedėkite tarpo eilutės pradžioje;
  4. Direktyvos parametras turi būti vienoje eilutėje;
  5. Nereikia pateikti direktyvų parametrų kabutėse;
  6. Direktyvos parametrai nereikalauja uždarymo kabliataškių;
  7. Komanda robots.txt yra nurodyta formatu - [direktyva_pavadinimas]:[pasirinktinai tarpas][reikšmė][neprivalomas tarpas];
  8. Komentarai leidžiami robots.txt po svaro ženklo #;
  9. Tuščia nauja eilutė gali būti interpretuojama kaip vartotojo agento direktyvos pabaiga;
  10. Direktyva „Disallow:“ (su tuščia reikšme) yra lygiavertė „Allow: /“ – leisti viską;
  11. „Allow“, „Disallow“ direktyvose nurodomas ne daugiau kaip vienas parametras;
  12. Failo robots.txt pavadinimas neleidžia naudoti didžiųjų raidžių, klaidinga failo pavadinimo rašyba yra Robots.txt arba ROBOTS.TXT;
  13. Direktyvų ir parametrų pavadinimų rašymas didžiosiomis raidėmis laikomas blogu manieru, o jei pagal standartą robots.txt didžiosios ir mažosios raidės neskiriamos, failų ir katalogų pavadinimuose dažnai skiriamos didžiosios ir mažosios raidės;
  14. Jei direktyvos parametras yra katalogas, tada prieš katalogo pavadinimą visada rašomas pasvirasis brūkšnys „/“, pavyzdžiui: Disallow: /category
  15. Per didelis robots.txt failas (daugiau nei 32 KB) laikomas visiškai leistinu, atitinkančiu "Disallow:";
  16. Robots.txt, kuris dėl kokių nors priežasčių nepasiekiamas, gali būti traktuojamas kaip visiškai leistinas;
  17. Jei robots.txt yra tuščias, jis bus traktuojamas kaip visiškai leistinas;
  18. Išvardijant kelias „User-agent“ direktyvas be tuščios naujos eilutės, gali būti nepaisoma visų paskesnių „User-agent“ direktyvų, išskyrus pirmąją;
  19. Jokių nacionalinių abėcėlių simbolių naudoti robots.txt neleidžiama.

Kadangi skirtingos paieškos sistemos gali skirtingai interpretuoti robots.txt sintaksę, kai kuriuos punktus galima praleisti. Pavyzdžiui, jei nurodysite kelias „User-agent“ direktyvas be tuščios eilutės pertraukos, „Yandex“ teisingai priims visas „User-agent“ direktyvas, nes „Yandex“ pažymi įrašus pagal buvimą eilutėje „User-agent“. .

Robotai turėtų griežtai nurodyti tik tai, ko reikia, ir nieko daugiau. negalvok kaip parašyti viską robotai (txt). kas įmanoma ir kaip tai užpildyti. Tobuli robotai txt yra tas, kuriame yra mažiau eilučių, bet daugiau prasmės. "Trumpumas yra sąmojingumo siela". Ši išraiška čia labai naudinga.

Kaip patikrinti robots.txt

Tam, kad patikrinkite robots.txt Norėdami nustatyti teisingą failo sintaksę ir struktūrą, galite naudoti vieną iš internetinių paslaugų. Pavyzdžiui, „Yandex“ ir „Google“ siūlo savo paslaugas žiniatinklio valdytojams, įskaitant robots.txt analizavimas:

Failo robots.txt tikrinimas Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

Tam, kad Patikrinkite robots.txt internete būtina įkelti robots.txt į svetainę šakniniame kataloge. Priešingu atveju tarnyba gali apie tai pranešti nepavyko įkelti robots.txt. Pirmiausia rekomenduojama patikrinti robots.txt prieinamumą adresu, kuriame yra failas, pvz.: your_site.ru/robots.txt.

Be „Yandex“ ir „Google“ patvirtinimo paslaugų, internete yra daugybė kitų. robots.txt tikrintuvai.

Robots.txt prieš „Yandex“ ir „Google“.

Yra subjektyvi nuomonė, kad „Yandex“ atskiro direktyvų bloko „User-agent: Yandex“ nurodymą robots.txt suvokia pozityviau nei bendrą direktyvų bloką su „User-agent: *“. Panaši situacija su robots.txt ir Google. Nurodę atskiras „Yandex“ ir „Google“ direktyvas, galite valdyti svetainių indeksavimą per robots.txt. Galbūt juos pamalonina asmeninis patrauklumas, juolab kad daugumoje svetainių „Yandex“, „Google“ ir kitų paieškos sistemų robots.txt blokų turinys bus toks pat. Išskyrus retas išimtis, visi „Vartotojo agento“ blokai turės numatytasis robots.txt direktyvų rinkinys. Taip pat galite įdiegti naudodami kitą „Vartotojo agentą“. draudimas indeksuoti robots.txt, skirtą Yandex, bet, pavyzdžiui, ne „Google“.

Atskirai verta paminėti, kad „Yandex“ atsižvelgia į tokią svarbią direktyvą kaip „Host“, o teisingame „Yandex“ robots.txt faile turėtų būti ši direktyva, kad būtų nurodytas pagrindinis svetainės veidrodis. „Priimančiojo“ direktyva bus išsamiau aptarta toliau.

Išjungti indeksavimą: robots.txt Neleisti

Neleisti – draudžiantis nurodymas, kuris dažniausiai naudojamas robots.txt faile. Disallow draudžia indeksuoti svetainę ar jos dalį, priklausomai nuo kelio, nurodyto Neleisti direktyvos parametre.

Pavyzdys, kaip išjungti svetainės indeksavimą robots.txt:

Vartotojo agentas: * Neleisti: /

Šis pavyzdys uždaro visą svetainę nuo visų robotų indeksavimo.

Specialieji simboliai * ir $ gali būti naudojami Neleisti direktyvos parametre:

* - bet koks simbolių skaičius, pavyzdžiui, parametras /page* atitinka /page, /page1, /page-be-cool, /page/kak-skazat ir kt. Tačiau kiekvieno parametro pabaigoje nereikia nurodyti *, nes, pavyzdžiui, šios direktyvos aiškinamos taip pat:

Vartotojo agentas: Yandex Disallow: /puslapis Vartotojo agentas: Yandex Disallow: /puslapis*

$ – nurodo tikslią išimties atitiktį parametro reikšmei:

Vartotojo agentas: Googlebot Disallow: /page$

Tokiu atveju direktyva Disallow neleis /page, bet neleis /page1, /page-be-cool arba /page/kak-skazat indeksuoti.

Jeigu uždaryti robots.txt svetainės indeksavimą, paieškos sistemos į tokį žingsnį gali reaguoti su klaida „Užblokuota robots.txt faile“ arba „url ribojama robots.txt“ (url draudžiama robots.txt faile). Jei tau reikia išjungti puslapių indeksavimą, galite naudoti ne tik robots txt, bet ir panašias html žymas:

  • - neindeksuoti puslapio turinio;
  • - nesekti nuorodų puslapyje;
  • - draudžiama indeksuoti turinį ir sekti nuorodas puslapyje;
  • - panašus į turinį = "nėra".

Leisti indeksuoti: robots.txt Leisti

Leisti – leidžianti direktyva ir priešinga Neleisti direktyvai. Šios direktyvos sintaksė panaši į Disallow.

Pavyzdys, kaip išjungti svetainės indeksavimą faile robots.txt, išskyrus kai kuriuos puslapius:

Vartotojo agentas: * Neleisti: /Leisti: /puslapis

Draudžiama indeksuoti visą svetainę, išskyrus puslapius, prasidedančius raide /page.

Neleisti ir leisti su tuščia parametro reikšme

Tuščia Neleisti direktyva:

Vartotojo agentas: * Neleisti:

Nieko nedrausti arba leisti indeksuoti visą svetainę ir yra lygiavertis:

Vartotojo agentas: * Leisti: /

Tuščia direktyva Leisti:

Vartotojo agentas: * Leisti:

Nieko neleisti arba visiškas svetainės indeksavimo draudimas yra lygiavertis:

Vartotojo agentas: * Neleisti: /

Pagrindinės svetainės veidrodis: robots.txt priegloba

„Host“ direktyva naudojama „Yandex“ robotui nurodyti pagrindinį jūsų svetainės veidrodį. Iš visų populiarių paieškos sistemų direktyva Šeimininką atpažįsta tik „Yandex“ robotai. Prieglobos direktyva naudinga, jei jūsų svetainė yra keliose svetainėse, pavyzdžiui:

mysite.ru mysite.com

Arba teikti pirmenybę tarp:

Mano svetainė.ru www.mysite.ru

Galite pasakyti „Yandex“ robotui, kuris veidrodis yra pagrindinis. „Host“ direktyva nurodyta direktyvų bloke „User-agent: Yandex“ ir kaip parametras nurodomas pageidaujamos svetainės adresas be „http://“.

Robots.txt, nurodančio pagrindinį veidrodį, pavyzdys:

Vartotojo agentas: „Yandex Disallow“: /puslapis Priegloba: mysite.ru

Domeno vardas mysite.ru be www nurodomas kaip pagrindinis veidrodis. Taigi tokio tipo adresas bus nurodytas paieškos rezultatuose.

Vartotojo agentas: Yandex Disallow: /puslapis Priegloba: www.mysite.ru

Domeno pavadinimas www.mysite.ru nurodomas kaip pagrindinis veidrodis.

Prieglobos direktyva robots.txt faile galima naudoti tik vieną kartą, jei Host direktyva nurodyta daugiau nei vieną kartą, bus atsižvelgta tik į pirmą, kitos Host direktyvos bus ignoruojamos.

Jei norite nurodyti pagrindinį „Googlebot“ veidrodį, naudokite „Google Webmaster Tools“ paslaugą.

Svetainės schema: robots.txt svetainės schema

Naudodami svetainės schemos direktyvą, robots.txt galite nurodyti vietą svetainėje.

Robots.txt pavyzdys su svetainės schemos adresu:

Vartotojo priemonė: * Neleisti: /puslapis Svetainės schema: http://www.mysite.ru/sitemap.xml

Svetainės žemėlapio adreso nurodymas per svetainės schemos direktyva robots.txt leidžia paieškos robotui sužinoti apie svetainės schemą ir pradėti ją indeksuoti.

„Clean-param“ direktyva

„Clean-param“ direktyva leidžia neįtraukti puslapių su dinaminiais parametrais indeksavimo. Panašiuose puslapiuose galima teikti tą patį turinį su skirtingais puslapių URL. Paprasčiau tariant, tarsi puslapis būtų pasiekiamas skirtingais adresais. Mūsų užduotis yra pašalinti visus nereikalingus dinaminius adresus, kurių gali būti milijonas. Norėdami tai padaryti, neįtraukiame visų dinaminių parametrų, naudojant robots.txt direktyvą Clean-param.

„Clean-param“ direktyvos sintaksė:

Švarus parametras: parm1[&parm2&parm3&parm4&..&parmn] [Kelias]

Apsvarstykite puslapio su šiuo URL pavyzdį:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Pavyzdys robots.txt Clean-param:

Clean-param: tik parm1&parm2&parm3 /page.html # page.html

Clean-param: parm1&parm2&parm3 / # visiems

Nuskaitymo delsos direktyva

Ši instrukcija leidžia sumažinti serverio apkrovą, jei robotai per dažnai lankosi jūsų svetainėje. Ši direktyva daugiausia aktuali svetainėms, kuriose yra daug puslapių.

Pavyzdys robots.txt tikrinimo delsa:

Vartotojo agentas: „Yandex Disallow“: /puslapis Tikrinimo delsa: 3

Tokiu atveju „prašome“ „Yandex“ robotų atsisiųsti mūsų svetainės puslapius ne dažniau kaip kartą per tris sekundes. Kai kurios paieškos sistemos palaiko dešimtainį formatą kaip parametrą Nuskaitymo delsos robots.txt direktyvos.

Kartais prireikia, kad svetainės puslapiai ar juose esančios nuorodos nepasirodytų paieškos rezultatuose. Galite paslėpti svetainės turinį nuo indeksavimo naudodami robots.txt failą, HTML žymėjimą arba prieigos teisę svetainėje.

Draudimas indeksuoti svetainę, skyrių ar puslapį

Jei kai kurie svetainės puslapiai ar skyriai neturėtų būti indeksuojami (pavyzdžiui, su nuosavybės ar konfidencialia informacija), apribokite prieigą prie jų šiais būdais:

    Svetainėje naudokite leidimą. Rekomenduojame šį metodą paslėpti pagrindinį svetainės puslapį nuo indeksavimo. Jei pagrindinis puslapis yra išjungtas faile robots.txt arba naudojant metažymą noindex, bet su juo susieta, puslapis gali būti rodomas paieškos rezultatuose.

Puslapio turinio indeksavimo draudimas

Slėpti dalį puslapio teksto nuo indeksavimo

Puslapio HTML kode pridėkite elementą „noindex“. Pavyzdžiui:

Elementas nėra jautrus įdėjimui – jis gali būti bet kurioje puslapio HTML kodo vietoje. Jei reikia, kad svetainės kodas būtų tinkamas, galite naudoti žymą tokiu formatu:

indeksuotinas tekstasPaslėpti puslapio nuorodą nuo indeksavimo

Puslapio HTML kode prie elemento pridėkite atributą. Pavyzdžiui:

Atributas veikia panašiai kaip nofollow direktyva robots metažymoje, bet taikoma tik nuorodai, kuriai jis nurodytas.

Robots.txt, skirtas WordPress, yra vienas iš pagrindinių indeksavimo nustatymo įrankių. Anksčiau kalbėjome apie straipsnių indeksavimo proceso pagreitinimą ir tobulinimą. Be to, jie svarstė šią problemą taip, tarsi paieškos robotas nieko nežinotų ir negalėtų padaryti. Ir mes turime jam pasakyti. Tam naudojome svetainės schemos failą.

Galbūt vis dar nežinote, kaip paieškos robotas indeksuoja jūsų svetainę? Pagal numatytuosius nustatymus leidžiama viską indeksuoti. Bet jis to nepadaro iš karto. Robotas, gavęs signalą, kad būtina apsilankyti svetainėje, pastato ją į eilę. Todėl indeksavimas įvyksta ne iš karto mūsų prašymu, o po kurio laiko. Kai ateis jūsų svetainės eilė, šis robotas voras bus čia pat. Visų pirma, jis ieško failo robots.txt.

Jei randamas robots.txt, jis perskaito visas direktyvas ir pabaigoje mato failo adresą. Tada robotas, vadovaudamasis svetainės schema, apeina visą indeksavimui skirtą medžiagą. Jis tai daro per ribotą laiką. Štai kodėl, jei sukūrėte svetainę su keliais tūkstančiais puslapių ir paskelbėte ją visą, robotas tiesiog neturės laiko apeiti visų puslapių vienu ypu. Ir tik tie, kuriuos jam pavyko peržiūrėti, pateks į indeksą. O robotas vaikšto po visą aikštelę ir leidžia joje savo laiką. Ir tai nėra faktas, kad jis paieškos rezultatuose pirmiausia peržiūrės būtent tuos puslapius, kurių jūs laukiate.

Jei robotas neranda robots.txt failo, jis mano, kad viską leidžiama indeksuoti. Ir jis pradeda raustis po visas užpakalines gatves. Nukopijavęs viską, ką galėjo rasti, jis palieka jūsų svetainę iki kito karto. Kaip suprantate, po tokios paieškos viskas, ko reikia, ir viskas, ko nereikia, patenka į paieškos sistemos indeksų bazę. Ką reikia žinoti, tai savo straipsnius, puslapius, paveikslėlius, vaizdo įrašus ir kt. Kodėl nereikia indeksuoti?

„WordPress“ tai yra labai svarbi problema. Atsakymas į jį turi įtakos ir jūsų svetainės turinio indeksavimo paspartinimui, ir jos saugumui. Faktas yra tas, kad visos paslaugų informacijos nereikia indeksuoti. Ir apskritai pageidautina paslėpti „WordPress“ failus nuo smalsių akių. Tai sumažins tikimybę, kad jūsų svetainė bus įsilaužta.

„WordPress“ sukuria daug jūsų straipsnių kopijų su skirtingais URL, bet tuo pačiu turiniu. Tai atrodo taip:

//svetainės_pavadinimas/straipsnio_pavadinimas,

//svetainės_pavadinimas/kategorijos_pavadinimas/straipsnio_pavadinimas,

//svetainės_pavadinimas/antraštės_pavadinimas/antraštės_pavadinimas/straipsnio_pavadinimas,

//svetainės_pavadinimas/žymos_pavadinimas/straipsnio_pavadinimas,

//svetainės_pavadinimas/archyvo_kūrimo_data/straipsnio_pavadinimas

Su žymomis ir archyvais bendrai saugo. Kiek žymų prisegtas straipsnis, tiek kopijų sukuriama. Redaguojant straipsnį, tiek archyvų bus sukurta skirtingomis datomis, tiek atsiras naujų adresų beveik panašaus turinio. Taip pat yra straipsnių kopijos su adresais prie kiekvieno komentaro. Tai tiesiog baisu.

Daugybė dublikatų paieškos sistemų vertina kaip blogą svetainę. Jei visos šios kopijos bus indeksuojamos ir pateikiamos paieškoje, pagrindinio straipsnio svoris bus paskirstytas visoms kopijoms, o tai yra labai blogai. Ir tai nėra faktas, kad straipsnis su pagrindiniu adresu bus rodomas kaip paieškos rezultatas. Todėl būtina uždrausti indeksuoti visas kopijas.

„WordPress“ formatuoja vaizdus kaip atskirus straipsnius be teksto. Šioje formoje be teksto ir aprašymo jie atrodo kaip visiškai neteisingi straipsniai. Todėl turite imtis priemonių, kad šie adresai nebūtų indeksuojami paieškos sistemų.

Kodėl jis neturėtų būti indeksuojamas?

Penkios priežastys uždrausti indeksavimą!

  1. Visiškas indeksavimas papildomai apkrauna jūsų serverį.
  2. Tam reikia brangaus paties roboto laiko.
  3. Galbūt tai ir yra svarbiausia, neteisingą informaciją paieškos sistemos gali neteisingai interpretuoti. Tai lems neteisingą straipsnių ir puslapių reitingavimą, o vėliau ir neteisingus rezultatus paieškos rezultatuose.
  4. Aplankuose su šablonais ir papildiniais yra daugybė nuorodų į kūrėjų ir reklamuotojų svetaines. Tai labai blogai jaunai svetainei, kai dar nėra arba labai mažai nuorodų į jūsų svetainę iš išorės.
  5. Indeksuodama visas jūsų straipsnių kopijas archyvuose ir komentaruose, paieškos sistema susidarys blogą nuomonę apie jūsų svetainę. Daug dublikatų. Daug siunčiamų nuorodų Paieškos variklis sumažins jūsų svetainės versiją paieškos rezultatuose iki filtravimo. O nuotraukos, sukurtos kaip atskiras straipsnis su pavadinimu ir be teksto, kelia siaubą robotui. Jei jų yra daug, svetainė gali barškėti po „Yandex AGS“ filtru. Mano svetainė buvo ten. Patikrinta!

Dabar, po viso to, kas pasakyta, kyla pagrįstas klausimas: „Ar galima kaip nors uždrausti indeksuoti tai, kas nereikalinga?“. Pasirodo, gali. Bent jau ne pagal užsakymą, o pagal rekomendaciją. Situacija, kai nėra visiškai uždrausta indeksuoti kai kuriuos objektus, susidaro dėl sitemap.xml failo, kuris apdorojamas po robots.txt. Išeina taip: robots.txt draudžia, o sitemap.xml leidžia. Ir vis dėlto mes galime išspręsti šią problemą. Kaip tai padaryti dabar ir pagalvokite.

WordPress robots.txt failas pagal numatytuosius nustatymus yra dinaminis ir jo iš tikrųjų nėra WordPress. Ir jis generuojamas tik tuo metu, kai kas nors to prašo, ar tai būtų robotas, ar tiesiog lankytojas. Tai yra, jei einate į svetainę naudodami FTP ryšį, šakniniame aplanke tiesiog nerasite robots.txt failo, skirto wordpress. Ir jei naršyklėje nurodysite konkretų jos adresą http://jūsų_svetainės_pavadinimas/robots.txt, tada jos turinį gausite ekrane taip, lyg failas egzistuotų. Šio sugeneruoto WordPress robots.txt failo turinys bus toks:

Failo robots.txt sudarymo taisyklėse pagal nutylėjimą leidžiama viską indeksuoti. „User-agent: *“ direktyva nurodo, kad visos tolesnės komandos taikomos visiems paieškos agentams (*). Bet tada niekas nėra ribojamas. Ir, kaip žinote, to nepakanka. Mes jau aptarėme aplankus ir įrašus su ribota prieiga, gana daug.

Kad galėtumėte atlikti robots.txt failo pakeitimus ir juos išsaugoti, turite jį sukurti statine, nuolatine forma.

Kaip sukurti robots.txt WordPress

Bet kuriame teksto rengyklėje (tik jokiu būdu nenaudokite MS Word ir panašių su automatinio teksto formatavimo elementais) sukurkite tekstinį failą su tokiu apytiksliu turiniu ir nusiųskite jį į savo svetainės šakninį aplanką. Pakeitimai gali būti atliekami pagal poreikį.

Jums tereikia atsižvelgti į failo sudarymo ypatybes:

Skaičių eilučių pradžioje, kaip čia, straipsnyje, neturėtų būti. Skaičiai čia pateikti, kad būtų patogiau peržiūrėti failo turinį. Kiekvienos eilutės pabaigoje neturėtų būti jokių papildomų simbolių, įskaitant tarpus ar tabuliatorius. Tarp blokų turi būti tuščia eilutė be jokių simbolių, įskaitant tarpus. Tik viena vieta gali padaryti jums didelę žalą – BŪKITE ATSARGIAI .

Kaip patikrinti, ar robots.txt yra WordPress

Galite patikrinti robots.txt, ar nėra papildomų tarpų, tokiu būdu. Teksto rengyklėje pasirinkite visą tekstą paspausdami Ctrl+A. Jei eilučių pabaigoje ir tuščių eilučių nėra tarpų, tai pastebėsite. O jei yra pasirinkta tuštuma, tai reikia pašalinti tarpus ir viskas bus gerai.

Patikrinti, ar nustatytos taisyklės veikia tinkamai, galite šiose nuorodose:

  • Robots.txt analizavimas „Yandex“ žiniatinklio valdytojas
  • Nagrinėjamas robots.txt „Google“ paieškos pulte .
  • Failo robots.txt kūrimo paslauga: http://pr-cy.ru/robots/
  • Robots.txt kūrimo ir tikrinimo paslauga: https://seolib.ru/tools/generate/robots/
  • Dokumentai iš Yandex .
  • Dokumentacija iš google(Anglų)

Yra dar vienas būdas patikrinti robots.txt failą, ar nėra „WordPress“ svetainės, tai yra įkelti jo turinį į „Yandex“ žiniatinklio valdytoją arba nurodyti jo vietos adresą. Jei yra kokių nors klaidų, iš karto sužinosite.

Pataisykite robots.txt, skirtą WordPress

Dabar pereikime prie „WordPress“ svetainės robots.txt failo turinio. Kokios direktyvos turi būti jame. Toliau pateikiamas apytikslis robots.txt failo, skirto WordPress, turinys, atsižvelgiant į jo funkcijas:

Vartotojo agentas: * Neleisti: /wp-login.php Neleisti: /wp-admin Neleisti: /wp-includes Neleisti: /wp-content/plugins Neleisti: /wp-content/themes Neleisti: */*komentarai Neleisti: * /*category Disallow: */*žyma Neleisti: */trackback Neleisti: */*feed Disallow: /*?* Neleisti: /?s= Leisti: /wp-admin/admin-ajax.php Leisti: /wp-content /uploads/ Leisti: /*?replytocom Vartotojo priemonė: Yandex Disallow: /wp-login.php Neleisti: /wp-admin Neleisti: /wp-includes Neleisti: /wp-content/plugins Neleisti: /wp-content/themes Neleisti: */comments Neleisti: */*kategorija Neleisti: */*žyma Neleisti: */trackback Disallow: */*feed Disallow: /*?* Neleisti: /*?s= Leisti: /wp-admin/admin- ajax.php Leisti: /wp-content/uploads/ Leisti: /*?replytocom Tikrinimo delsa: 2.0 Priegloba: site.ru Svetainės schema: http://site.ru/sitemap.xml

Wordpress robots.txt direktyvos

Dabar pažvelkime atidžiau:

1 - 16 eilučių bloko nustatymai visiems robotams

User-agent: – tai būtina direktyva, apibrėžianti paieškos agentą. Žvaigždutė sako, kad direktyva skirta visų paieškos sistemų robotams. Jei blokas skirtas konkrečiam robotui, turite nurodyti jo pavadinimą, pavyzdžiui, „Yandex“, kaip nurodyta 18 eilutėje.

Pagal numatytuosius nustatymus viskas leidžiama indeksuoti. Tai atitinka direktyvą Allow: /.

Todėl norint uždrausti indeksuoti konkrečius aplankus ar failus, naudojama speciali Disallow: direktyva.

Mūsų pavyzdyje, naudojant aplankų pavadinimus ir failų pavadinimų kaukes, uždraudžiami visi WordPress paslaugų aplankai, tokie kaip administratorius, temos, papildiniai, komentarai, kategorija, žyma... Jei šioje formoje nurodysite direktyvą Neleisti: /, tada bus uždrausta indeksuoti visą svetainę.

Leisti: – kaip sakiau, direktyva leidžia indeksuoti aplankus ar failus. Jis turėtų būti naudojamas, kai draudžiamuose aplankuose yra failų, kuriuos dar reikia indeksuoti.

Mano pavyzdyje 3 eilutė Disallow: /wp-admin – neleidžia indeksuoti /wp-admin aplanko, o 14 eilutė Leisti: /wp-admin/admin-ajax.php – leidžia indeksuoti /admin-ajax.php failą esančiame uždraustame indeksavimo aplanke /wp-admin/.

17 – tuščia eilutė (tiesiog paspauskite Enter mygtuką be tarpų)

18–33 nustatymų blokas, skirtas specialiai „Yandex“ agentui (vartotojo agentas: „Yandex“). Kaip pastebėjote, šis blokas visiškai pakartoja visas ankstesnio bloko komandas. Ir kyla klausimas: „Kas per velnias per tokia bėda?“. Taigi visa tai daroma tik dėl kelių direktyvų, kurias svarstysime toliau.

34 – Tikrinimo delsa – pasirenkama direktyva, skirta tik „Yandex“. Jis naudojamas, kai serveris yra labai apkrautas ir nespėja apdoroti roboto užklausų. Tai leidžia nustatyti paieškos robotui minimalų delsą (sekundėmis ir dešimtosiomis sekundės dalimis) nuo vieno puslapio įkėlimo pabaigos iki kito įkėlimo pradžios. Didžiausia leistina vertė yra 2,0 sekundės. Jis pridedamas iškart po direktyvų Neleisti ir Leisti.

35 - Tuščia eilutė

36 - Priegloba: site.ru - jūsų svetainės domeno pavadinimas (PRIVALOMA Yandex bloko direktyva). Jei mūsų svetainė naudoja HTTPS protokolą, adresas turi būti nurodytas visą, kaip parodyta toliau:

Priegloba: https://site.ru

37 – Turi būti tuščia eilutė (tiesiog paspaudus Enter mygtuką be tarpų).

38 – Svetainės schema: http://site.ru/sitemap.xml – sitemap.xml failo (-ų) vietos adresas (PRIVALOMA direktyva), esanti failo pabaigoje po tuščios eilutės ir taikoma visiems blokams.

Kaukės robots.txt failo direktyvoms, skirtoms WordPress

Dabar šiek tiek, kaip sukurti kaukes:

  1. Disallow: /wp-register.php – išjungti failo wp-register.php, esančio šakniniame aplanke, indeksavimą.
  2. Disallow: /wp-admin – draudžia indeksuoti wp-admin aplanko turinį, esantį šakniniame aplanke.
  3. Disallow: /trackback – išjungia pranešimų indeksavimą.
  4. Disallow: /wp-content/plugins – draudžia indeksuoti įskiepių aplanko, esančio wp-content poaplankyje (antrojo lygio aplanke), turinį.
  5. Disallow: /feed – draudžia tiekimo indeksavimą t.y. uždaro svetainės RSS kanalą.
  6. * – reiškia bet kokią simbolių seką, todėl gali pakeisti ir vieną simbolį, ir pavadinimo dalį arba visą failo ar aplanko pavadinimą. Konkretaus vardo nebuvimas pabaigoje prilygsta rašymui *.
  7. Disallow: */*comments – neleidžia indeksuoti aplankų ir failų, kurių pavadinime yra komentarų ir kurie yra bet kuriuose aplankuose, turinį. Šiuo atveju tai neleidžia indeksuoti komentarų.
  8. Neleisti: *?s= – neleidžia indeksuoti paieškos puslapių

Aukščiau pateiktos eilutės gali būti naudojamos kaip veikiantis robots.txt failas, skirtas WordPress. Tik 36, 38 eilutėse reikia įvesti savo svetainės adresą ir PRIVALOMAI PAŠALINTI eilučių numerius. Ir gausite veikiantį robots.txt failą, skirtą wordpress , pritaikyta bet kuriai paieškos sistemai.

Vienintelė ypatybė yra ta, kad veikiančio robots.txt failo dydis Wordpress svetainei neturi viršyti 32 kB vietos diske.

Jei jūsų visiškai nedomina „Yandex“, tada jums nereikės 18–35 eilučių. Tai turbūt ir viskas. Tikiuosi, kad straipsnis buvo naudingas. Jei turite klausimų, rašykite komentaruose.

ROBOTAI.TXT- Robotams taikomų išimčių standartas – failas teksto formatu.txt, skirtas apriboti robotų prieigą prie svetainės turinio. Failas turi būti svetainės šaknyje (adresu /robots.txt). Standarto naudojimas yra neprivalomas, tačiau paieškos sistemos laikosi robots.txt taisyklių. Pati byla susideda iš formos įrašų rinkinio

:

kur laukas yra taisyklės pavadinimas (User-Agent, Disallow, Allow ir tt)

Įrašai atskiriami viena ar daugiau tuščių eilučių (eilutės terminas: simboliai CR, CR+LF, LF)

Kaip teisingai nustatyti ROBOTS.TXT?

Šioje pastraipoje pateikiami pagrindiniai failo nustatymo reikalavimai, konkrečios nustatymo rekomendacijos, populiarių TVS pavyzdžiai

  • Failo dydis neturi viršyti 32 KB.
  • Kodavimas turi būti ASCII arba UTF-8.
  • Tinkamame robots.txt faile turi būti bent viena taisyklė, susidedanti iš kelių direktyvų. Kiekvienoje taisyklėje turi būti šios direktyvos:
    • kuriam robotui skirta ši taisyklė (vartotojo agento direktyva)
    • prie kokių išteklių šis agentas turi prieigą (direktyva „Leisti“) arba prie kurių išteklių jis neturi prieigos (Disallow).
  • Kiekviena taisyklė ir nurodymas turi prasidėti nauja eilute.
  • Neleisti / leisti taisyklės reikšmė turi prasidėti raide / arba *.
  • Visos eilutės, prasidedančios simboliu #, arba eilučių dalys, prasidedančios šiuo simboliu, laikomos komentarais ir agentai į jas neatsižvelgia.

Taigi minimalus tinkamai sukonfigūruoto robots.txt failo turinys atrodo taip:

Vartotojo agentas: * #visiems agentams Neleisti: #nieko neleidžiama = prieiga prie visų failų leidžiama

Kaip sukurti / modifikuoti ROBOTS.TXT?

Failą galite sukurti naudodami bet kurį teksto rengyklę (pvz., Notepad++). Norint sukurti ar modifikuoti robots.txt failą, paprastai reikalinga prieiga prie serverio per FTP/SSH, tačiau daugelis TVS/CMF turi integruotą failų turinio valdymo sąsają per administravimo skydelį („admin panel“), pvz. : Bitrix, ShopScript ir kt.

Kam skirtas failas ROBOTS.TXT svetainėje?

Kaip matote iš apibrėžimo, robots.txt leidžia valdyti robotų elgesį lankantis svetainėje, t.y. nustatyti svetainės indeksavimą paieškos sistemomis – dėl to šis failas yra svarbi jūsų svetainės SEO optimizavimo dalis. Svarbiausia robots.txt savybė – draudimas indeksuoti puslapius/failus, kuriuose nėra naudingos informacijos. Arba apskritai visa svetainė, kuri gali būti reikalinga, pavyzdžiui, bandomosioms svetainės versijoms.

Pagrindiniai pavyzdžiai, ką reikia uždaryti nuo indeksavimo, bus aptarti toliau.

Ką reikia uždaryti nuo indeksavimo?

Pirma, visada turėtumėte išjungti svetainės indeksavimą kūrimo metu, kad nepatektumėte į rodyklės puslapius, kurių visiškai nebus baigtoje svetainės versijoje, ir į puslapius, kuriuose trūksta / pasikartoja / bandomasis turinys prieš juos užpildant.

Antra, svetainės, sukurtos kaip kūrimo bandomosios svetainės, kopijos turėtų būti paslėptos nuo indeksavimo.

Trečia, išanalizuosime, kokį turinį tiesiogiai svetainėje reikėtų uždrausti indeksuoti.

  1. Administracinė svetainės dalis, paslaugų failai.
  2. Vartotojų autorizacijos / registracijos puslapiai, daugeliu atvejų - asmeninės vartotojų skiltys (jei vieša prieiga prie asmeninių puslapių nesuteikiama).
  3. Krepšelio ir atsiskaitymo puslapiai, užsakymų peržiūra.
  4. Produktų palyginimo puslapiuose galima pasirinktinai atverti tokius puslapius indeksavimui, jei jie yra unikalūs. Apskritai palyginimo lentelės yra daugybė puslapių su pasikartojančiu turiniu.
  5. Paieškos ir filtravimo puslapiai gali būti palikti atviri indeksuoti, tik jei jie yra teisingas nustatymas: individualūs URL, užpildyti unikaliais pavadinimais, metažymais. Daugeliu atvejų tokie puslapiai turėtų būti uždaryti.
  6. Puslapiai su rūšiavimo produktais / įrašais, jei jų adresai skiriasi.
  7. Puslapiai su utm-, openstat-žymomis URL (taip pat ir visi kiti).

Sintaksė ROBOTS.TXT

Dabar pakalbėkime apie robots.txt sintaksę išsamiau.

Bendrosios nuostatos:

  • kiekviena direktyva turi prasidėti nauja eilute;
  • eilutė neturi prasidėti tarpu;
  • direktyvos reikšmė turi būti vienoje eilutėje;
  • nereikia rašyti direktyvų reikšmių kabutėse;
  • pagal numatytuosius nustatymus visoms direktyvų reikšmėms * rašoma pabaigoje, Pavyzdys: Vartotojo agentas: Yandex Disallow: /cgi-bin* # blokuoja prieigą prie puslapių Disallow: /cgi-bin # tas pats
  • tuščia nauja eilutė traktuojama kaip User-agent taisyklės pabaiga;
  • nurodymuose „Leisti“, „Neleisti“ nurodyta tik viena reikšmė;
  • robots.txt failo pavadinimas neleidžia rašyti didžiųjų raidžių;
  • robots.txt didesnis nei 32 KB neleidžiamas, robotai tokio failo neatsisiųs ir laikys svetainę visiškai leistina;
  • nepasiekiamas robots.txt gali būti traktuojamas kaip visiškai leistinas;
  • tuščias robots.txt yra laikomas visiškai leistinu;
  • norėdami nurodyti taisyklių kirilicos reikšmes, naudokite Punycod;
  • leidžiamos tik UTF-8 ir ASCII koduotės: robots.txt neleidžiama naudoti jokių nacionalinių abėcėlių ir kitų simbolių.

Specialūs simboliai:

  • #

    Komentaro pradžios simbolis, visas tekstas po # ir prieš eilutės tiekimą yra laikomas komentaru ir jo nenaudoja robotai.

    *

    Pakaitos simbolio reikšmė, nurodanti priešdėlį, priesagą arba visą direktyvos reikšmę – bet koks simbolių rinkinys (įskaitant tuščią).

  • $

    Eilutės pabaigos nurodymas, draudimas pildyti * prie reikšmės, ant Pavyzdys:

    Vartotojo agentas: * #visiems Leisti: /$ #leisti indeksuoti pagrindinį puslapį Neleisti: * #uždrausti indeksuoti visus puslapius, išskyrus leidžiamus

Direktyvų sąrašas

  1. vartotojo atstovas

    Privaloma direktyva. Nustato, kuriam robotui taikoma taisyklė, taisyklėje gali būti viena ar daugiau tokių direktyvų. Galite naudoti simbolį * norėdami nurodyti priešdėlį, priesagą arba pilnas vardas robotas. Pavyzdys:

    #svetainė uždaryta Google.Naujienos ir Google.Vaizdai Vartotojo priemonė: Googlebot-Image Vartotojo priemonė: Googlebot-News Disallow: / #visiems robotams, kurių pavadinimas prasideda Yandex, uždarykite skyrių "Naujienos" Vartotojo priemonė: Yandex* Neleisti: /news #atvira visiems kitiems Vartotojo agentas: * Neleisti:

  2. Neleisti

    Direktyva nurodo, kurie failai ar katalogai neturėtų būti indeksuojami. Direktyvos reikšmė turi prasidėti simboliu / arba *. Pagal numatytuosius nustatymus * pridedamas prie reikšmės pabaigos, nebent tai būtų draudžiama simboliu $.

  3. leisti

    Kiekviena taisyklė turi turėti bent vieną direktyvą Disallow: arba Allow:.

    Direktyva nurodo, kurie failai ar katalogai turi būti indeksuojami. Direktyvos reikšmė turi prasidėti simboliu / arba *. Pagal numatytuosius nustatymus * pridedamas prie reikšmės pabaigos, nebent tai būtų draudžiama simboliu $.

    Direktyvos naudojimas yra svarbus tik kartu su Disallow, kad būtų galima indeksuoti kai kuriuos puslapių pogrupius, kuriuos draudžiama indeksuoti pagal Neleisti direktyvą.

  4. Švarus param

    Neprivaloma, skerspjūvio direktyva. Naudokite direktyvą „Clean-param“, jei svetainės puslapių adresuose yra GET parametrų (rodomi po ? ženklo URL), kurie neturi įtakos jų turiniui (pvz., UTM). Šios taisyklės pagalba visi adresai bus suvesti į vieną formą – originalų, be parametrų.

    Direktyvos sintaksė:

    Išvalymo parametras: p0[&p1&p2&..&pn]

    p0… - parametrų pavadinimai, į kuriuos nereikia atsižvelgti
    kelias – puslapių, kuriems taikoma taisyklė, kelio priešdėlis


    Pavyzdys.

    Svetainėje yra tokių puslapių

    www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_ 123

    Nurodant taisyklę

    Vartotojo agentas: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

    robotas sumažins visus puslapių adresus iki vieno:

    www.example.com/some_dir/get_book.pl?book_id=123

  5. Svetainės schema

    Neprivaloma direktyva, į vieną failą galima įdėti kelias tokias direktyvas, skersinį (pakanka nurodyti vieną kartą faile, nedubliuojant kiekvienam agentui).

    Pavyzdys:

    Svetainės schema: https://example.com/sitemap.xml

  6. Nuskaitymas-delsimas

    Direktyva leidžia nustatyti paieškos robotui minimalų laikotarpį (sekundėmis) nuo vieno puslapio įkėlimo pabaigos iki kito įkėlimo pradžios. Palaikomos trupmeninės reikšmės

    Mažiausia leistina „Yandex“ robotų vertė yra 2,0.

    „Google“ robotai nepaiso šios direktyvos.

    Pavyzdys:

    Vartotojo priemonė: „Yandex Crawl-delay“: 2.0 # nustato skirtąjį laiką iki 2 sekundžių Vartotojo priemonė: * Tikrinimo delsa: 1,5 # nustato skirtąjį laiką iki 1,5 sekundės

  7. Šeimininkas

    Direktyvoje nurodomas pagrindinis svetainės veidrodis. Šiuo metu populiarios paieškos sistemos palaiko tik Mail.ru.

    Pavyzdys:

    Vartotojo agentas: Mail.Ru Priegloba: www.site.ru # pagrindinis veidrodis iš www

Populiarių TVS robots.txt pavyzdžiai

ROBOTS.TXT, skirtas 1C:Bitrix

Bitrix CMS suteikia galimybę valdyti robots.txt failo turinį. Norėdami tai padaryti, administracinėje sąsajoje, naudodami paiešką, turite eiti į įrankį „Robots.txt nustatymai“ arba keliu Rinkodara->Paieškos sistemų optimizavimas->Robots.txt nustatymai. Taip pat galite pakeisti robots.txt turinį naudodami integruotą Bitrix failų rengyklę arba per FTP.

Toliau pateiktas pavyzdys gali būti naudojamas kaip pradinis robots.txt rinkinys „Bitrix“ svetainėms, tačiau jis nėra universalus ir jį reikia pritaikyti atsižvelgiant į svetainę.

Paaiškinimai:

  1. suskirstymas į taisykles, skirtas skirtingiems agentams, atsirado dėl to, kad „Google“ nepalaiko „Clean-param“ direktyvos.
Vartotojo agentas: Yandex Disallow: */index.php Neleisti: /bitrix/ Neleisti: /*filtras Neleisti: /*order Disallow: /*show_include_exec_time= Neleisti: /*show_page_exec_time= Neleisti: /*show_sql_stat= Neleisti: /*abitrix_rezervuoti = Neleisti: /*clear_cache= Neleisti: /*clear_cache_session= Neleisti: /*ADD_TO_COMPARE_LIST Neleisti: /*ORDER_BY Neleisti: /*?print= Neleisti: /*&print= Neleisti: /*print_course= Neleisti: /*?action= Neleisti: /*? : /*&action= Neleisti: /*register= Neleisti: /*forgot_password= Neleisti: /*change_password= Neleisti: /*login= Neleisti: /*logout= Neleisti: /*auth= Neleisti: /*backurl= Neleisti: / *back_url= Neleisti: /*BACKURL= Neleisti: /*BACK_URL= Neleisti: /*back_url_admin= Neleisti: /*?utm_source= Neleisti: /*?bxajaxid= Neleisti: /*&bxajaxid= Neleisti: /*?view_result= Neleisti: /*&view_result= Neleisti: /*?PAGEN*& Neleisti: /*&PAGEN Leisti: */?PAGEN* Leisti: /bitrix/components/*/ Leisti: /bitrix/cache/*/ Leisti: /bitrix/js/* / Leisti: /bitrix/templates/*/ Leisti: /bitrix/panel/ */ Leisti: /bitrix/components/*/*/ Leisti: /bitrix/cache/*/*/ Leisti: /bitrix/js/*/*/ Leisti: /bitrix/templates/*/*/ Leisti: /bitrix /panel/*/*/ Leisti: /bitrix/components/ Leisti: /bitrix/cache/ Leisti: /bitrix/js/ Leisti: /bitrix/templates/ Leisti: /bitrix/panel/ Clean-Param: PAGEN_1 / Clean- Parametras: PAGEN_2 / #jei svetainėje yra daugiau puslapių, tada pakartokite visų variantų taisyklę, pakeisdami numerį Clean-Param: rūšiuoti Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-Agent: * Neleisti: */ index.php Neleisti : /bitrix/ Neleisti: /*filtras Neleisti: /*rūšiuoti Neleisti: /*order Disallow: /*show_include_exec_time= Neleisti: /*show_page_exec_time= Neleisti: /*show_sql_stat= Neleisti: /*bitrix_include *clear_cache= Neleisti : /*clear_cache_session= Neleisti: /*ADD_TO_COMPARE_LIST Neleisti: /*ORDER_BY Neleisti: /*?print= Neleisti: /*&print= Neleisti: /*print_course= Neleisti: /*?action= Neleisti: /* = Neleisti: / *register= Neleisti: /*forgot_password= Neleisti: /*change_password= Neleisti: /*login= Neleisti: /*logout= Neleisti: /*auth= Neleisti: /*backurl= Neleisti: /*back_url= Neleisti: /*BACKURL= Neleisti: /*BACK_URL= Neleisti: /*back_url_admin= Neleisti: /*?utm_source= Neleisti: /*?bxajaxid= Neleisti: /*&bxajaxid= Neleisti: /*?view_result= Neleisti: /*&view_result= Neleisti: /*utm_ Neleisti: /*openstat= Neleisti /*?PAGEN*& Neleisti: /*&PAGEN Leisti: */?PAGEN* Leisti: /bitrix/components/*/ Leisti: /bitrix/cache/*/ Leisti: /bitrix/js/*/ Leisti: /bitrix/ šablonai/*/ Leisti: /bitrix/panel/*/ Leisti: /bitrix/components/*/*/ Leisti: /bitrix/cache/*/*/ Leisti: /bitrix/js/*/*/ Leisti: /bitrix /templates/*/*/ Leisti: /bitrix/panel/*/*/ Leisti: /bitrix/components/ Leisti: /bitrix/cache/ Leisti: /bitrix/js/ Leisti: /bitrix/templates/ Leisti: /bitrix /panel/ Svetainės schema: http://site.com/sitemap.xml #pakeiskite savo svetainės schemos adresu

ROBOTS.TXT, skirta „WordPress“.

WordPress administratoriaus skydelyje nėra įmontuoto robots.txt nustatymo įrankio, todėl prieiti prie failo galima tik per FTP, arba įdiegus specialų įskiepį (pavyzdžiui, DL Robots.txt).

Toliau pateiktas pavyzdys gali būti naudojamas kaip robots.txt pradinis rinkinys Wordpress svetainėms, tačiau nėra universalus ir jį reikia pritaikyti priklausomai nuo svetainės.


Paaiškinimai:

  1. direktyvose Leisti yra keliai į stilių, scenarijų, paveikslėlių failus: norint teisingai indeksuoti svetainę, būtina, kad jie būtų prieinami robotams;
  2. daugumoje svetainių autorius ir žymų archyvo puslapiai sukuria tik pasikartojantį turinį ir nekuria naudingo turinio, todėl šis pavyzdys jie uždaryti indeksavimui. Jei jūsų projekte tokie puslapiai yra būtini, naudingi ir unikalūs, tuomet turėtumėte pašalinti direktyvas Disallow: /tag/ ir Disallow: /author/.

Tinkamo WoRdPress svetainės ROBOTS.TXT pavyzdys:

Vartotojo agentas: Yandex # Yandex Disallow: /cgi-bin Disallow: /? Neleisti: /wp- Neleisti: *?s= Neleisti: *&s= Neleisti: /search/ Neleisti: /author/ Neleisti: /users/ Neleisti: */trackback Neleisti: */feed Disallow: */rss Neleisti: */ embed Disallow: /xmlrpc.php Neleisti: /tag/ Neleisti: /readme.html Neleisti: *?replytocom Leisti: */uploads Leisti: /*/*.js Leisti: /*/*.css Leisti: /wp-* .png Leisti: /wp-*.jpg Leisti: /wp-*.jpeg Leisti: /wp-*.gif Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat Vartotojo priemonė: * Neleisti: /cgi-bin Neleisti: / ? Neleisti: /wp- Neleisti: *?s= Neleisti: *&s= Neleisti: /search/ Neleisti: /author/ Neleisti: /users/ Neleisti: */trackback Neleisti: */feed Disallow: */rss Neleisti: */ embed Disallow: /xmlrpc.php Neleisti: *?utm Neleisti: *openstat= Neleisti: /tag/ Neleisti: /readme.html Neleisti: *?replytocom Leisti: */uploads Leisti: /*/*.js Leisti: /* /*.css Leisti: /wp-*.png Leisti: /wp-*.jpg Leisti: /wp-*.jpeg Leisti: /wp-*.gif Svetainės schema: http://site.com/sitemap.xml # pakeiskite savo svetainės schemos adresu

ROBOTS.TXT, skirtas OpenCart

„OpenCart“ „administratoriaus skydelyje“ nėra įmontuoto įrankio robots.txt konfigūruoti, todėl failą galima pasiekti tik naudojant FTP.

Toliau pateiktas pavyzdys gali būti naudojamas kaip robots.txt paleidiklis OpenCart svetainėms, tačiau nėra universalus ir jį reikia pritaikyti atsižvelgiant į svetainę.


Paaiškinimai:

  1. direktyvose Leisti yra keliai į stilių, scenarijų, paveikslėlių failus: norint teisingai indeksuoti svetainę, būtina, kad jie būtų prieinami robotams;
  2. skirstymas į taisykles, skirtas skirtingiems agentams, atsiranda dėl to, kad „Google“ nepalaiko „Clean-param“ direktyvos;
Vartotojo agentas: * Neleisti: /*route=account/ Neleisti: /*route=affiliate/ Neleisti: /*route=checkout/ Neleisti: /*route=product/search Neleisti: /index.php?route=product/product *&manufacturer_id= Neleisti: /admin Neleisti: /catalog Neleisti: /sistema Neleisti: /*?sort= Neleisti: /*&sort= Neleisti: /*?order= Neleisti: /*&order= Neleisti: /*?limit= Neleisti: /*&limit= Neleisti: /*?filter_name= Neleisti: /*&filter_name= Neleisti: /*?filter_sub_category= Neleisti: /*&filter_sub_category= Neleisti: /*?filter_description= Neleisti: /*&filter_description= Neleisti: /*&filter_description= Neleisti Disallow: /*&tracking= Neleisti: /*palyginti-produktus Neleisti: /*ieškoti Neleisti: /*krepšelis Neleisti: /*patikrinti Neleisti: /*prisijungti Neleisti: /*atsijungti Neleisti: /*vaučeriai Neleisti: /*norų sąrašas Neleisti: /*mano paskyra Neleisti: /*užsakymų istorija Neleisti: /*naujienlaiškis Neleisti: /*grįžti-pridėti Neleisti: /*pamirštas slaptažodis Disallow: /*atsiuntimai Neleisti: /*grįžta Neleisti: /*transakcijos Neleisti: /* Create-account Disallow: /*pasikartojantis Neleisti: /*adresų knygelė Neleisti: /*reward-points Disallow: /*affiliate-forgot-password Neleisti: /*kurti-affiliate-account Disallow: /*affiliate-login Disallow: /*filter_tag Neleisti: /*? = Neleisti: /*prekės ženklai Neleisti: /*specialūs pasiūlymai Neleisti: /*paprasta registracija Disallow: /*simplecheckout Neleisti: *utm= Neleisti: /*&puslapis Neleisti: /*?puslapis*& Leisti: /*?puslapis Leisti: /catalog/ view/javascript/ Leisti: /catalog/view/theme/*/ Vartotojo agentas: Yandex Disallow: /*route=account/ Neleisti: /*route=affiliate/ Neleisti: /*route=checkout/ Neleisti: /*route= product/search Disallow: /index.php?route=product/product*&manufacturer_id= Neleisti: /admin Neleisti: /catalog Neleisti: /sistema Neleisti: /*?sort= Neleisti: /*&sort= Neleisti: /*?order= Neleisti: /*&order= Neleisti: /*?limit= Neleisti: /*&limit= Neleisti: /*?filter_name= Neleisti: /*&filter_name= Neleisti: /*?filter_sub_category= Neleisti: /*&filter_sub_category= Neleisti: /*? filter_description= Neleisti: /*&filter_description= Neleisti: /*compa re-products Disallow: /*paieška Neleisti: /*krepšelis Neleisti: /*checkout Disallow: /*prisijungti Neleisti: /*atsijungti Neleisti: /*vaučeriai Neleisti: /*norų sąrašas Neleisti: /*mano paskyra Neleisti: /*užsakyti -istorija Neleisti: /*naujienlaiškis Disallow: /*return-add Disallow: /*forgot-password Disallow: /*atsisiuntimai Disallow: /*returns Disallow: /*transactions Disallow: /*sukurti paskyrą Neleisti: /*pasikartojantis Neleisti: /*Address-book Disallow: /*reward-points Disallow: /*affiliate-forgot-password Disallow: /*create-affiliate-account Neleisti: /*affiliate-login Disallow: /*filter_tag= Neleisti: /*?filter_tag= Neleisti : /*brands Disallow: /*specials Disallow: /*simpleregister Neleisti: /*simplecheckout Neleisti: /*&puslapis Neleisti: /*?puslapis*& Leisti: /*?puslapis Leisti: /catalog/view/javascript/ Leisti: / katalogas/view/theme/*/ Clean-Param: puslapis / Clean-Param: utm_source&utm_medium&utm_campaign / Svetainės schema: http://site.com/sitemap.xml #pakeiskite savo svetainės schemos adresu

ROBOTS.TXT, skirtas Joomla!

Joomla administratoriaus skydelyje nėra įmontuoto įrankio robots.txt nustatyti, todėl failą galima pasiekti tik naudojant FTP.

Toliau pateiktas pavyzdys gali būti naudojamas kaip robots.txt paleidiklis Joomla svetainėms, kuriose įjungtas SEF, tačiau jis nėra universalus ir jį reikia pritaikyti atsižvelgiant į svetainę.


Paaiškinimai:

  1. direktyvose Leisti yra keliai į stilių, scenarijų, paveikslėlių failus: norint teisingai indeksuoti svetainę, būtina, kad jie būtų prieinami robotams;
  2. skirstymas į taisykles, skirtas skirtingiems agentams, atsiranda dėl to, kad „Google“ nepalaiko „Clean-param“ direktyvos;
Vartotojo agentas: Yandex Disallow: /*% Neleisti: /administratorius/ Neleisti: /bin/ Neleisti: /cache/ Neleisti: /cli/ Neleisti: /components/ Neleisti: /įeina/ Neleisti: /diegimas/ Neleisti: /kalba/ Neleisti: /layouts/ Neleisti: /libraries/ Neleisti: /logs/ Neleisti: /log/ Neleisti: /tmp/ Neleisti: /xmlrpc/ Neleisti: /plugins/ Neleisti: /modules/ Neleisti: /komponentas/ Neleisti: /search* Neleisti: /*mailto/ Leisti: /*.css?*$ Leisti: /*.less?*$ Leisti: /*.js?*$ Leisti: /*.jpg?*$ Leisti: /*.png?* $ Leisti: /*.gif?*$ Leisti: /templates/*.css Leisti: /templates/*.less Leisti: /templates/*.js Leisti: /components/*.css Leisti: /components/*.less Leisti: /media/*.js Leisti: /media/*.css Leisti: /media/*.less Leisti: /index.php?*view=sitemap* #open sitemap Clean-param: searchword / Clean-param: limit&limitstart / Clean-param: raktažodis / Vartotojo priemonė: * Neleisti: /*% Neleisti: /administratorius/ Neleisti: /bin/ Neleisti: /cache/ Neleisti: /cli/ Neleisti: /components/ Neleisti: /includes/ Neleisti: / įdiegti ion/ Neleisti: /kalba/ Neleisti: /layouts/ Neleisti: /bibliotekos/ Neleisti: /logs/ Neleisti: /log/ Neleisti: /tmp/ Neleisti: /xmlrpc/ Neleisti: /plugins/ Neleisti: /moduliai/ Neleisti: / komponentas/ Neleisti: /search* Neleisti: /*mailto/ Neleisti: /*paieškos žodis Neleisti: /*raktinis žodis Leisti: /*.css?*$ Leisti: /*.less?*$ Leisti: /*.js?*$ Leisti: /*.jpg?*$ Leisti: /*.png?*$ Leisti: /*.gif?*$ Leisti: /templates/*.css Leisti: /templates/*.less Leisti: /templates/*. js Leisti: /components/*.css Leisti: /components/*.less Leisti: /media/*.js Leisti: /media/*.css Leisti: /media/*.less Leisti: /index.php?*view =svetainės schema* #atidaryti svetainės schemą Svetainės schema: http://jūsų_svetainės schemos_adresas

Pagrindinių agentų sąrašas

Botas Funkcija
Googlebot Pagrindinis „Google“ indeksavimo robotas
„Googlebot“ naujienos Google naujienos
Googlebot vaizdas „Google“ nuotraukos
„Googlebot“ vaizdo įrašas vaizdo įrašą
Mediapartners-Google
žiniasklaidos partneriai Google Adsense, Google Adsense mobiliesiems
AdsBot-Google nukreipimo puslapio kokybės patikrinimas
AdsBot-Google-Mobile-Apps Google Robot for Apps
„YandexBot“. Pagrindinis „Yandex“ indeksavimo robotas
„YandexImages“. „Yandex.Images“.
„YandexVideo“. Yandex.Video
„YandexMedia“. daugialypės terpės duomenis
„Yandex“ dienoraščiai tinklaraščio paieškos robotas
YandexAddurl robotas pasiekia puslapį, kai jis pridedamas naudojant formą „Pridėti URL“.
„YandexFavicons“. robotas, indeksuojantis svetainės piktogramas (favicon)
„YandexDirect“. Yandex.Direct
„YandexMetrika“. Yandex.Metrica
„Yandex“ katalogas Yandex. Katalogas
„YandexNews“. „Yandex.News“.
YandexImageResizer mobiliųjų paslaugų robotas
bingbot pagrindinis indeksavimo robotas Bing
Slampinėti pagrindinis indeksavimo robotas Yahoo!
Mail.Ru pagrindinis indeksavimo robotas Mail.Ru

DUK

Tekstinis failas robots.txt yra viešas, todėl atminkite, kad šis failas neturėtų būti naudojamas kaip priemonė slaptai informacijai paslėpti.

Ar yra skirtumų tarp robots.txt, skirto Yandex ir Google?

Yandex ir Google paieškos sistemų robots.txt apdorojimas esminių skirtumų neturi, tačiau vis tiek reikėtų pabrėžti keletą dalykų:

  • kaip minėta anksčiau, robots.txt taisyklės yra patariamojo pobūdžio, kurias aktyviai naudoja Google.

    Robots.txt dokumentacijoje „Google“ teigia, kad „...nėra skirta užkirsti kelią tinklalapių pasirodymui Google paieškos rezultatuose. “ ir „Jei failas robots.txt neleidžia „Googlebot“ apdoroti tinklalapio, jis vis tiek gali būti pateiktas „Google“. Norėdami išskirti puslapius iš Google paieškos, turite naudoti robotų metažymes.

    „Yandex“ taip pat neįtraukia puslapių iš paieškos, vadovaudamasi robots.txt taisyklėmis.

  • „Yandex“, skirtingai nei „Google“, palaiko „Clean-param“ ir „Crawl-delay“ direktyvas.
  • „Google AdsBots“ nesilaiko „User-agent“ taisyklių: *, jiems reikia atskirų taisyklių.
  • Daugelis šaltinių nurodo, kad scenarijaus ir stiliaus failus (.js, .css) indeksuoti turėtų tik „Google“ robotai. Tiesą sakant, tai netiesa ir šie failai taip pat turėtų būti atidaryti „Yandex“: 2015 m. lapkričio 9 d. „Yandex“ indeksuodama svetaines pradėjo naudoti js ir css (įrašas oficialiame tinklaraštyje).

Kaip užblokuoti svetainės indeksavimą robots.txt?

Norėdami uždaryti svetainę Robots.txt, reikia naudoti vieną iš šių taisyklių:

Vartotojo priemonė: * Neleisti: / Vartotojo priemonė: * Neleisti: *

Galima uždaryti svetainę tik vienai paieškos sistemai (ar kelioms), o likusią indeksavimo galimybę. Norėdami tai padaryti, taisyklėje turite pakeisti direktyvą User-agent: pakeiskite * agento, kurio prieiga turėtų būti uždrausta, pavadinimu ().

Kaip atidaryti svetainę indeksavimui robots.txt?

Įprastu atveju, norint atidaryti svetainę indeksavimui robots.txt, nereikia imtis jokių veiksmų, tereikia įsitikinti, kad robots.txt yra atidaryti visi reikalingi katalogai. Pavyzdžiui, jei jūsų svetainė anksčiau buvo paslėpta nuo indeksavimo, tada iš robots.txt turėtų būti pašalintos šios taisyklės (atsižvelgiant į tai, kas naudojama):

  • neleisti: /
  • Neleisti: *

Atminkite, kad indeksavimą galima išjungti ne tik naudojant robots.txt failą, bet ir naudojant robots metažymą.

Taip pat reikėtų pažymėti, kad robots.txt failo nebuvimas svetainės šaknyje reiškia, kad svetainės indeksavimas yra leidžiamas.

Kaip robots.txt nurodyti pagrindinį svetainės veidrodį?

Šiuo metu negalima nurodyti pagrindinio veidrodžio naudojant robots.txt. Anksčiau „Yandex PS“ naudojo pagrindinio kompiuterio direktyvą, kurioje buvo nurodytas pagrindinis veidrodis, tačiau nuo 2018 m. kovo 20 d. „Yandex“ visiškai atsisakė jos naudojimo. Dabar nurodyti pagrindinį veidrodį galima tik naudojant 301 puslapio peradresavimą.

Pardavimų generatorius

Skaitymo laikas: 18 minučių

Mes atsiųsime medžiagą jums:

Medžiagoje aptariami klausimai:

  • Kokį vaidmenį robots.txt failas atlieka svetainės indeksavime?
  • Kaip išjungti svetainės ir atskirų jos puslapių indeksavimą naudojant robots.txt
  • Kokios robots.txt direktyvos naudojamos svetainės indeksavimo nustatymams
  • Kokios klaidos dažniausiai daromos kuriant robots.txt failą

Žiniatinklio išteklius paruoštas darbui: jis užpildytas aukštos kokybės unikaliais tekstais, originaliais vaizdais, patogu naršyti po skyrius, o dizainas džiugina akį. Belieka tik pristatyti savo intelektą interneto vartotojams. Tačiau su portalu pirmieji turėtų susipažinti paieškos sistemos. Pasimatymų procesas vadinamas indeksavimu, o vieną pagrindinių vaidmenų jame atlieka tekstinių failų robotai. Kad robots.txt svetainė būtų sėkmingai indeksuota, turi būti laikomasi tam tikrų specifinių reikalavimų.



Žiniatinklio išteklių variklis (TVS) yra vienas iš veiksnių, turinčių didelę įtaką paieškos vorų indeksavimo greičiui. Kodėl svarbu nukreipti tikrinimo programas tik į svarbius puslapius, kurie turėtų būti rodomi SERP?

  1. Paieškos variklio robotas peržiūri ribotą failų skaičių tam tikrame šaltinyje ir tada pereina į kitą svetainę. Jei nėra nurodytų apribojimų, paieškos voras gali pradėti indeksuoti variklio failus, kurių skaičius kartais siekia tūkstančius – robotas tiesiog neturės laiko pagrindiniam turiniui.
  2. Arba ji indeksuos visiškai skirtingus puslapius, kuriuose planuojate eiti į priekį. Dar blogiau, jei paieškos sistemos mato dubliuojantį turinį, kurio taip nekenčia, kai skirtingos nuorodos nukreipia į tą patį (arba beveik identišką) tekstą ar vaizdą.

Todėl būtina uždrausti paieškos sistemos vorams matyti per daug. Tam ir skirtas robots.txt – įprastas tekstinis failas, kurio pavadinimas rašomas mažosiomis raidėmis, nenaudojant didžiųjų raidžių. Jis sukuriamas bet kuriame teksto rengyklėje (Notepad++, SciTE, VEdit ir kt.) ir redaguojamas čia. Failas leidžia daryti įtaką svetainės indeksavimui, kurį atlieka „Yandex“ ir „Google“.

Programuotojui, kuris dar neturi pakankamai patirties, geriau pirmiausia susipažinti su teisingo failo užpildymo pavyzdžiais. Turite pasirinkti jį dominančius žiniatinklio išteklius ir naršyklės adreso juostoje įveskite site.ru/robots.txt(kur pirmoji dalis prieš „/“ yra portalo pavadinimas).

Svarbu peržiūrėti tik tas svetaines, kuriose veikia jus dominantis variklis, nes CMS aplankai, kuriems draudžiama indeksuoti, įvairiose valdymo sistemose įvardijami skirtingai. Todėl variklis tampa atskaitos tašku. Jei jūsų svetainė veikia naudojant „WordPress“, turite ieškoti tinklaraščių, veikiančių tuo pačiu varikliu; už Joomla! turės savo idealius robotus ir t.t.. Tuo pačiu metu kaip pavyzdžius patartina paimti failus iš portalų, kurie pritraukia didelį srautą iš paieškos.

Kas yra svetainių indeksavimas naudojant robots.txt



Paieškos indeksavimas– svarbiausias rodiklis, nuo kurio labai priklauso paaukštinimo sėkmė. Panašu, kad svetainė sukurta puikiai: atsižvelgiama į vartotojų užklausas, turinys viršuje, navigacija patogi, tačiau svetainė negali susidraugauti su paieškos sistemomis. Priežasčių reikia ieškoti techninėje pusėje, konkrečiai – priemonėse, kuriomis galite daryti įtaką indeksavimui.

Yra du iš jų – Sitemap.xml ir robots.txt. Svarbūs failai, kurie papildo vienas kitą ir tuo pačiu sprendžia poliarines problemas. Svetainės schemoje paieškos vorai kviečiami: „Sveiki, prašome indeksuoti visas šias skiltis“, pateikiant robotams kiekvieno indeksuotino puslapio URL ir puslapio laiką. Paskutinis atnaujinimas. Kita vertus, failas robots.txt tarnauja kaip sustojimo ženklas, neleidžiantis vorams šliaužti per bet kurią svetainės dalį.

Šiame faile ir panašiai pavadintoje „robots“ metažymoje, leidžiančioje nustatyti tikslesnius nustatymus, yra aiškių nurodymų paieškos sistemų tikrintuvams, nurodančių draudimus indeksuoti tam tikrus puslapius ar visas dalis.

Tinkamai nustatyti apribojimai geriausiai paveiks svetainės indeksavimą. Nors vis dar yra mėgėjų, manančių, kad galima leisti robotams tirti absoliučiai visus failus. Tačiau šioje situacijoje į paieškos sistemos duomenų bazę įvestų puslapių skaičius nereiškia aukštos kokybės indeksavimo. Kodėl, pavyzdžiui, robotams reikalingos administracinės ir techninės svetainės dalys ar spausdinami puslapiai (jos patogios vartotojui, o paieškos sistemos pateikiamos kaip pasikartojantis turinys)? Yra daug puslapių ir failų, kuriems robotai praleidžia laiką, tiesą sakant, veltui.

Kai voras apsilanko jūsų svetainėje, jis iš karto ieško jam skirto failo robots.txt. Neradęs dokumento arba radęs jį netinkamos formos, botas pradeda veikti savarankiškai, indeksuodamas pažodžiui viską iš eilės pagal jam tik jam žinomą algoritmą. Tai nebūtinai prasideda nuo naujo turinio, apie kurį pirmiausia norėtumėte pranešti naudotojams. Geriausiu atveju indeksavimas tiesiog užsitęs, blogiausiu atveju taip pat gali būti baudžiama už pasikartojančius duomenis.

Turėdami tinkamą robotų tekstinį failą išvengsite daugelio problemų.



Yra trys būdai, kaip neleisti indeksuoti žiniatinklio išteklių skilčių ar puslapių nuo taško iki aukšto lygio:

  • "Noindex" žyma ir atributas yra visiškai skirtingi kodo elementai, skirti skirtingiems tikslams, tačiau yra vienodai vertingi SEO pagalbininkai. Klausimas apie jų apdorojimą paieškos sistemomis tapo beveik filosofinis, tačiau faktas išlieka: noindex leidžia paslėpti dalį teksto nuo robotų (tai nėra html standartuose, bet tikrai veikia Yandex), o nofollow draudžia sekti. nuorodą ir jos svorį (įtraukta į standartinę klasifikaciją, galioja visoms paieškos sistemoms).
  • Robotų metažyma konkrečiame puslapyje turi įtakos tam konkrečiam puslapiui. Žemiau pažvelgsime į tai, kaip jame nurodyti draudimą indeksuoti ir sekti dokumente esančias nuorodas. Meta žyma yra visiškai galiojanti, sistemos atsižvelgia (arba bando atsižvelgti) į nurodytus duomenis. Be to, Google, rinkdamasi tarp robotų – failo formos svetainės šakniniame kataloge ir puslapio metažymos – pirmenybę teikia pastarajai.
  • robots.txt – šis metodas yra visiškai tinkamas, jį palaiko visos paieškos sistemos ir kiti žiniatinklyje gyvenantys robotai. Nepaisant to, jo nurodymai ne visada laikomi įsakymu, kurį reikia vykdyti (aukščiau buvo pasakyta apie „Google“ neteisėtumą). Faile nurodytos indeksavimo taisyklės galioja visai svetainei: atskiriems puslapiams, katalogams, skyriams.

Remdamiesi pavyzdžiais, apsvarstykite draudimą indeksuoti portalą ir jo dalis.



Yra daug priežasčių, kodėl vorai neleidžia indeksuoti svetainės. Jis vis dar kuriamas, perkuriamas ar atnaujinamas, išteklius yra eksperimentinė platforma, neskirta vartotojams.

Svetainės indeksavimą robots.txt gali užblokuoti visose paieškos sistemose, atskiram robotui arba ji gali būti uždrausta visiems, išskyrus vieną.

2. Kaip išjungti robots.txt svetainės indeksavimą atskiruose puslapiuose

Jei ištekliai yra maži, vargu ar jums reikės slėpti puslapius (ką čia slėpti vizitinių kortelių svetainėje), o dideli portalai, kuriuose yra daug informacijos apie paslaugą, neapsieina be draudimų. Būtina uždaryti nuo robotų:

  • administracinė komisija;
  • paslaugų katalogai;
  • svetainės paieška;
  • Asmeninė sritis;
  • registracijos formos;
  • Užsakymo formos;
  • prekių palyginimas;
  • mėgstamiausi;
  • krepšelis;
  • captcha;
  • Iššokantieji langai ir reklamjuostės;
  • seanso ID.

Nesvarbios naujienos ir įvykiai, kalendoriaus įvykiai, akcijos, specialūs pasiūlymai – tai vadinamieji šiukšlių puslapiai, kuriuos geriausia paslėpti. Taip pat geriau uždaryti pasenusį turinį informacijos svetainėse, kad būtų išvengta neigiamų paieškos sistemų įvertinimų. Stenkitės, kad atnaujinimai būtų reguliarūs – tada jums nereikės žaisti slėpynių su paieškos sistemomis.

Draudimas robotams indeksuoti:



Robots.txt galite nurodyti visiškus arba pasirinktinius draudimus indeksuoti aplankus, failus, scenarijus, utm žymas, kurios gali būti užsakymas tiek atskiriems paieškos vorams, tiek visų sistemų robotams.

Indeksavimo draudimas:

Robotų metažyma yra alternatyva to paties pavadinimo tekstiniam failui. Išrašytas į pirminis kodasžiniatinklio išteklius (faile index.html), patalpintas į konteinerį . Būtina išsiaiškinti, kas negali indeksuoti svetainės. Jei draudimas yra bendras, robotai; jei neleidžiama įvesti tik vienos tikrinimo programos, turite nurodyti jos pavadinimą (Google - Googlebot, "Yandex" - Yandex).

Yra dvi metažymos rašymo parinktys.

Atributas „content“ gali turėti šias reikšmes:

  • nėra – indeksavimo draudimas (įskaitant noindex ir nofollow);
  • noindex – turinio indeksavimo draudimas;
  • nofollow – uždrausti indeksuoti nuorodas;
  • sekti – leidimas indeksuoti nuorodas;
  • index – leisti indeksuoti turinį;
  • visi – leisti indeksuoti turinį ir nuorodas.

Skirtingais atvejais reikia naudoti reikšmių derinius. Pavyzdžiui, jei išjungiate turinio indeksavimą, turite leisti robotams indeksuoti nuorodas: content="noindex, follow".


Uždarius svetainę iš paieškos sistemų naudojant metažymes, savininkui nereikia kurti robots.txt šaknyje.

Reikia atsiminti, kad indeksavimo klausimu daug kas priklauso nuo voro „mandagumo“. Jei jis yra „išsilavinęs“, tuomet bus aktualios meistro nustatytos taisyklės. Bet apskritai robotų direktyvų (tiek failo, tiek metažymės) galiojimas nereiškia šimtaprocentinio jų laikymosi. Net ir paieškos sistemoms ne kiekvienas draudimas yra geležinis, o apie įvairius turinio vagis kalbėti nereikia. Iš pradžių jie sukonfigūruoti taip, kad apeitų visus draudimus.

Be to, ne visi tikrintuvai domisi turiniu. Vieniems svarbios tik nuorodos, kitiems – mikro žymėjimas, treti tikrina veidrodines svetainių kopijas ir pan. Tuo pačiu metu sistemos vorai kaip virusai visiškai neropščiasi po svetainę, o nuotoliniu būdu prašo reikalingų puslapių. Todėl dažniausiai jie nesukelia problemų išteklių savininkams. Bet jei projektuojant robotą buvo padaryta klaidų arba susiklostė kokia nors išorinė nestandartinė situacija, tikrintuvas gali gerokai įkelti indeksuotą portalą.



Naudojamos komandos:

1. „Vartotojo agentas:“

Pagrindinės failo robots.txt gairės. Naudojamas specifikacijai. Įvedamas boto pavadinimas, dėl kurio bus pateiktos tolesnės instrukcijos. Pavyzdžiui:

  • Vartotojo agentas: Googlebot- pagrindinė direktyva šioje formoje reiškia, kad visos šios komandos yra susijusios tik su Google indeksavimo robotu;
  • Vartotojo agentas: Yandex- numatyti leidimai ir draudimai yra skirti Yandex robotui.

Įrašymas Vartotojo atstovas: * reiškia nuorodas į visas kitas paieškos sistemas (specialusis simbolis „*“ reiškia „bet kokį tekstą“). Jei atsižvelgsime į aukščiau pateiktą pavyzdį, žvaigždutė žymės visas paieškos sistemas, išskyrus „Yandex“. Kadangi „Google“ visiškai atsisako asmeninio patrauklumo, pasitenkindama bendru pavadinimu „bet koks tekstas“.


Dažniausiai naudojama indeksavimo išjungimo komanda. Nurodydamas robotą „Vartotojo agentas:“, programuotojas nurodo, kad jis neleidžia robotui indeksuoti dalies svetainės ar visos svetainės (šiuo atveju nurodomas kelias nuo šaknies). Paieškos voras tai supranta išplėsdamas komandą. Mes taip pat išsiaiškinsime.

Vartotojo agentas: Yandex

Jei robots.txt yra toks įrašas, tada „Yandex“ paieškos robotas supranta, kad negali indeksuoti žiniatinklio išteklių kaip tokio: po draudžiamojo ženklo „/“ nėra paaiškinimų.

Vartotojo agentas: Yandex

Neleisti: /wp-admin

Šiame pavyzdyje yra paaiškinimų: draudimas indeksuoti galioja tik sistemos aplankui wp-admin(svetainę palaiko „WordPress“). „Yandex“ robotas mato komandą ir neindeksuoja nurodyto aplanko.

Vartotojo agentas: Yandex

Neleisti: /wp-content/themes

Ši direktyva nurodo tikrintuvui, kad ji gali indeksuoti visą turinį " wp-turinys", su išimtimi " temos“, ką robotas padarys.

Vartotojo agentas: Yandex

Neleisti: /index$

Pasirodo kitas svarbus simbolis „$“, leidžiantis lanksčiai taikyti draudimus. Tokiu atveju robotas supranta, kad neleidžiama indeksuoti puslapių, kurių nuorodose yra raidžių seka “ indeksas“. Atskiras failas tuo pačiu pavadinimu " index.php» Galite indeksuoti, o robotas tai aiškiai supranta.

Galite įvesti draudimą indeksuoti atskirus šaltinio puslapius, kurių nuorodose yra tam tikrų simbolių. Pavyzdžiui:

Vartotojo agentas: Yandex

„Yandex“ robotas skaito komandą taip: neindeksuokite visų puslapių, kurių URL yra „&“ tarp kitų simbolių.

Vartotojo agentas: Yandex

Tokiu atveju robotas supranta, kad puslapių indeksuoti negalima tik tuo atveju, jei jų adresai baigiasi raide „&“.

Kodėl neįmanoma indeksuoti sistemos failų, archyvų, asmeninių vartotojų duomenų, manome, aišku – tai ne diskusijų tema. Visiškai nereikia paieškos robotui gaišti laiko tikrinant duomenis, kurių niekam nereikia. Tačiau dėl draudimų indeksuoti puslapius daugelis žmonių užduoda klausimus: kokia yra draudžiamųjų direktyvų tikslingumo priežastis? Patyrę kūrėjai gali nurodyti daugybę skirtingų indeksavimo tabu priežasčių, tačiau pagrindinė iš jų bus būtinybė paieškoje atsikratyti pasikartojančių puslapių. Jei tokių yra, tai labai neigiamai veikia reitingą, tinkamumą ir kitus svarbius aspektus. Todėl vidinis SEO optimizavimas neįsivaizduojamas be robots.txt, kuriame su dublikatais susidoroti gana paprasta: tereikia teisingai panaudoti direktyvą „Disallow:“ ir specialiuosius simbolius.

3. „Leisti:“



Magic robots failas leidžia ne tik paslėpti nereikalingus dalykus nuo paieškos sistemų, bet ir atverti svetainę indeksavimui. robots.txt su komanda " leisti:“, nurodo paieškos sistemos vorams, kuriuos žiniatinklio šaltinio elementus reikia įtraukti į duomenų bazę. Gelbsti tie patys paaiškinimai, kaip ir ankstesnėje komandoje, tik dabar jie išplečia skaitytuvų leidimų spektrą.

Paimkime vieną iš ankstesnėje pastraipoje pateiktų pavyzdžių ir pažiūrėkime, kaip situacija pasikeičia:

Vartotojo agentas: Yandex

Leisti: /wp-admin

Jei „Disallow:“ reiškė draudimą, tai dabar sistemos aplanko turinys wp-admin tampa „Yandex“ nuosavybe teisiniai pagrindai ir gali būti rodomi paieškos rezultatuose.

Tačiau praktikoje ši komanda retai naudojama. Tam yra visiškai logiškas paaiškinimas: nebuvimas neleisti, pažymėtas "Disallow:", leidžia paieškos vorams laikyti visą svetainę kaip leidžiamą indeksuoti. Tam nereikia atskiros direktyvos. Jei yra draudimų, turinį, kuriam jie nepatenka, pagal nutylėjimą taip pat indeksuoja robotai.



Dar dvi svarbios komandos paieškos vorams. “ šeimininkas:“ – tikslinė direktyva vietinei paieškos sistemai. „Yandex“ juo vadovaujasi nustatydama pagrindinį žiniatinklio šaltinio veidrodį, kurio adresas (su www arba be jo) dalyvaus paieškoje.

Apsvarstykite PR-CY.ru pavyzdį:

Vartotojo agentas: Yandex

Direktyva naudojama siekiant išvengti išteklių turinio dubliavimo.

komanda" svetainės schema:» padeda robotams teisingai pereiti prie svetainės žemėlapio – specialaus failo, kuriame pateikiama puslapių hierarchinė struktūra, turinio tipas, informacija apie atnaujinimų dažnumą ir kt. Paieškos vorų navigatorius yra failas sitemap.xml(WordPress variklyje) sitemap.xml.gz), kurią jie turi pasiekti kuo greičiau. Tada indeksavimas paspartins ne tik svetainės žemėlapį, bet ir visus kitus puslapius, kurie nesulėtės, atsidurdami paieškos rezultatuose.

Hipotetinis pavyzdys:

Komandos, kurios nurodytos robotų teksto faile ir kurias priima „Yandex“:

direktyva

Ką jis daro

Pavadina paieškos vorą, kuriam parašytos faile nurodytos taisyklės.

Nurodo draudimą robotams indeksuoti svetainę, jos skyrius ar atskirus puslapius.

Nurodo kelią į svetainės schemą, priglobtą žiniatinklio šaltinyje.

Yra tokia paieškos voro informacija: Puslapio URL yra neindeksuojamų parametrų (pvz., UTM žymų).

Suteikia leidimą indeksuoti žiniatinklio šaltinio skyrius ir puslapius.

Leidžia atidėti nuskaitymą. Nurodo mažiausią laiką (sekundėmis) tikrintuvui tarp puslapio įkėlimų: patikrinęs vieną, voras laukia nurodytą laiką, kol paprašys kito sąrašo puslapio.

*Reikalinga direktyva.

Dažniausiai prašomos komandos Neleisti, Svetainės schema ir Clean-param. Pažiūrėkime į pavyzdį:

  • Vartotojo agentas: * #nurodantis robotus, kuriems skirtos šios komandos.
  • Neleisti: /bin/ # Neleiskite indeksuotojams nuskaityti nuorodų iš pirkinių krepšelio.
  • Neleisti: /search/ # neleisti indeksuoti paieškos puslapių svetainėje.
  • Neleisti: /admin/ # neleisti ieškoti administratoriaus skydelyje.
  • Svetainės schema: http://example.com/sitemap # nurodo kelią į svetainės schemą tikrinimo programai.
  • Clean-param: ref /some_dir/get_book.pl

Prisiminkite, kad aukščiau pateikti direktyvų aiškinimai yra aktualūs „Yandex“ – kitų paieškos sistemų vorai komandas gali skaityti skirtingai.



Sukurta teorinė bazė – laikas sukurti idealius (na, arba labai artimus jai) tekstinių failų robotus. Jei svetainė veikia su varikliu (Joomla!, WordPress ir kt.), ji tiekiama su daugybe objektų, be kurių normalus veikimas neįmanomas. Tačiau tokiuose failuose nėra informacinio komponento. Daugumoje TVS turinio saugykla yra duomenų bazė, tačiau robotai negali jos pasiekti. Ir jie toliau ieško turinio variklio failuose. Atitinkamai, indeksavimui skirtas laikas švaistomas.

Labai svarbus Siekite unikalaus turinio jūsų žiniatinklio šaltinis , atidžiai stebėti dublikatų atsiradimą. Net ir dalinis svetainės informacijos turinio pakartojimas neturi geriausio poveikio jos įvertinimui paieškos sistemoms. Jei tą patį turinį galima rasti skirtinguose URL adresuose, jis taip pat laikomas pasikartojančiu.

Dvi pagrindinės paieškos sistemos – „Yandex“ ir „Google“ – neišvengiamai atskleis dubliavimąsi tikrinimo metu ir dirbtinai sumažins žiniatinklio resurso poziciją paieškos rezultatuose.

Nepamirškite puikaus įrankio, padėsiančio susidoroti su dubliavimu – kanoninė metažyma. Įrašydamas kitą URL, žiniatinklio valdytojas nurodo paieškos vorui pageidaujamą indeksavimo puslapį, kuris bus kanoninis.

Pavyzdžiui, puslapyje su puslapiais https://ktonanovenkogo.ru/page/2 yra kanoninė metažyma, nukreipianti į https://ktonanovenkogo.ru , kuri pašalina problemas dėl pasikartojančių antraščių.

Taigi, mes sujungiame visas įgytas teorines žinias ir pereiname prie praktinio jų įgyvendinimo robots.txt jūsų žiniatinklio šaltiniui, kurio specifiką būtina atsižvelgti. Ko reikia šiam svarbiam failui:

  • teksto rengyklė (Notepad ar bet kuri kita), skirta rašyti ir redaguoti robotus;
  • testuotojas, kuris padės surasti klaidas sukurtame dokumente ir patikrins indeksavimo draudimų teisingumą (pavyzdžiui, Yandex.Webmaster);
  • FTP klientas, kuris supaprastina baigto ir patikrinto failo įkėlimą į žiniatinklio šaltinio šaknį (jei svetainė veikia „WordPress“, tada robotai dažniausiai saugomi sistemos aplanke Public_html).

Pirmas dalykas, kurį atlieka paieškos tikrintuvas, yra paprašyti specialiai jai sukurto failo, esančio URL „/robots.txt“.

Žiniatinklio šaltinyje gali būti vienas failas „/robots.txt“. Nereikia dėti jo į pasirinktinius pakatalogius, kuriuose vorai vis tiek neieškos dokumento. Jei norite sukurti robotus pakatalogiuose, turite atsiminti, kad vis tiek turite juos surinkti į vieną failą šakniniame aplanke. Tikslingiau naudoti metažymą „Robotai“.

URL skiriamos didžiosios ir mažosios raidės – atminkite, kad „/robots.txt“ nėra didžiosiomis raidėmis.

Dabar reikia apsišarvuoti kantrybe ir laukti paieškos vorų, kurie pirmiausia išstudijuos Jūsų tinkamai sukurtą, pataisys robots.txt ir pradės naršyti Jūsų interneto portalą.

Teisingas robots.txt nustatymas, kad būtų galima indeksuoti svetaines skirtinguose varikliuose

Jeigu turite komercinių išteklių, tuomet robotų failo kūrimą reikėtų patikėti patyrusiam SEO specialistui. Tai ypač svarbu, jei projektas yra sudėtingas. Tiems, kurie nėra pasirengę priimti to, kas buvo pasakyta kaip aksioma, paaiškinkime: šis svarbus tekstinis failas turi rimtą poveikį paieškos sistemų indeksavimui ištekliai, nuo jo teisingumo priklauso svetainės apdorojimo robotais greitis. , o robotų turinys turi savo specifiką. Kūrėjas turi atsižvelgti į svetainės tipą (tinklaraštį, internetinę parduotuvę ir t. t.), variklį, struktūrines ypatybes ir kitus svarbius aspektus, kurių naujokas meistras gali nepadaryti.

Tuo pačiu reikia priimti svarbiausius sprendimus: ką uždaryti nuo tikrinimo, ką palikti matomą tikrintojams, kad puslapiai atsirastų paieškoje. Nepatyrusiam SEO bus labai sunku susidoroti su tokia darbų apimtimi.


Vartotojo atstovas:* # Bendrosios taisyklės robotams, išskyrus „Yandex“ ir „Google“,

Neleisti: /cgi-bin # prieglobos aplankas
neleisti: /? # visi užklausos parametrai pagrindiniame
Neleisti: /wp- # visi WP failai: /wp-json/, /wp-includes, /wp-content/plugins
Neleisti: /wp/ # jei yra /wp/ pakatalogis, kuriame įdiegta TVS (jei ne, # taisyklę galima pašalinti)
Neleisti: *?s= # paieška
Neleisti: *&s= # paieška
Neleisti: /search/ # paieška
Neleisti: /autorius/ # archyvaras
Neleisti: /users/ # archyvuotojai
Disallow: */trackback # trackbacks, pranešimai komentaruose apie atidarytą # nuorodą į straipsnį
Neleisti: */feed # visi kanalai
Neleisti: */rss # rssfeed
Neleisti: */embed # visi įterpimai
Disallow: */wlwmanifest.xml # Windows Live Writer manifesto xml failas (gali būti pašalintas, jei nenaudojamas)
Neleisti: /xmlrpc.php # WordPress API failas
Neleisti: *utm*= # nuorodos su utm žymomis
Neleisti: *openstat= # pažymėtos nuorodossopenstat
Leisti: */įkelia # atidaryti aplanką su įkeliamais failais
Svetainės schema: http://site.ru/sitemap.xml # svetainės schemos adresas

Vartotojo agentas: „GoogleBot“ ir # taisyklių „Google“.

Neleisti: /cgi-bin

Neleisti: /wp-
Neleisti: /wp/
Neleisti: *?s=
Neleisti: *&s=
Neleisti: /search/
Neleisti: /autorius/
Neleisti: /naudotojai/
Neleisti: */trackback
Neleisti: */feed
Neleisti: */rss
Neleisti: */embed
Neleisti: */wlwmanifest.xml
Neleisti: /xmlrpc.php
Neleisti: *utm*=
Neleisti: *openstat=
Leisti: */uploadsAllow: /*/*.js # atidaryti js scenarijus viduje /wp- (/*/ – pirmenybė)
Leisti: /*/*.css # atidaryti css failus /wp- (/*/ – prioritetas)
Leisti: /wp-*.png # vaizdų papildiniuose, talpyklos aplanke ir kt.
Leisti: /wp-*.jpg # vaizdų papildiniuose, talpyklos aplanke ir kt.
Leisti: /wp-*.jpeg # paveikslėlių papildiniuose, talpyklos aplanke ir kt.
Leisti: /wp-*.gif # paveikslėlių papildiniuose, talpyklos aplanke ir kt.
Leisti: /wp-admin/admin-ajax.php #, kurį naudoja papildiniai, kad neužblokuotų JS ir CSS

Vartotojo agentas: „Yandex“ # taisyklės „Yandex

Neleisti: /cgi-bin

Neleisti: /wp-
Neleisti: /wp/
Neleisti: *?s=
Neleisti: *&s=
Neleisti: /search/
Neleisti: /autorius/
Neleisti: /naudotojai/
Neleisti: */trackback
Neleisti: */feed
Neleisti: */rss
Neleisti: */embed
Neleisti: */wlwmanifest.xml
Neleisti: /xmlrpc.php
Leisti: */įkėlimai
Leisti: /*/*.js
Leisti: /*/*.css
Leisti: /wp-*.png
Leisti: /wp-*.jpg
Leisti: /wp-*.jpeg
Leisti: /wp-*.gif
Leisti: /wp-admin/admin-ajax.php
„Clean-Param“: utm_source&utm_medium&utm_campaign # „Yandex“ rekomenduoja neuždaryti # nuo indeksavimo, o ištrinti žymos parametrus, # „Google“ nepalaiko tokių taisyklių
Clean-Param: openstat # panašus



Vartotojo atstovas: *
Neleisti: /administrator/
Neleisti: /cache/
Neleisti: /includes/
Neleisti: /installation/
Neleisti: /kalba/
Neleisti: /bibliotekos/
Neleisti: /media/
Neleisti: /modules/
Neleisti: /plugins/
Neleisti: /templates/
Neleisti: /tmp/
Neleisti: /xmlrpc/
Svetainės schema: http://jūsų XML svetainės schemos kelias



Vartotojo atstovas: *
Neleisti: /*index.php$
Neleisti: /bitrix/
Neleisti: /auth/
Neleisti: /asmeninis/
Neleisti: /įkelti/
Neleisti: /search/
Neleisti: /*/search/
Neleisti: /*/slide_show/
Neleisti: /*/gallery/*order=*
Neleisti: /*?print=
Neleisti: /*&print=
Neleisti: /*register=
Neleisti: /*forgot_password=
Neleisti: /*change_password=
Neleisti: /*login=
Neleisti: /*atsijungti=
Neleisti: /*auth=
Neleisti: /*?action=
Neleisti: /*action=ADD_TO_COMPARE_LIST
Neleisti: /*action=DELETE_FROM_COMPARE_LIST
Neleisti: /*action=ADD2BASKET
Neleisti: /*action=BUY
Neleisti: /*bitrix_*=
Neleisti: /*backurl=*
Neleisti: /*BACKURL=*
Neleisti: /*back_url=*
Neleisti: /*BACK_URL=*
Neleisti: /*back_url_admin=*
Neleisti: /*print_course=Y
Neleisti: /*COURSE_ID=
Neleisti: /*?COURSE_ID=
Neleisti: /*?PAGEN
Neleisti: /*PAGEN_1=
Neleisti: /*PAGEN_2=
Neleisti: /*PAGEN_3=
Neleisti: /*PAGEN_4=
Neleisti: /*PAGEN_5=
Neleisti: /*PAGEN_6=
Neleisti: /*PAGEN_7=


Neleisti: /*PAGE_NAME=paieška
Neleisti: /*PAGE_NAME=user_post
Neleisti: /*PAGE_NAME=detail_slide_show
Neleisti: /*SHOWALL
Neleisti: /*show_all=
Svetainės schema: http://jūsų XML svetainės schemos kelias



Vartotojo atstovas: *
Neleisti: /assets/cache/
Neleisti: /assets/docs/
Neleisti: /assets/export/
Neleisti: /assets/import/
Neleisti: /assets/modules/
Neleisti: /assets/plugins/
Neleisti: /assets/snippets/
Neleisti: /install/
Neleisti: /manager/
Svetainės schema: http://site.ru/sitemap.xml

5. Robots.txt, Drupal pavyzdys

Vartotojo atstovas: *
Neleisti: /duomenų bazė/
Neleisti: /includes/
Neleisti: /misc/
Neleisti: /modules/
Neleisti: /sites/
Neleisti: /temos/
Neleisti: /scripts/
Neleisti: /atnaujinimai/
Neleisti: /profiles/
Neleisti: /profile
Neleisti: /profile/*
Neleisti: /xmlrpc.php
Neleisti: /cron.php
Neleisti: /update.php
Neleisti: /install.php
Neleisti: /index.php
Neleisti: /admin/
Neleisti: /komentuoti/atsakyti/
Neleisti: /susisiekti/
Neleisti: /atsijungti/
Neleisti: /search/
Neleisti: /user/register/
Neleisti: /vartotojas/slaptažodis/
Neleisti: *registruotis*
Neleisti: *prisijungti*
Neleisti: /geriausiai įvertintas-
Neleisti: /messages/
Neleisti: /book/export/
Neleisti: /user2userpoints/
Neleisti: /mano vartotojo taškai/
Neleisti: /tagadelic/
Neleisti: /referral/
Neleisti: /aggregator/
Neleisti: /files/pin/
Neleisti: /jūsų balsai
Neleisti: /comments/recent
Neleisti: /*/redaguoti/
Neleisti: /*/delete/
Neleisti: /*/export/html/
Neleisti: /taxonomy/term/*/0$
Neleisti: /*/redaguoti$
Neleisti: /*/outline$
Neleisti: /*/revisions$
Neleisti: /*/contact$
Neleisti: /*downloadpipe
Neleisti: /node$
Neleisti: /node/*/track$

Neleisti: /*?page=0
Neleisti: /*skiltis
Neleisti: /* užsakymas
Neleisti: /*?rūšiuoti*
Neleisti: /*&rūšiuoti*
Neleisti: /*votesupdown
Neleisti: /*kalendorius
Neleisti: /*index.php
Leisti: /*?page=

Svetainės schema: http://kelias į jūsų XML svetainės schemą

DĖMESIO! Svetainės turinio valdymo sistemos nuolat atnaujinamos, todėl gali keistis ir robotų failas: gali būti uždaryti papildomi puslapiai ar failų grupės arba, atvirkščiai, atverti indeksavimui. Tai priklauso nuo žiniatinklio išteklių tikslų ir dabartinių variklio pakeitimų.

7 dažniausios klaidos indeksuojant svetainę naudojant robots.txt



Klaidos, padarytos kuriant failą, sukelia robots.txt netinkamą veikimą arba netgi neleidžia jam veikti.

Kokios galimos klaidos:

  • Logiška (pažymėtos taisyklės susiduria). Šio tipo klaidą galite nustatyti testuodami Yandex.Webmaster ir GoogleRobotsTestingTool.
  • Sintaksė (direktyvos rašomos su klaidomis).

Dažniau nei kiti yra:

  • įraše neskiriamos didžiosios ir mažosios raidės;
  • naudojamos didžiosios raidės;
  • visos taisyklės surašytos vienoje eilutėje;
  • taisyklės nėra atskirtos tuščia eilute;
  • direktyvoje nurodant skaitytuvą;
  • kiekvienas aplanko failas, kurį reikia uždaryti, pateikiamas atskirai;
  • trūksta privalomos Disallow direktyvos.

Apsvarstykite dažniausiai pasitaikančias klaidas, jų pasekmes ir, svarbiausia, priemones, kaip jų išvengti savo žiniatinklio šaltinyje.

  1. Failo vieta. Failo URL turi būti tokios formos: http://site.ru/robots.txt (vietoj site.ru pateikiamas jūsų svetainės adresas). Failas robots.txt yra išimtinai ištekliaus šakniniame aplanke – kitu atveju paieškos vorai jo nematys. Nebūdami uždrausti, jie nuskaitys visą svetainę ir net tuos failus bei aplankus, kuriuos norėtumėte paslėpti nuo paieškos rezultatų.
  2. Skirta didžiosioms ir mažosioms raidėms. Nėra didžiųjų raidžių. http://site.ru/Robots.txt yra neteisingas. Tokiu atveju paieškos variklio robotas kaip serverio atsakymą gaus 404 (klaidos puslapis) arba 301 (peradresavimas). Nuskaitymas vyks neatsižvelgiant į robotuose nurodytas direktyvas. Jei viskas bus padaryta teisingai, serverio atsakymas yra kodas 200, kuriame resurso savininkas galės valdyti paieškos robotą. Vienintelė teisinga parinktis yra „robots.txt“.
  3. Atidarymas naršyklės puslapyje. Paieškos vorai galės teisingai perskaityti ir naudoti failo robots.txt direktyvas tik tada, kai jis bus atidarytas naršyklės puslapyje. Svarbu atkreipti ypatingą dėmesį į variklio serverio pusę. Kartais tokio tipo failą siūloma atsisiųsti. Tada turėtumėte nustatyti ekraną – kitu atveju robotai naršys svetainėje taip, kaip nori.
  4. Draudimo ir leidimų klaidos.„Disallow“ – direktyva, draudžianti nuskaityti svetainę ar jos dalis. Pavyzdžiui, turite neleisti robotams indeksuoti puslapių su paieškos rezultatais svetainėje. Tokiu atveju faile robots.txt turi būti eilutė: „Disallow: /search/“. Tikrinimo programa supranta, kad visi puslapiai, kuriuose vyksta „paieška“, yra draudžiami tikrinti. Visiškai uždraudus indeksuoti, rašoma Disallow: /. Tačiau leidžianti direktyva „Leisti“ šiuo atveju nėra būtina. Nors neretai komanda rašoma taip: „Leisti:“, darant prielaidą, kad robotas tai suvoks kaip leidimą indeksuoti „nieko“. Galite leisti indeksuoti visą svetainę naudodami direktyvą „Allow: /“. Nereikia painioti komandų. Dėl to vorai daro tikrinimo klaidas, kurios galiausiai prideda puslapių, kurie visiškai nėra tie, kuriuos reikėtų reklamuoti.
  5. direktyvų atitikimas. Neleisti: ir Leisti: tam pačiam puslapiui randami robotai, todėl tikrintuvai suteikia pirmenybę leisti direktyvai. Pavyzdžiui, iš pradžių skaidinys buvo atidarytas vorams nuskaityti. Tada kažkodėl buvo nuspręsta tai paslėpti nuo indekso. Natūralu, kad prie robots.txt failo pridedamas draudimas, tačiau žiniatinklio valdytojas pamiršta pašalinti leidimą. Paieškos sistemoms draudimas nėra toks svarbus: jie nori indeksuoti puslapį apeinant komandas, kurios išskiria viena kitą.
  6. Priimančiojo kompiuterio direktyva:. Atpažįsta tik „Yandex“ vorai ir naudojamas pagrindiniam veidrodžiui nustatyti. Naudinga komanda, bet, deja, atrodo, kad ji yra klaidinga arba nežinoma visoms kitoms paieškos sistemoms. Įtraukiant jį į savo robotus, geriausia nurodyti kaip vartotojo agentą: visi ir „Yandex“ robotas, kuriam galite asmeniškai užregistruoti pagrindinio kompiuterio komandą:

    Vartotojo agentas: „Yandex
    Priegloba: site.ru

    Visiems skaitytuvams nustatytas direktyvas jie suvoks kaip klaidingą.

  7. Svetainės schemos direktyva:. Naudodami svetainės schemą, robotai išsiaiškina, kokie puslapiai yra žiniatinklio šaltinyje. Labai dažna klaida yra ta, kad kūrėjai nekreipia dėmesio į sitemap.xml failo vietą, nors jis ir nustato į žemėlapį įtrauktų URL sąrašą. Įdėdami failą už šakninio aplanko ribų, patys kūrėjai kelia pavojų svetainei: tikrinimo programos neteisingai nustato puslapių skaičių, todėl svarbios žiniatinklio išteklių dalys neįtraukiamos į paieškos rezultatus.

Pavyzdžiui, įdėję svetainės schemos failą į katalogą adresu http://primer.ru/catalog/sitemap.xml , galite įtraukti bet kokius URL, prasidedančius http://primer.ru/catalog/ ... Ir URL kaip, tarkime, http://primer.ru/images/ ... neturėtų būti įtraukta į sąrašą.

Apibendrinti. Jei svetainės savininkas nori paveikti žiniatinklio išteklių indeksavimo procesą paieškos robotais, failas robots.txt yra ypač svarbus. Būtina atidžiai patikrinti, ar sukurtame dokumente nėra loginių ir sintaksinių klaidų, kad galiausiai instrukcijos veiktų bendrai jūsų svetainės sėkmei, užtikrinant kokybišką ir greitą indeksavimą.

Kaip išvengti klaidų sukuriant tinkamą robots.txt struktūrą svetainės indeksavimui



Robots.txt struktūra aiški ir paprasta, visiškai įmanoma failą parašyti patiems. Jums tiesiog reikia atidžiai stebėti sintaksę, kuri yra nepaprastai svarbi robotams. Paieškos robotai savanoriškai laikosi dokumento nurodymų, tačiau paieškos sistemos skirtingai interpretuoja sintaksę.

Toliau pateiktų privalomų taisyklių sąrašas padės pašalinti dažniausiai pasitaikančias klaidas kuriant robots.txt. Norėdami parašyti tinkamą dokumentą, turėtumėte atsiminti, kad:

  • kiekviena direktyva prasideda nauja eilute;
  • vienoje eilutėje - ne daugiau kaip viena komanda;
  • tarpo negalima dėti eilutės pradžioje;
  • komandos parametras turi būti vienoje eilutėje;
  • direktyvos parametrų cituoti nereikia;
  • komandų parametrų pabaigoje kabliataškis nereikia;
  • direktyva robots.txt yra nurodyta tokiu formatu: [komandos_pavadinimas]:[neprivaloma erdvė][reikšmė][neprivaloma erdvė];
  • po svaro ženklo robots.txt leidžiami # komentarai;
  • tuščia eilutė gali būti interpretuojama kaip vartotojo agento komandos pabaiga;
  • draudžiamoji direktyva su tuščia reikšme - "Disallow:" yra panaši į direktyvą "Allow: /", kuri leidžia nuskaityti visą svetainę;
  • „Allow“, „Disallow“ direktyvose gali būti ne daugiau kaip vienas parametras. Kiekvienas naujas parametras rašomas naujoje eilutėje;
  • robots.txt failo pavadinime naudojamos tik mažosios raidės. Robots.txt arba ROBOTS.TXT – rašybos klaidos;
  • Standartas robots.txt nereglamentuoja didžiųjų ir mažųjų raidžių jautrumo, tačiau failai ir aplankai šiuo klausimu dažnai yra jautrūs. Todėl, nors ir priimtina komandų ir parametrų pavadinimuose naudoti didžiąsias raides, tai laikoma bloga forma. Geriau nesižavėti didžiosiomis raidėmis;
  • kai komandos parametras yra aplankas, prieš pavadinimą būtinas pasvirasis brūkšnys „/“, pvz.: Disallow: /category;
  • jei robots.txt failas sveria daugiau nei 32 KB, paieškos robotai suvokia jį kaip lygiavertį „Disallow:“ ir mano, kad jis visiškai leidžia indeksuoti;
  • robots.txt nepasiekiamumą (dėl įvairių priežasčių) tikrinimo programos gali suvokti kaip tikrinimo draudimų nebuvimą;
  • tuščias robots.txt yra laikomas leidžiančiu indeksuoti visą svetainę;
  • jei pateikiamos kelios „User-agent“ komandos be tuščios eilutės tarp jų, paieškos vorai pirmą direktyvą gali traktuoti kaip vienintelę, nepaisydami visų paskesnių „User-agent“ direktyvų;
  • robots.txt neleidžia naudoti jokių nacionalinių abėcėlių simbolių.

Aukščiau pateiktos taisyklės netinka visoms paieškos sistemoms, nes jos skirtingai interpretuoja robots.txt sintaksę. Pavyzdžiui, „Yandex“ parenka įrašus pagal buvimą eilutėje „User-agent“, todėl jai nesvarbu, ar tarp skirtingų „User-agent“ direktyvų yra tuščia eilutė.

Apskritai robotuose turėtų būti tik tai, ko tikrai reikia tinkamam indeksavimui. Nereikia stengtis aprėpti begalybės ir į dokumentą įtraukti kuo daugiau duomenų. Geriausias robots.txt yra prasmingas failas, eilučių skaičius nesvarbu.

Reikia patikrinti tekstinių dokumentų robotų teisingą struktūrą ir teisingą sintaksę, kuri padės žiniatinklyje pateiktoms paslaugoms. Norėdami tai padaryti, turite įkelti robots.txt į savo svetainės šakninį aplanką, kitaip tarnyba gali pranešti, kad nepavyko įkelti reikiamo dokumento. Prieš robots.txt rekomenduojama patikrinti, ar nėra failo adreso (your_site.ru/robots.txt).

Didžiausios paieškos sistemos „Yandex“ ir „Google“ siūlo savo svetainių analizės paslaugas žiniatinklio valdytojams. Vienas iš analitinio darbo aspektų yra robotų tikrinimas:

Internete yra daug internetinių robots.txt tikrintuvų, galite pasirinkti bet kurį jums patinkantį.

Masyvas ( => 24 [~ID] => 24 => 2019-10-10 18:52:28 [~TIMESTAMP_X] => 2019-10-10 18:52:28 => 1 [~MODIFIED_BY] => 1 => 10.10. 2019 m. 18:51:03 [~DATE_CREATE] => 10/10/2019 18:51:03 => 1 [~CREATED_BY] => 1 => 6 [~IBLOCK_ID] => 6 => [~IBLOCK_SECTION_ID] => => Y [~AKTYVUS] => Y => Y [~GLOBAL_ACTIVE] => Y => 500 [~RŪšiuoti] => 500 => Pavelo Bobylevo straipsniai [~VARDAS] => Pavelo Bobylevo straipsniai => 11744 [ ~ PICTURE] = > 11744 => 13 [~LEFT_MARGIN] => 13 => 14 [~ RIGHT_MARGIN] => 14 => 1 [~DEPTH_LEVEL] => 1 => Pavelas Bobylevas [~APRAŠYMAS] => Pavelas Bobylevas => tekstas [~DESCRIPTION_TYPE ] => tekstas => Pavelo Bobylevo straipsniai Pavelas Bobylevas [~SEARCHABLE_CONTENT] => Pavelo Bobylevo straipsniai Pavelas Bobylevas => stati-pavla-bobyleva [~CODE] => stati-pavla-bobyleva => [~ XML_ID] => => [~TMP_ID] => => [~DETAIL_PICTURE] => => [~SOCNET_GROUP_ID] => => /blog/index.php?ID=6 [~LIST_PAGE_URL] => /blog/index .php?ID=6 => /blog/list.php?SECTION_ID=24 [~SECTION_PAGE_URL] => /b log/list.php?SECTION_ID=24 => dienoraštis [~IBLOCK_TYPE_ID] => dienoraštis => tinklaraštis [~IBLOCK_CODE] => tinklaraštis => [~IBLOCK_EXTERNAL_ID] => => [~EXTERNAL_ID] =>)