Roboti txt novērš lapu indeksēšanu. Kā atspējot nepieciešamo lapu indeksēšanu

Robots.txt fails— teksta fails .txt formātā, kas ierobežo meklēšanas robotu piekļuvi saturam http serverī. Kā definīcija, Robots.txt- to robotu izņēmuma standarts, kuru W3C pieņēma 1994. gada 30. janvārī, un to brīvprātīgi izmanto lielākā daļa meklētājprogrammu. Fails robots.txt sastāv no instrukciju kopas rāpuļprogrammām, lai novērstu noteiktu failu, lapu vai direktoriju indeksēšanu vietnē. Apsveriet robots.txt aprakstu gadījumam, kad vietne neierobežo robotu piekļuvi vietnei.

Vienkāršs robots.txt piemērs:

Lietotāja aģents: * Atļaut: /

Šeit roboti pilnībā ļauj indeksēt visu vietni.

Fails robots.txt ir jāaugšupielādē jūsu vietnes saknes direktorijā lai tas būtu pieejams:

Your_site.ru/robots.txt

Faila robots.txt ievietošanai vietnes saknē parasti ir nepieciešama FTP piekļuve. Tomēr dažas pārvaldības sistēmas (CMS) ļauj izveidot robots.txt tieši no vietnes vadības paneļa vai izmantojot iebūvēto FTP pārvaldnieku.

Ja fails ir pieejams, tad pārlūkprogrammā redzēsit faila robots.txt saturu.

Kam paredzēts fails robots.txt?

Roots.txt vietnei ir svarīgs aspekts. Kāpēc ir nepieciešams fails robots.txt? Piemēram, iekšā SEO robots.txt ir nepieciešams, lai izslēgtu no indeksēšanas lapas, kas nesatur noderīgu saturu un daudz ko citu. Kā, kas, kāpēc un kāpēc tas ir izslēgts, jau ir aprakstīts rakstā, par to mēs šeit nekavēsimies. Vai man ir nepieciešams robots.txt fails? visas vietnes? Jā un nē. Ja faila robots.txt izmantošana nozīmē lapu izslēgšanu no meklēšanas, tad mazām vietnēm ar vienkāršu struktūru un statiskām lapām šāda izslēgšana var būt nevajadzīga. Tomēr pat nelielai vietnei daži robots.txt direktīvas, piemēram, resursdatora vai vietnes kartes direktīva, bet vairāk par to tālāk.

Kā izveidot robots.txt

Tā kā robots.txt ir teksta fails, un uz izveidot failu robots.txt, varat izmantot, piemēram, jebkuru teksta redaktoru piezīmju grāmatiņa. Tiklīdz atvērāt jaunu teksta dokumentu, jūs jau esat sācis izveidot robots.txt, atliek tikai izveidot tā saturu atkarībā no jūsu prasībām un saglabāt to kā teksta fails, ko sauc par robotiem txt formātā. Tas ir vienkārši, un faila robots.txt izveide nedrīkst radīt problēmas pat iesācējiem. Zemāk es jums parādīšu, kā rakstīt robots.txt un ko rakstīt robotos.

Izveidojiet failu robots.txt tiešsaistē

Variants slinkajiem izveidojiet robotus tiešsaistē un lejupielādējiet failu robots.txt jau gatavs. Robotu txt izveide tiešsaistē piedāvā daudzus pakalpojumus, izvēle ir jūsu. Galvenais ir skaidri saprast, kas būs aizliegts un kas atļauts, pretējā gadījumā robots.txt faila izveide tiešsaistē var izvērsties par traģēdiju ko tad var būt grūti izlabot. It īpaši, ja meklēšanā nokļūst kaut kas, ko vajadzēja slēgt. Esiet piesardzīgs — pārbaudiet savu robotu failu pirms tā augšupielādes vietnē. Tomēr pielāgots robots.txt fails precīzāk atspoguļo ierobežojumu struktūru nekā tas, kas tika automātiski ģenerēts un lejupielādēts no citas vietnes. Lasiet tālāk, lai uzzinātu, kam jāpievērš īpaša uzmanība, rediģējot failu robots.txt.

Rediģēt robots.txt

Kad esat paspējis izveidot failu robots.txt tiešsaistē vai manuāli, varat to izdarīt rediģēt robots.txt. Jūs varat mainīt tā saturu, kā vēlaties, galvenais ir ievērot dažus robots.txt noteikumus un sintaksi. Darba laikā vietnē robots fails var mainīties, un, ja rediģējat robots.txt, neaizmirstiet augšupielādēt atjauninātu, atjauninātu faila versiju ar visām vietnē veiktajām izmaiņām. Tālāk apsveriet faila iestatīšanas noteikumus, lai uzzinātu kā mainīt robots.txt failu un "necirt malku".

Pareizs faila robots.txt iestatījums

Pareizs faila robots.txt iestatījumsļauj izvairīties no privātas informācijas iegūšanas lielāko meklētājprogrammu meklēšanas rezultātos. Tomēr neaizmirstiet to robots.txt komandas nav nekas cits kā darbības ceļvedis, nevis aizsardzība. Uzticami meklētājprogrammu roboti, piemēram, Yandex vai Google, ievēro robots.txt instrukcijas, taču citi roboti var tos viegli ignorēt. Pareiza robots.txt izpratne un izmantošana ir atslēga uz rezultātu gūšanu.

Saprast kā izveidot pareizo robotu txt, vispirms ir jāsaprot faila robots.txt vispārīgie noteikumi, sintakse un direktīvas.

Pareizais robots.txt sākas ar User-agent direktīvu, kas norāda, kuram robotam ir adresētas konkrētās direktīvas.

Lietotāja aģenta piemēri failā robots.txt:

# Norāda direktīvas visiem robotiem vienlaicīgi User-agent: * # Norāda direktīvas visiem Yandex robotiem User-agent: Yandex # Norāda direktīvas tikai galvenajam Yandex indeksēšanas robotam User-agent: YandexBot # Norāda direktīvas visiem Google robotiem User-agent: Googlebot

Lūdzu, ņemiet vērā, ka tādi iestatot failu robots.txt liek robotam izmantot tikai tādas direktīvas, kas atbilst lietotāja aģentam ar tā nosaukumu.

Robots.txt piemērs ar vairākiem User-agent ierakstiem:

# Izmantos visi Yandex roboti User-agent: Yandex Disallow: /*utm_ # Izmantos visi Google roboti User-agent: Googlebot Disallow: /*utm_ # Izmantos visi roboti, izņemot Yandex robotus un Google User- aģents: * Atļaut: / *utm_

Lietotāja aģenta direktīva izveido tikai norādi uz konkrētu robotu, un uzreiz pēc User-agent direktīvas ir jābūt komandai vai komandām ar tiešu norādi par izvēlētā robota stāvokli. Iepriekš minētajā piemērā tiek izmantota atspējošanas direktīva “Disallow”, kuras vērtība ir “/*utm_”. Tādējādi mēs visu aizveram. Pareizs faila robots.txt iestatījums novērš tukšu rindu pārtraukumu klātbūtni starp direktīvām “User-agent”, “Disallow” un direktīvām, kas seko “Disallow” pašreizējā “User-agent” ietvaros.

Nepareizas rindu plūsmas piemērs failā robots.txt:

Pareizas rindu plūsmas piemērs failā robots.txt:

Lietotāja aģents: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Kā redzat no piemēra, instrukcijas failā robots.txt ir blokos, no kuriem katrs satur norādījumus vai nu konkrētam robotam, vai visiem robotiem "*".

Turklāt ir svarīgi ievērot pareiza kārtība un komandu kārtošana failā robots.txt, kopīgojot tādas direktīvas kā “Neatļaut” un “Atļaut”. Direktīvu “Allow” ir atļaujoša direktīva, un tā ir pretēja komandai robots.txt “Disallow”, kas ir neatļauta direktīva.

Piemērs direktīvu kopīgošanai failā robots.txt:

Lietotāja aģents: * Atļaut: /blog/page Disallow: /blog

Šis piemērs neļauj visiem robotiem indeksēt visas lapas, kas sākas ar "/blog", bet ļauj indeksēt lapas, kas sākas ar "/blog/page".

Iepriekšējais faila robots.txt piemērs pareizā veidā:

Lietotāja aģents: * Disallow: /blog Atļaut: /blog/page

Vispirms atspējojam visu sadaļu, pēc tam atļaujam dažas tās daļas.

Cits pareizo robots.txt piemēru ar kopīgām direktīvām:

Lietotāja aģents: * Atļaut: / Neatļaut: /emuārs Atļaut: /blogs/lapa

Pievērsiet uzmanību pareizai direktīvu secībai šajā robots.txt failā.

Direktīvu "Allow" un "Disallow" var norādīt arī bez parametriem, un tādā gadījumā vērtība tiks interpretēta apgriezti parametram "/".

Piemērs direktīvai "Disallow/Allow" bez parametriem:

User-agent: * Disallow: # ir līdzvērtīgs Allow: / Disallow: /blog Atļaut: /blog/page

Kā izveidot pareizo robots.txt un tas, kā izmantot direktīvu interpretāciju, ir jūsu izvēle. Abi varianti būs pareizi. Galvenais neapjukt.

Pareizai robots.txt kompilēšanai nepieciešams precīzi norādīt prioritātes direktīvu parametros un to, kas būs aizliegts robotiem lejupielādēt. Tālāk mēs sīkāk aplūkosim direktīvu "Disallow" un "Allow" izmantošanu, bet tagad apskatīsim robots.txt sintaksi. Zinot faila robots.txt sintaksi, jūs varēsiet to tuvāk izveidojiet perfektu robotu txt ar savām rokām.

Robots.txt sintakse

Meklētājprogrammu roboti brīvprātīgi izpilda robots.txt komandas- standarts izņēmumiem robotiem, bet ne visiem meklētājprogrammas apstrādājiet robots.txt sintaksi tādā pašā veidā. Robots.txt failam ir stingri noteikta sintakse, bet tajā pašā laikā rakstīt roboti txt nav grūti, jo tā struktūra ir ļoti vienkārša un viegli saprotama.

Šeit ir konkrēts vienkāršu noteikumu saraksts, kuru ievērošana tiks izslēgta izplatītas robots.txt kļūdas:

  1. Katra direktīva sākas jaunā rindā;
  2. Neiekļaujiet vairāk kā vienu direktīvu vienā rindā;
  3. Nelieciet atstarpi rindas sākumā;
  4. Direktīvas parametram jābūt vienā rindā;
  5. Nav nepieciešams likt direktīvu parametrus pēdiņās;
  6. Direktīvas parametriem nav nepieciešami beigu semikoni;
  7. Komanda failā robots.txt ir norādīta formātā - [direktīvas_nosaukums]:[izvēles atstarpe][vērtība][izvēles atstarpe];
  8. Komentāri ir atļauti failā robots.txt aiz mārciņas zīmes #;
  9. Tukša jaunā rindiņa var tikt interpretēta kā User-agent direktīvas beigas;
  10. Direktīva "Disallow:" (ar tukšu vērtību) ir līdzvērtīga "Allow: /" - atļaut visu;
  11. Direktīvās "Allow", "Disallow" ir norādīts ne vairāk kā viens parametrs;
  12. Faila robots.txt nosaukums nepieļauj lielo burtu klātbūtni, faila nosaukuma kļūdaina pareizrakstība ir Robots.txt vai ROBOTS.TXT;
  13. Direktīvu un parametru nosaukumu rakstīšana ar lielajiem burtiem tiek uzskatīta par sliktām manierēm, un, ja saskaņā ar standartu robots.txt nav reģistrjutīga, failu un direktoriju nosaukumos bieži ir reģistrjutīgi;
  14. Ja direktīvas parametrs ir direktorijs, tad pirms direktorija nosaukuma vienmēr ir slīpsvītra "/", piemēram: Disallow: /category
  15. Pārāk liels robots.txt fails (vairāk nekā 32 KB) tiek uzskatīts par pilnībā atļaujošu, kas ir līdzvērtīgs “Disallow:”;
  16. Robots.txt, kas kāda iemesla dēļ nav pieejams, var tikt uzskatīts par pilnīgi atļaujošu;
  17. Ja fails robots.txt ir tukšs, tas tiks uzskatīts par pilnīgi pieļaujamu;
  18. Vairāku "User-agent" direktīvu uzskaitīšanas rezultātā bez tukšas jaunās rindiņas visas nākamās "User-agent" direktīvas, izņemot pirmo, var ignorēt;
  19. Nacionālo alfabētu simbolu izmantošana failā robots.txt nav atļauta.

Tā kā dažādas meklētājprogrammas robots.txt sintaksi var interpretēt atšķirīgi, dažus punktus var izlaist. Tātad, piemēram, ja norādāt vairākas "User-agent" direktīvas bez tukšas rindiņas pārtraukuma, Yandex pareizi pieņems visas "User-agent" direktīvas, jo Yandex izceļ ierakstus pēc klātbūtnes rindā "User-agent". .

Robotiem ir stingri jānorāda tikai tas, kas ir nepieciešams, un nekas vairāk. Nedomājiet kā uzrakstīt visu robots txt kas ir iespējams un kā to aizpildīt. Perfekti roboti txt ir tas, kurā ir mazāk rindiņu, bet vairāk nozīmes. "Īsums ir asprātības dvēsele". Šis izteiciens šeit ir ļoti noderīgs.

Kā pārbaudīt failu robots.txt

Lai pārbaudiet failu robots.txt Lai iegūtu pareizu faila sintaksi un struktūru, varat izmantot kādu no tiešsaistes pakalpojumiem. Piemēram, Yandex un Google piedāvā savus pakalpojumus tīmekļa pārziņiem, kas ietver robots.txt parsēšana:

Faila robots.txt pārbaude pakalpojumā Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

Lai pārbaudiet robots.txt tiešsaistē nepieciešams augšupielādējiet failu robots.txt vietnē saknes direktorijā. Pretējā gadījumā dienests var par to ziņot neizdevās ielādēt robots.txt. Vispirms ir ieteicams pārbaudīt robots.txt pieejamību adresē, kurā atrodas fails, piemēram: your_site.ru/robots.txt.

Papildus Yandex un Google verifikācijas pakalpojumiem tiešsaistē ir pieejami arī daudzi citi. robots.txt pārbaudītāji.

Robots.txt pret Yandex un Google

Pastāv subjektīvs viedoklis, ka Yandex pozitīvāk uztver atsevišķu direktīvu bloku "User-agent: Yandex" failā robots.txt nekā vispārējo direktīvu bloku ar "User-agent: *". Līdzīga situācija ar robots.txt un Google. Atsevišķu direktīvu norādīšana Yandex un Google ļauj pārvaldīt vietņu indeksēšanu, izmantojot failu robots.txt. Iespējams, viņus glaimo personiskā pievilcība, jo īpaši tāpēc, ka lielākajā daļā vietņu Yandex, Google un citu meklētājprogrammu robots.txt bloku saturs būs vienāds. Ar retiem izņēmumiem būs visi "Lietotāja aģenta" bloki noklusējuma failam robots.txt direktīvu kopums. Varat arī instalēt, izmantojot dažādus "Lietotāja aģentus". indeksēšanas aizliegums failā robots.txt, kas paredzēts Yandex, bet, piemēram, ne Google.

Atsevišķi ir vērts atzīmēt, ka Yandex ņem vērā tik svarīgu direktīvu kā "Host", un pareizajā Yandex failā robots.txt ir jāiekļauj šī direktīva, lai norādītu vietnes galveno spoguli. Tālāk tiks detalizētāk aplūkota "uzņēmēja" direktīva.

Atspējot indeksēšanu: robots.txt Disallow

Neatļaut — aizliedzoša direktīva, kas visbiežāk tiek izmantots failā robots.txt. Disallow aizliedz vietnes vai tās daļas indeksēšanu atkarībā no Disallow direktīvas parametrā norādītā ceļa.

Piemērs, kā atspējot vietņu indeksēšanu failā robots.txt:

Lietotāja aģents: * Neatļaut: /

Šis piemērs aizver visu vietni no indeksēšanas visiem robotiem.

Speciālās rakstzīmes * un $ var izmantot direktīvas Disallow parametrā:

* - jebkurš rakstzīmju skaits, piemēram, parametrs /page* apmierina /page, /page1, /page-be-cool, /page/kak-skazat utt. Tomēr nav nepieciešams norādīt * katra parametra beigās, jo, piemēram, šādas direktīvas tiek interpretētas vienādi:

Lietotāja aģents: Yandex Disallow: /page Lietotāja aģents: Yandex Disallow: /page*

$ — norāda precīzu izņēmuma atbilstību parametra vērtībai:

Lietotāja aģents: Googlebot Disallow: /page$

Šajā gadījumā direktīva Disallow neatļaus /page, bet neatļaus /page1, /page-be-cool vai /page/kak-skazat indeksēšanu.

Ja aizvērt robots.txt vietnes indeksēšanu, meklētājprogrammas uz šādu kustību var reaģēt ar kļūdu “Bloķēts failā robots.txt” vai “URL ierobežo robots.txt” (URL aizliegts ar failu robots.txt). Ja tev vajag atspējot lapu indeksēšanu, varat izmantot ne tikai robots txt, bet arī līdzīgus html tagus:

  • - neindeksēt lapas saturu;
  • - nesekojiet saitēm lapā;
  • - lapā ir aizliegts indeksēt saturu un sekot saitēm;
  • - līdzīgs saturam = "nav".

Atļaut indeksēšanu: robots.txt Atļaut

Atļaut - atļaujoša direktīva un pretēja direktīvai Disallow. Šai direktīvai ir līdzīga sintakse kā Disallow.

Piemērs, kā atspējot vietņu indeksēšanu failā robots.txt, izņemot dažas lapas:

User-agent: * Disallow: /Allow: /page

Ir aizliegts indeksēt visu vietni, izņemot lapas, kas sākas ar /page.

Neatļaut un Atļaut ar tukšu parametra vērtību

Tukša Disallow direktīva:

Lietotāja aģents: * Neatļaut:

Neaizliegt neko vai atļaut indeksēt visu vietni, un tas ir līdzvērtīgs:

Lietotāja aģents: * Atļaut: /

Tukša direktīva Atļaut:

Lietotāja aģents: * Atļaut:

Neatļaut neko vai pilnīgs vietņu indeksēšanas aizliegums ir līdzvērtīgs:

Lietotāja aģents: * Neatļaut: /

Galvenās vietnes spogulis: robots.txt resursdators

Host direktīva tiek izmantota, lai Yandex robotam norādītu jūsu vietnes galveno spoguli. No visām populārajām meklētājprogrammām direktīva Saimniekdatoru atpazīst tikai Yandex roboti. Host direktīva ir noderīga, ja jūsu vietne ir pieejama vairākās vietnēs, piemēram:

mysite.ru mysite.com

Vai arī noteikt prioritāti starp:

Mana vietne.ru www.mysite.ru

Jūs varat pateikt Yandex robotam, kurš spogulis ir galvenais. Host direktīva ir norādīta direktīvas blokā "User-agent: Yandex", un kā parametrs ir norādīta vēlamā vietnes adrese bez "http://".

Faila robots.txt piemērs, kas norāda galveno spoguli:

Lietotāja aģents: Yandex Disallow: /page Host: mysite.ru

Domēna nosaukums mysite.ru bez www ir norādīts kā galvenais spogulis. Tādējādi šāda veida adrese tiks norādīta meklēšanas rezultātos.

Lietotāja aģents: Yandex Disallow: /page Host: www.mysite.ru

Domēna nosaukums www.mysite.ru ir norādīts kā galvenais spogulis.

Host direktīva failā robots.txt var izmantot tikai vienu reizi, ja Host direktīva ir norādīta vairāk nekā vienu reizi, tiks ņemta vērā tikai pirmā, citas Host direktīvas tiks ignorētas.

Ja vēlaties norādīt Googlebot galveno spoguli, izmantojiet Google Webmaster Tools pakalpojumu.

Vietnes karte: robots.txt vietnes karte

Izmantojot vietnes kartes direktīvu, failā robots.txt varat norādīt atrašanās vietu vietnē.

Robots.txt piemērs ar vietnes kartes adresi:

Lietotāja aģents: * Neatļaut: /lapa Vietnes karte: http://www.mysite.ru/sitemap.xml

Vietnes kartes adreses norādīšana caur vietnes kartes direktīva failā robots.txtļauj meklēšanas robotam uzzināt par vietnes kartes esamību un sākt tās indeksēšanu.

Clean-param direktīva

Clean-param direktīva ļauj izslēgt no indeksēšanas lapas ar dinamiskiem parametriem. Līdzīgās lapās var tikt rādīts viens un tas pats saturs ar dažādiem lapu URL. Vienkārši sakot, it kā lapa būtu pieejama dažādās adresēs. Mūsu uzdevums ir noņemt visas nevajadzīgās dinamiskās adreses, kas var būt miljons. Lai to izdarītu, mēs izslēdzam visus dinamiskos parametrus, izmantojot direktīvu Clean-param failā robots.txt.

Clean-param direktīvas sintakse:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [ceļš]

Apsveriet piemēru lapai ar šādu URL:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Faila robots.txt Clean-param piemērs:

Clean-param: tikai parm1&parm2&parm3 /page.html # page.html

Clean-param: parm1&parm2&parm3 / # visiem

Pārmeklēšanas aizkaves direktīva

Šī instrukcija ļauj samazināt servera slodzi, ja roboti apmeklē jūsu vietni pārāk bieži. Šī direktīva galvenokārt attiecas uz vietnēm ar lielu lapu apjomu.

Robots.txt pārmeklēšanas aizkaves piemērs:

Lietotāja aģents: Yandex Disallow: /page Pārmeklēšanas aizkave: 3

Šajā gadījumā mēs "lūdzam" Yandex robotiem lejupielādēt mūsu vietnes lapas ne biežāk kā reizi trijās sekundēs. Dažas meklētājprogrammas kā parametru atbalsta decimālo formātu Pārmeklēšanas aizkaves robots.txt direktīvas.

Dažreiz ir nepieciešams, lai vietnes lapas vai tajās ievietotās saites neparādītos meklēšanas rezultātos. Vietnes saturu var paslēpt no indeksēšanas, izmantojot failu robots.txt, HTML marķējumu vai vietnes autorizāciju.

Vietnes, sadaļas vai lapas indeksēšanas aizliegums

Ja dažas vietnes lapas vai sadaļas nevajadzētu indeksēt (piemēram, ar patentētu vai konfidenciālu informāciju), ierobežojiet piekļuvi tām šādos veidos:

    Izmantojiet autorizāciju vietnē. Mēs iesakām šo metodi, lai paslēptu vietnes galveno lapu no indeksēšanas. Ja sākumlapa ir atspējota failā robots.txt vai izmantojot metatagu noindex, bet tai ir saite, lapa var tikt parādīta meklēšanas rezultātos.

Lapas satura indeksēšanas aizliegums

Slēpt daļu lapas teksta no indeksēšanas

Lapas HTML kodā pievienojiet elementu noindex. Piemēram:

Elements nav jutīgs pret ligzdošanu – tas var atrasties jebkurā lapas HTML kodā. Ja vietnes kods ir jāpadara derīgs, varat izmantot tagu šādā formātā:

indeksējamais tekstsSlēpt saiti lapā no indeksēšanas

Lapas HTML kodā elementam pievienojiet atribūtu. Piemēram:

Atribūts darbojas līdzīgi kā nofollow direktīva robots metatagā, taču attiecas tikai uz saiti, kurai tas ir norādīts.

Robots.txt for WordPress ir viens no galvenajiem indeksēšanas iestatīšanas rīkiem. Iepriekš mēs runājām par rakstu indeksēšanas procesa paātrināšanu un uzlabošanu. Turklāt viņi uzskatīja šo jautājumu tā, it kā meklēšanas robots neko nezinātu un nevarētu darīt. Un mums tas viņam jāpasaka. Šim nolūkam mēs izmantojām vietnes kartes failu.

Varbūt jūs joprojām nezināt, kā meklēšanas robots indeksē jūsu vietni? Pēc noklusējuma viss ir atļauts indeksēt. Bet viņš to nedara uzreiz. Robots, saņēmis signālu, ka nepieciešams apmeklēt vietni, ievieto to rindā. Tāpēc indeksēšana nenotiek uzreiz pēc mūsu pieprasījuma, bet pēc kāda laika. Kad pienāk jūsu vietnes kārta, šis zirnekļrobots ir tieši tur. Pirmkārt, tas meklē failu robots.txt.

Ja robots.txt tiek atrasts, tas nolasa visas direktīvas un beigās redz faila adresi. Pēc tam robots saskaņā ar vietnes karti apiet visus indeksēšanai paredzētos materiālus. Viņš to dara ierobežotā laika periodā. Tieši tāpēc, ja esat izveidojis vietni ar vairākiem tūkstošiem lappušu un ievietojis to pilnībā, tad robotam vienkārši nebūs laika apbraukt visas lapas vienā piegājienā. Un tikai tie, kurus viņam izdevās apskatīt, iekļūs rādītājā. Un robots staigā pa visu vietni un pavada tajā savu laiku. Un tas nav fakts, ka vispirms viņš meklēšanas rezultātos skatīs tieši tās lapas, kuras jūs gaidāt.

Ja robots neatrod robots.txt failu, tas uzskata, ka visu ir atļauts indeksēt. Un viņš sāk rakņāties pa visām aizmugurējām ielām. Pēc visa atrastā satura pilnīgas kopijas viņš pamet jūsu vietni līdz nākamajai reizei. Kā jūs saprotat, pēc šādas meklēšanas viss nepieciešamais un viss nevajadzīgais nokļūst meklētājprogrammas indeksu bāzē. Kas jums jāzina, ir jūsu raksti, lapas, attēli, videoklipi utt. Kāpēc nevajag indeksēt?

Programmai WordPress tas izrādās ļoti svarīgs jautājums. Atbilde uz to ietekmē gan jūsu vietnes satura indeksēšanas paātrinājumu, gan tās drošību. Fakts ir tāds, ka visa pakalpojuma informācija nav jāindeksē. Un parasti ir vēlams slēpt WordPress failus no ziņkārīgo acīm. Tas samazinās iespēju, ka jūsu vietne tiks uzlauzta.

WordPress izveido daudz jūsu rakstu kopiju ar dažādiem URL, bet ar tādu pašu saturu. Tas izskatās šādi:

//vietnes_nosaukums/raksta_nosaukums,

//vietnes_nosaukums/kategorijas_nosaukums/raksta_nosaukums,

//vietnes_nosaukums/virsraksta_nosaukums/apakšvirsraksta_nosaukums/raksta_nosaukums,

//site_name/tag_name/article_name,

//vietnes_nosaukums/arhīva_izveides_datums/raksta_nosaukums

Ar tagiem un arhīviem vispārējā apsardzē. Cik tagiem ir pievienots raksts, tiek izveidots tik daudz kopiju. Rediģējot rakstu, tik daudz arhīvu tiks izveidots dažādos datumos, jo parādīsies jaunas adreses ar gandrīz līdzīgu saturu. Un pie katra komentāra ir arī rakstu kopijas ar adresēm. Tas ir vienkārši šausmīgi.

Milzīgs skaits dublikātu meklētājprogrammas novērtē kā sliktu vietni. Ja visas šīs kopijas ir indeksētas un norādītas meklēšanā, tad galvenā raksta svars tiks sadalīts pa visām kopijām, kas ir ļoti slikti. Un tas nav fakts, ka raksts ar galveno adresi tiks parādīts meklēšanas rezultātā. Tāpēc ir jāaizliedz visu kopiju indeksēšana.

WordPress formatē attēlus kā atsevišķus rakstus bez teksta. Šādā formā bez teksta un apraksta tie izskatās kā absolūti nepareizi raksti. Tādēļ jums ir jāveic pasākumi, lai meklētājprogrammas neindeksētu šīs adreses.

Kāpēc lai tas nebūtu jāindeksē?

Pieci iemesli indeksēšanas aizliegšanai!

  1. Pilna indeksācija rada papildu slodzi jūsu serverim.
  2. Tas aizņem dārgo laiku no paša robota.
  3. Varbūt tas ir vissvarīgākais, meklētājprogrammas var nepareizi interpretēt nepareizu informāciju. Tas novedīs pie nepareiza rakstu un lapu ranžēšanas un pēc tam nepareizu rezultātu meklēšanas rezultātos.
  4. Mapēs ar veidnēm un spraudņiem ir milzīgs skaits saišu uz veidotāju un reklāmdevēju vietnēm. Tas ir ļoti slikti jaunai vietnei, ja uz jūsu vietni vēl nav vai ir ļoti maz saišu no ārpuses.
  5. Indeksējot visas jūsu rakstu kopijas arhīvos un komentāros, meklētājprogramma iegūst sliktu viedokli par jūsu vietni. Daudz dublikātu. Daudzas izejošās saites Meklētājprogramma pazeminās jūsu vietnes versiju meklēšanas rezultātos līdz filtrēšanai. Un bildes, kas veidotas kā atsevišķs raksts ar nosaukumu un bez teksta, rada šausmas robotam. Ja to ir daudz, vietne var grabēt zem Yandex AGS filtra. Mana vietne tur bija. Pārbaudīts!

Tagad, pēc visa teiktā, rodas pamatots jautājums: "Vai ir iespējams kaut kā aizliegt indeksēt kaut ko, kas nav nepieciešams?". Izrādās, ka var. Vismaz ne pēc pasūtījuma, bet pēc ieteikuma. Situācija, ka dažu objektu indeksēšana netiek pilnībā aizliegta, rodas sitemap.xml faila dēļ, kas tiek apstrādāts pēc robots.txt. Iznāk šādi: robots.txt aizliedz, un sitemap.xml atļauj. Un tomēr mēs varam atrisināt šo problēmu. Kā to izdarīt tieši tagad un apsvērt.

WordPress robots.txt fails pēc noklusējuma ir dinamisks, un tas īsti nepastāv programmā WordPress. Un tas tiek ģenerēts tikai tajā brīdī, kad kāds to pieprasa, vai tas būtu robots vai vienkārši apmeklētājs. Tas ir, ja dodaties uz vietni, izmantojot FTP savienojumu, saknes mapē jūs vienkārši neatradīsit failu robots.txt, kas paredzēts WordPress. Un, ja pārlūkprogrammā norādāt tā konkrēto adresi http://jūsu_vietnes_nosaukums/robots.txt, tā saturs tiks parādīts ekrānā tā, it kā fails pastāvētu. Šī ģenerētā WordPress robots.txt faila saturs būs:

Faila robots.txt kompilēšanas noteikumos pēc noklusējuma ir atļauts visu indeksēt. Direktīva User-agent: * norāda, ka visas nākamās komandas attiecas uz visiem meklēšanas aģentiem (*). Bet tad nekas nav ierobežots. Un, kā jūs zināt, ar to nepietiek. Mēs jau esam apsprieduši mapes un ierakstus ar ierobežotu piekļuvi, diezgan daudz.

Lai failā robots.txt varētu veikt izmaiņas un tās saglabāt, tas ir jāizveido statiskā, pastāvīgā formā.

Kā izveidot robots.txt WordPress

Jebkurā teksta redaktorā (tikai nekādā gadījumā neizmantojiet MS Word un tamlīdzīgus automātiskās teksta formatēšanas elementus) izveidojiet teksta failu ar šādu aptuveno saturu un nosūtiet to uz savas vietnes saknes mapi. Izmaiņas var veikt pēc vajadzības.

Jums vienkārši jāņem vērā faila kompilēšanas iespējas:

Ciparu rindu sākumā, kā šeit rakstā, nevajadzētu būt. Šeit ir norādīti skaitļi, lai atvieglotu faila satura pārskatīšanu. Katras rindas beigās nedrīkst būt nekādas papildu rakstzīmes, tostarp atstarpes vai tabulēšanas zīmes. Starp blokiem jābūt tukšai rindai bez rakstzīmēm, ieskaitot atstarpes. Tikai viena vieta var jums nodarīt lielu ļaunumu — ESIET UZMANĪGI .

Kā pārbaudīt, vai failā robots.txt nav WordPress

Tālāk norādītajā veidā varat pārbaudīt, vai failā robots.txt nav atstarpes. Teksta redaktorā atlasiet visu tekstu, nospiežot Ctrl+A. Ja rindu beigās un tukšās rindās nav atstarpes, jūs to pamanīsit. Un, ja ir izvēlēts tukšums, tad jums ir jānoņem atstarpes un viss būs kārtībā.

Varat pārbaudīt, vai noteiktie noteikumi darbojas pareizi, izmantojot šādas saites:

  • Robots.txt parsēšana Yandex tīmekļa pārzinis
  • Robots.txt parsēšana Google meklēšanas konsolē .
  • Pakalpojums faila robots.txt izveidei: http://pr-cy.ru/robots/
  • Pakalpojums robots.txt izveidei un pārbaudei: https://seolib.ru/tools/generate/robots/
  • Dokumentācija no Yandex .
  • Dokumentācija no google(Angļu)

Ir vēl viens veids, kā pārbaudīt WordPress vietnes failu robots.txt, tas ir augšupielādēt tā saturu Yandex tīmekļa pārzinim vai norādīt tā atrašanās vietas adresi. Ja ir kādas kļūdas, jūs uzreiz uzzināsit.

Labojiet robots.txt failam WordPress

Tagad pāriesim tieši uz WordPress vietnes faila robots.txt saturu. Kādām direktīvām tajā jābūt. Tālāk ir norādīts aptuvenais WordPress faila robots.txt saturs, ņemot vērā tā funkcijas:

Lietotāja aģents: * Disallow: /wp-login.php Neatļaut: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-content/plugins Neatļaut: /wp-content/themes Neatļaut: */*comments Neatļaut: * /*category Disallow: */*tag Disallow: */trackback Disallow: */*feed Disallow: /*?* Disallow: /?s= Atļaut: /wp-admin/admin-ajax.php Atļaut: /wp-content /uploads/ Atļaut: /*?replytocom Lietotāja aģents: Yandex Disallow: /wp-login.php Neatļaut: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-content/plugins Neatļaut: /wp-content/themes Disallow: */comments Neatļaut: */*category Disallow: */*tag Disallow: */trackback Disallow: */*feed Disallow: /*?* Disallow: /*?s= Atļaut: /wp-admin/admin- ajax.php Atļaut: /wp-content/uploads/ Atļaut: /*?replytocom Pārmeklēšanas aizkave: 2.0 Resursdators: site.ru Vietnes karte: http://site.ru/sitemap.xml

WordPress robots.txt direktīvas

Tagad apskatīsim tuvāk:

1 - 16 rindiņu bloku iestatījumi visiem robotiem

User-agent: — šī ir obligāta direktīva, kas definē meklēšanas aģentu. Zvaigznīte norāda, ka direktīva attiecas uz visu meklētājprogrammu robotiem. Ja bloks ir paredzēts konkrētam robotam, tad jānorāda tā nosaukums, piemēram, Yandex, kā 18.rindā.

Pēc noklusējuma indeksēšanai ir atļauts viss. Tas ir līdzvērtīgs direktīvai Allow: /.

Tāpēc, lai aizliegtu noteiktu mapju vai failu indeksēšanu, tiek izmantota īpaša Disallow: direktīva.

Mūsu piemērā, izmantojot mapju nosaukumus un failu nosaukumu maskas, tiek aizliegts visās WordPress pakalpojumu mapēs, piemēram, administrators, motīvi, spraudņi, komentāri, kategorija, tags... Ja norādāt direktīvu šajā formā Neatļaut: /, tad tiks noteikts aizliegums indeksēt visu vietni.

Atļaut: - kā jau teicu, direktīva ļauj indeksēt mapes vai failus. Tas ir jāizmanto, ja aizliegtajās mapēs ir faili, kas joprojām ir jāindeksē.

Manā piemērā 3. rindiņa Disallow: /wp-admin — aizliedz mapes /wp-admin indeksēšanu un 14. rinda Atļaut: /wp-admin/admin-ajax.php — ļauj indeksēt /admin-ajax.php failu. kas atrodas aizliegtajā indeksēšanas mapē /wp-admin/.

17 — tukša rinda (vienkārši nospiediet taustiņu Enter bez atstarpēm)

18–33 iestatījumu bloks, kas īpaši paredzēts Yandex aģentam (Lietotāja aģents: Yandex). Kā jūs pamanījāt, šis bloks pilnībā atkārto visas iepriekšējā bloka komandas. Un rodas jautājums: "Kas pie velna ir tāda nepatikšana?". Tātad tas viss tiek darīts tikai dažu direktīvu dēļ, kuras mēs izskatīsim tālāk.

34 — Pārmeklēšanas aizkave — izvēles direktīva tikai Yandex. To izmanto, ja serveris ir ļoti noslogots un tam nav laika apstrādāt robotu pieprasījumus. Tas ļauj iestatīt meklēšanas robotam minimālo aizkavi (sekundēs un sekundes desmitdaļās) starp vienas lapas ielādes beigām un nākamās ielādes sākumu. Maksimālā atļautā vērtība ir 2,0 sekundes. Tas tiek pievienots tieši aiz direktīvām Disallow un Allow.

35 - Tukša virkne

36 - Saimnieks: site.ru - jūsu vietnes domēna nosaukums (OBLIGĀTA direktīva Yandex blokam). Ja mūsu vietne izmanto HTTPS protokolu, adrese ir jānorāda pilnībā, kā parādīts zemāk:

Saimnieks: https://site.ru

37 - Jābūt tukšai virknei (tikai nospiežot taustiņu Enter bez atstarpēm).

38 - Vietnes karte: http://site.ru/sitemap.xml - sitemap.xml faila(-u) atrašanās vietas adrese (OBLIGĀTA direktīva), kas atrodas faila beigās pēc tukšas rindas un attiecas uz visiem blokiem.

Maskas robots.txt faila direktīvām WordPress

Tagad nedaudz, kā izveidot maskas:

  1. Disallow: /wp-register.php — atspējojiet saknes mapē esošā faila wp-register.php indeksēšanu.
  2. Disallow: /wp-admin - aizliedz indeksēt mapes wp-admin saturu, kas atrodas saknes mapē.
  3. Disallow: /trackback — atspējo paziņojumu indeksēšanu.
  4. Neatļaut: /wp-content/plugins — aizliedz indeksēt spraudņu mapes saturu, kas atrodas wp-content apakšmapē (otrā līmeņa mapē).
  5. Disallow: /feed - aizliedz plūsmas indeksēšanu, t.i. aizver vietnes RSS plūsmu.
  6. * - nozīmē jebkuru rakstzīmju secību, tāpēc tā var aizstāt gan vienu rakstzīmi, gan nosaukuma daļu vai visu faila vai mapes nosaukumu. Konkrēta vārda neesamība beigās ir līdzvērtīga * rakstīšanai.
  7. Disallow: */*comments — aizliedz indeksēt to mapju un failu saturu, kuru nosaukumā ir komentāri un kas atrodas jebkurās mapēs. Šajā gadījumā tas neļauj komentāriem indeksēt.
  8. Disallow: *?s= — aizliedz indeksēt meklēšanas lapas

Iepriekš minētās rindas var izmantot kā darba robots.txt failu WordPress. Tikai 36, 38 rindiņās jāievada savas vietnes adrese un OBLIGĀTI NOŅEMT rindu numuri. Un jūs saņemsiet strādājošu robots.txt failu WordPress , pielāgota jebkurai meklētājprogrammai.

Vienīgā iezīme ir tāda, ka WordPress vietnes darba robots.txt faila lielums nedrīkst pārsniegt 32 kB diska vietas.

Ja jūs absolūti neinteresē Yandex, tad 18.-35. rinda jums vispār nebūs vajadzīga. Tas laikam arī viss. Ceru, ka raksts bija noderīgs. Ja jums ir kādi jautājumi, rakstiet komentāros.

ROBOTI.TXT- Izņēmumu standarts robotiem - fails teksta formātā.txt, lai ierobežotu robotu piekļuvi vietnes saturam. Failam ir jāatrodas vietnes saknē (adresē /robots.txt). Standarta izmantošana nav obligāta, taču meklētājprogrammas ievēro noteikumus, kas ietverti failā robots.txt. Pats fails sastāv no veidlapas ierakstu kopas

:

kur lauks ir kārtulas nosaukums (User-Agent, Disallow, Allow utt.)

Ieraksti ir atdalīti ar vienu vai vairākām tukšām rindām (rindas beigu punkts: rakstzīmes CR, CR+LF, LF)

Kā pareizi iestatīt ROBOTS.TXT?

Šajā rindkopā ir sniegtas pamatprasības faila iestatīšanai, konkrēti ieteikumi iestatīšanai, piemēri populārām CMS

  • Faila izmērs nedrīkst pārsniegt 32 KB.
  • Kodējumam jābūt ASCII vai UTF-8.
  • Derīgā robots.txt failā ir jāietver vismaz viena kārtula, kas sastāv no vairākām direktīvām. Katrā noteikumā ir jāietver šādas direktīvas:
    • kuram robotam šis noteikums ir paredzēts (lietotāja aģenta direktīva)
    • kādiem resursiem šim aģentam ir piekļuve (direktīva Atļaut) vai resursiem, kuriem tam nav piekļuves (Disallow).
  • Katram noteikumam un direktīvai jāsākas jaunā rindā.
  • Noteikuma Disallow/Allow vērtībai jāsākas ar / vai *.
  • Visas rindas, kas sākas ar simbolu #, vai rindu daļas, kas sākas ar šo simbolu, tiek uzskatītas par komentāriem, un aģenti tās neņem vērā.

Tādējādi pareizi konfigurēta robots.txt faila minimālais saturs izskatās šādi:

Lietotāja aģents: * #visiem aģentiem Neatļaut: #nekas nav atļauts = ir atļauta piekļuve visiem failiem

Kā izveidot/modificēt ROBOTS.TXT?

Failu var izveidot, izmantojot jebkuru teksta redaktoru (piemēram, notepad++). Lai izveidotu vai modificētu failu robots.txt, parasti ir nepieciešama piekļuve serverim, izmantojot FTP/SSH, tomēr daudzos CMS/CMF ir iebūvēts failu satura pārvaldības interfeiss caur administrācijas paneli (“admin panel”), piemēram, : Bitrix, ShopScript un citi.

Kam šajā vietnē paredzēts fails ROBOTS.TXT?

Kā redzams no definīcijas, robots.txt ļauj kontrolēt robotu uzvedību, apmeklējot vietni, t.i. iestatiet vietnes indeksēšanu meklētājprogrammās — tas padara šo failu par svarīgu jūsu vietnes SEO optimizācijas daļu. Svarīgākā robots.txt iezīme ir aizliegums indeksēt lapas/failus, kas nesatur noderīgu informāciju. Vai kopumā visa vietne, kas var būt nepieciešama, piemēram, vietnes testa versijām.

Galvenie piemēri tam, kas jāslēdz no indeksēšanas, tiks apspriesti tālāk.

Kas ir jāslēdz no indeksēšanas?

Pirmkārt, izstrādes laikā vienmēr ir jāatspējo vietņu indeksēšana, lai izvairītos no iekļūšanas rādītāja lapās, kuras vispār nebūs vietnes gatavajā versijā, un lapās, kurās trūkst/dublēts/pārbaudes saturs, pirms tās ir aizpildītas.

Otrkārt, vietnes kopijas, kas izveidotas kā izstrādes testa vietnes, ir jāpaslēpj no indeksēšanas.

Treškārt, mēs analizēsim, kādu saturu tieši vietnē vajadzētu aizliegt indeksēt.

  1. Vietnes administratīvā daļa, servisa faili.
  2. Lietotāju autorizācijas / reģistrācijas lapas, vairumā gadījumu - lietotāju personiskās sadaļas (ja netiek nodrošināta publiska piekļuve personiskajām lapām).
  3. Groza un norēķinu lapas, pasūtījumu apskats.
  4. Preču salīdzināšanas lapas, ir iespējams atlasīt šādas lapas indeksēšanai, ja tās ir unikālas. Kopumā salīdzināšanas tabulas ir neskaitāmas lapas ar dublētu saturu.
  5. Meklēšanas un filtrēšanas lapas var atstāt atvērtas indeksēšanai tikai tad, ja tās pareizs iestatījums: atsevišķi vietrāži URL, kas piepildīti ar unikāliem nosaukumiem, metatagiem. Vairumā gadījumu šādas lapas ir jāaizver.
  6. Lapas ar šķirošanas produktiem/ierakstiem, ja tām ir dažādas adreses.
  7. Lapas ar utm-, openstat-tagiem URL (kā arī visas pārējās).

Sintakse ROBOTS.TXT

Tagad pakavēsimies pie faila robots.txt sintakses sīkāk.

Vispārīgi noteikumi:

  • katrai direktīvai jāsākas ar jaunu līniju;
  • virkne nedrīkst sākties ar atstarpi;
  • direktīvas vērtībai jābūt vienā rindā;
  • nav nepieciešams likt direktīvu vērtības pēdiņās;
  • pēc noklusējuma visām direktīvu vērtībām beigās ir rakstīts *, Piemērs: Lietotāja aģents: Yandex Disallow: /cgi-bin* # bloķē piekļuvi lapām Disallow: /cgi-bin # tas pats
  • tukša jaunā rindiņa tiek uzskatīta par User-agent noteikuma beigas;
  • direktīvās "Allow", "Disallow" ir norādīta tikai viena vērtība;
  • faila robots.txt nosaukums nepieļauj lielos burtus;
  • robots.txt, kas lielāks par 32 KB, nav atļauts, roboti nelejupielādēs šādu failu un uzskatīs vietni par pilnībā atļautu;
  • nepieejams robots.txt var tikt uzskatīts par pilnībā atļaujošu;
  • tukšs robots.txt tiek uzskatīts par pilnībā pieļaujamu;
  • lai norādītu noteikumu kirilicas vērtības, izmantojiet Punycod;
  • ir atļauti tikai UTF-8 un ASCII kodējumi: nacionālo alfabētu un citu rakstzīmju izmantošana failā robots.txt nav atļauta.

Īpaši simboli:

  • #

    Komentāra sākuma rakstzīme, viss teksts pēc # un pirms rindas plūsmas tiek uzskatīts par komentāru, un roboti to neizmanto.

    *

    Aizstājējzīmes vērtība, kas apzīmē direktīvas prefiksu, sufiksu vai pilno vērtību — jebkura rakstzīmju kopa (ieskaitot tukšo).

  • $

    Rindas beigu norāde, aizliegums aizpildīt * līdz vērtībai, uz Piemērs:

    Lietotāja aģents: * #visiem Atļaut: /$ #atļaut indeksēt galveno lapu Neatļaut: * #aizliegt indeksēšanu visām lapām, izņemot atļautās

Direktīvu saraksts

  1. lietotāja aģents

    Obligāta direktīva. Nosaka, uz kuru robotu attiecas noteikums, noteikumā var būt viena vai vairākas šādas direktīvas. Varat izmantot rakstzīmi *, lai norādītu prefiksu, sufiksu vai pilnais vārds robots. Piemērs:

    #vietne ir slēgta Google.News un Google.Images User-agent: Googlebot-Image User-agent: Googlebot-News Disallow: / #visiem robotiem, kuru nosaukums sākas ar Yandex, aizveriet sadaļu “Ziņas” User-agent: Yandex* Neatļaut: /news #atvērts visiem pārējiem Lietotāja aģents: * Neatļaut:

  2. Neatļaut

    Direktīva nosaka, kuri faili vai direktoriji nav jāindeksē. Direktīvas vērtībai jāsākas ar rakstzīmi / vai *. Pēc noklusējuma vērtības beigās tiek pievienots *, ja vien to neaizliedz simbols $.

  3. Atļaut

    Katrā noteikumā ir jābūt vismaz vienai Disallow: vai Allow: direktīvai.

    Direktīva nosaka, kuri faili vai direktoriji jāindeksē. Direktīvas vērtībai jāsākas ar rakstzīmi / vai *. Pēc noklusējuma vērtības beigās tiek pievienots *, ja vien to neaizliedz simbols $.

    Direktīvas izmantošana ir svarīga tikai kopā ar Disallow, lai atļautu indeksēt dažas lapu apakškopas, kuras aizliedz indeksēt ar Disallow direktīvu.

  4. Tīrs parametrs

    Izvēles, šķērsgriezuma direktīva. Izmantojiet direktīvu Clean-param, ja vietņu lapu adresēs ir GET parametri (tiek rādīti pēc ? pierakstīšanās vietrādī URL), kas neietekmē to saturu (piemēram, UTM). Ar šī noteikuma palīdzību visas adreses tiks sakārtotas vienā formā - sākotnējā, bez parametriem.

    Direktīvas sintakse:

    Tīrīšanas parametrs: p0[&p1&p2&..&pn]

    p0… - parametru nosaukumi, kas nav jāņem vērā
    ceļš — to lapu ceļa prefikss, uz kurām attiecas noteikums


    Piemērs.

    Vietnē ir tādas lapas kā

    www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id 123

    Norādot noteikumu

    Lietotāja aģents: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

    robots samazina visas lapu adreses līdz vienai:

    www.example.com/some_dir/get_book.pl?book_id=123

  5. Vietnes karte

    Izvēles direktīva, ir iespējams ievietot vairākas šādas direktīvas vienā failā, šķērsgriezumā (pietiek vienreiz norādīt failā, nedublējot katram aģentam).

    Piemērs:

    Vietnes karte: https://example.com/sitemap.xml

  6. Pārmeklēšanas aizkave

    Direktīva ļauj iestatīt meklēšanas robotam minimālo laika periodu (sekundēs) starp vienas lapas ielādes beigām un nākamās ielādes sākumu. Tiek atbalstītas daļskaitļu vērtības

    Yandex robotu minimālā pieļaujamā vērtība ir 2,0.

    Google roboti neievēro šo direktīvu.

    Piemērs:

    Lietotāja aģents: Yandex Crawl-delay: 2.0 # iestata taimautu uz 2 sekundēm Lietotāja aģents: * Pārmeklēšanas aizkave: 1,5 # iestata taimautu uz 1,5 sekundēm

  7. Uzņēmēja

    Direktīva nosaka vietnes galveno spoguli. Pašlaik populārās meklētājprogrammas atbalsta tikai Mail.ru.

    Piemērs:

    Lietotāja aģents: Mail.Ru Saimnieks: www.site.ru # galvenais spogulis no www

Faila robots.txt piemēri populārai SPS

ROBOTS.TXT priekš 1C:Bitrix

Bitrix CMS nodrošina iespēju pārvaldīt faila robots.txt saturu. Lai to izdarītu, administratīvajā saskarnē, izmantojot meklēšanu, jāiet uz rīku “Robots.txt iestatījumi” vai pa ceļu Mārketings->Meklētājprogrammu optimizācija->Robots.txt iestatījumi. Varat arī mainīt faila robots.txt saturu, izmantojot iebūvēto Bitrix failu redaktoru vai FTP.

Tālāk norādīto piemēru var izmantot kā robots.txt sākuma kopu vietnēm Bitrix, taču tas nav universāls un ir jāpielāgo atkarībā no vietnes.

Paskaidrojumi:

  1. sadalījums noteikumos dažādiem aģentiem ir saistīts ar faktu, ka Google neatbalsta Clean-param direktīvu.
Lietotāja aģents: Yandex Disallow: */index.php Disallow: /bitrix/ Disallow: /*filtrs Disallow: /*order Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Neatļaut: /*show_sql_stat= Disallow: /clude*abitrix_rese = Neatļaut: /*clear_cache= Neatļaut: /*clear_cache_session= Neatļaut: /*ADD_TO_COMPARE_LIST Neatļaut: /*ORDER_BY Neatļaut: /*?print= Neatļaut: /*&print= Neatļaut: /*print_course= Neatļaut: /*?action= Neatļaut: /*? : /*&action= Neatļaut: /*register= Neatļaut: /*forgot_password= Neatļaut: /*change_password= Neatļaut: /*login= Neatļaut: /*logout= Neatļaut: /*auth= Neatļaut: /*backurl= Neatļaut: / *back_url= Neatļaut: /*BACKURL= Neatļaut: /*BACK_URL= Neatļaut: /*back_url_admin= Neatļaut: /*?utm_source= Neatļaut: /*?bxajaxid= Neatļaut: /*&bxajaxid= Neatļaut: /*?view_result= Neatļaut: /*&view_result= Neatļaut: /*?PAGEN*& Neatļaut: /*&PAGEN Atļaut: */?PAGEN* Atļaut: /bitrix/components/*/ Atļaut: /bitrix/cache/*/ Atļaut: /bitrix/js/* / Atļaut: /bitrix/templates/*/ Atļaut: /bitrix/panel/ */ Atļaut: /bitrix/components/*/*/ Atļaut: /bitrix/cache/*/*/ Atļaut: /bitrix/js/*/*/ Atļaut: /bitrix/templates/*/*/ Atļaut: /bitrix /panel/*/*/ Atļaut: /bitrix/components/ Atļaut: /bitrix/cache/ Atļaut: /bitrix/js/ Atļaut: /bitrix/templates/ Atļaut: /bitrix/panel/ Clean-Param: PAGEN_1 / Clean- Parametrs: PAGEN_2 / #ja vietnē ir vairāk komponentu ar lappusēm, tad dublējiet kārtulu visiem variantiem, mainot numuru Clean-Param: kārtot Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-Agent: * Neatļaut: * /index.php Neatļaut : /bitrix/ Neatļaut: /*filtrs Neatļaut: /*kārtot Disallow: /*order Disallow: /*show_include_exec_time= Neatļaut: /*show_page_exec_time= Neatļaut: /*show_sql_stat= Disallow: /_low:biastrix=Neatļaut /*clear_cache= Neatļaut : /*clear_cache_session= Neatļaut: /*ADD_TO_COMPARE_LIST Neatļaut: /*ORDER_BY Neatļaut: /*?print= Neatļaut: /*&print= Neatļaut: /*print_course= Neatļaut: /*?action= Neatļaut: /*?action= Neatļaut: /* &action= Neatļaut: / *register= Neatļaut: /*forgot_password= Neatļaut: /*change_password= Neatļaut: /*login= Neatļaut: /*logout= Neatļaut: /*auth= Neatļaut: /*backurl= Neatļaut: /*back_url= Neatļaut: /*BACKURL= Neatļaut: /*BACK_URL= Neatļaut: /*back_url_admin= Neatļaut: /*?utm_source= Neatļaut: /*?bxajaxid= Neatļaut: /*&bxajaxid= Neatļaut: /*?view_result= Neatļaut: /*&view_result= Neatļaut: /*utm_ Neatļaut: /*openstat= Neatļaut /*?PAGEN*& Disallow: /*&PAGEN Atļaut: */?PAGEN* Atļaut: /bitrix/components/*/ Atļaut: /bitrix/cache/*/ Atļaut: /bitrix/js/*/ Atļaut: /bitrix/ veidnes/*/ Atļaut: /bitrix/panel/*/ Atļaut: /bitrix/components/*/*/ Atļaut: /bitrix/cache/*/*/ Atļaut: /bitrix/js/*/*/ Atļaut: /bitrix /templates/*/*/ Atļaut: /bitrix/panel/*/*/ Atļaut: /bitrix/components/ Atļaut: /bitrix/cache/ Atļaut: /bitrix/js/ Atļaut: /bitrix/templates/ Atļaut: /bitrix /panel/ Vietnes karte: http://site.com/sitemap.xml #aizstāt ar vietnes kartes adresi

ROBOTS.TXT vietnei WordPress

WordPress admin panelī nav iebūvēta rīka robots.txt iestatīšanai, tāpēc piekļuve failam iespējama tikai caur FTP, vai arī pēc speciāla spraudņa (piemēram, DL Robots.txt) instalēšanas.

Tālāk sniegto piemēru var izmantot kā robots.txt sākuma komplektu Wordpress vietnēm, taču tas nav universāls un ir jāpielāgo atkarībā no vietnes.


Paskaidrojumi:

  1. direktīvas Atļaut satur ceļus uz stilu, skriptu, attēlu failiem: pareizai vietnes indeksēšanai ir nepieciešams, lai tie būtu pieejami robotiem;
  2. lielākajai daļai vietņu autors un tagu arhīva lapas veido tikai dublētu saturu un nerada noderīgu saturu, tāpēc šis piemērs tie ir slēgti indeksēšanai. Ja jūsu projektā šādas lapas ir nepieciešamas, noderīgas un unikālas, jums vajadzētu noņemt direktīvas Disallow: /tag/ un Disallow: /author/.

Pareizā ROBOTS.TXT piemērs vietnei pakalpojumā WoRdPress:

Lietotāja aģents: Yandex # Yandex Disallow: /cgi-bin Disallow: /? Disallow: /wp- Neatļaut: *?s= Neatļaut: *&s= Neatļaut: /search/ Neatļaut: /author/ Neatļaut: /users/ Neatļaut: */trackback Neatļaut: */feed Neatļaut: */rss Neatļaut: */ embed Disallow: /xmlrpc.php Neatļaut: /tag/ Disallow: /readme.html Atļaut: *?replytocom Atļaut: */uploads Atļaut: /*/*.js Atļaut: /*/*.css Atļaut: /wp-* .png Atļaut: /wp-*.jpg Atļaut: /wp-*.jpeg Atļaut: /wp-*.gif Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat Lietotāja aģents: * Neatļaut: /cgi-bin Neatļaut: / ? Disallow: /wp- Neatļaut: *?s= Neatļaut: *&s= Neatļaut: /search/ Neatļaut: /author/ Neatļaut: /users/ Neatļaut: */trackback Neatļaut: */feed Neatļaut: */rss Neatļaut: */ embed Disallow: /xmlrpc.php Neatļaut: *?utm Neatļaut: *openstat= Neatļaut: /tag/ Disallow: /readme.html Neatļaut: *?replytocom Atļaut: */uploads Atļaut: /*/*.js Atļaut: /* /*.css Atļaut: /wp-*.png Atļaut: /wp-*.jpg Atļaut: /wp-*.jpeg Atļaut: /wp-*.gif Vietnes karte: http://site.com/sitemap.xml # aizstāt ar vietnes kartes adresi

ROBOTS.TXT, kas paredzēts OpenCart

OpenCart “administratora panelī” nav iebūvēta rīka robots.txt konfigurēšanai, tāpēc failam var piekļūt, tikai izmantojot FTP.

Tālāk sniegto piemēru var izmantot kā robots.txt starteri OpenCart vietnēm, taču tas nav universāls un ir jāpielāgo atkarībā no vietnes.


Paskaidrojumi:

  1. direktīvas Atļaut satur ceļus uz stilu, skriptu, attēlu failiem: pareizai vietnes indeksēšanai ir nepieciešams, lai tie būtu pieejami robotiem;
  2. sadalīšana noteikumos dažādiem aģentiem ir saistīta ar faktu, ka Google neatbalsta Clean-param direktīvu;
Lietotāja aģents: * Neatļaut: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Neatļaut: /*route=product/search Neatļaut: /index.php?route=product/product *&manufacturer_id= Neatļaut: /admin Neatļaut: /catalog Neatļaut: /sistēma Neatļaut: /*?sort= Neatļaut: /*&sort= Neatļaut: /*?order= Neatļaut: /*&order= Neatļaut: /*?limit= Neatļaut: /*&limit= Neatļaut: /*?filter_name= Neatļaut: /*&filter_name= Neatļaut: /*?filter_sub_category= Neatļaut: /*&filter_sub_category= Neatļaut: /*?filter_description= Neatļaut: /*&filter_description= Distralow: /*? Disallow: /*&tracking= Neatļaut: /*salīdzināt-produktus Neatļaut: /*meklēt Neatļaut: /*grozs Neatļaut: /*checkout Disallow: /*pieteikties Neatļaut: /*logout Neatļaut: /*vaučeri Neatļaut: /*vēlmju saraksts Neatļaut: /*my-account Disallow: /*order-history Disallow: /*newsletter Disallow: /*return-add Disallow: /*forgot-password Disallow: /*downloads Disallow: /*returns Disallow: /*transactions Disallow: /* Create-account Disallow: /*atkārtojas Disallow: /*address-book Disallow: /*reward-points Disallow: /*affiliate-forgot-password Disallow: /*create-affiliate-account Disallow: /*affiliate-login Disallow: /*affiliates Disallow: /*?filter_tag = Disallow: /*brands Disallow: /*specials Disallow: /*simpleregister Disallow: /*simplecheckout Disallow: *utm= Disallow: /*&page Neatļaut: /*?lapa*& Atļaut: /*?lapa Atļaut: /catalog/ view/javascript/ Atļaut: /catalog/view/theme/*/ Lietotāja aģents: Yandex Disallow: /*route=account/ Disallow: /*route=affiliate/ Neatļaut: /*route=checkout/ Neatļaut: /*route= product/search Disallow: /index.php?route=product/product*&manufacturer_id= Neatļaut: /admin Neatļaut: /catalog Disallow: /system Disallow: /*?sort= Neatļaut: /*&sort= Neatļaut: /*?order= Neatļaut: /*&order= Neatļaut: /*?limit= Neatļaut: /*&limit= Neatļaut: /*?filter_name= Neatļaut: /*&filter_name= Neatļaut: /*?filter_sub_category= Neatļaut: /*&filter_sub_category= Neatļaut: /*? filter_description= Neatļaut: /*&filter_description= Neatļaut: /*compa re-products Disallow: /*search Neatļaut: /*grozs Neatļaut: /*checkout Neatļaut: /*pieteikšanās Disallow: /*logout Disallow: /*vaučeri Neatļaut: /*vēlmju saraksts Disallow: /*mans konts Neatļaut: /*pasūtījums -history Disallow: /*newsletter Disallow: /*return-add Disallow: /*forgot-password Disallow: /*downloads Disallow: /*returns Disallow: /*transactions Disallow: /*create-account Disallow: /*recurring Disallow: /*address-book Disallow: /*reward-points Disallow: /*affiliate-forgot-password Disallow: /*create-affiliate-account Disallow: /*affiliate-login Disallow: /*affiliates Disallow: /*?filter_tag= Disallow : /*zīmoli Disallow: /*specials Disallow: /*simpleregister Disallow: /*simplecheckout Disallow: /*&page Disallow: /*?page*& Atļaut: /*?lapa Atļaut: /catalog/view/javascript/ Atļaut: / katalogs/view/theme/*/ Clean-Param: lapa / Clean-Param: utm_source&utm_medium&utm_campaign / Vietnes karte: http://site.com/sitemap.xml #aizstāt ar vietnes kartes adresi

ROBOTS.TXT Joomla!

Joomla administratora panelī nav iebūvēta rīka robots.txt iestatīšanai, tāpēc failam var piekļūt, tikai izmantojot FTP.

Tālāk sniegto piemēru var izmantot kā robots.txt starteri Joomla vietnēm ar iespējotu SEF, taču tas nav universāls un ir jāpielāgo atkarībā no vietnes.


Paskaidrojumi:

  1. direktīvas Atļaut satur ceļus uz stilu, skriptu, attēlu failiem: pareizai vietnes indeksēšanai ir nepieciešams, lai tie būtu pieejami robotiem;
  2. sadalīšana noteikumos dažādiem aģentiem ir saistīta ar faktu, ka Google neatbalsta Clean-param direktīvu;
Lietotāja aģents: Yandex Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Neatļaut: /layouts/ Neatļaut: /bibliotēkas/ Neatļaut: /logs/ Neatļaut: /log/ Neatļaut: /tmp/ Neatļaut: /xmlrpc/ Neatļaut: /plugins/ Neatļaut: /modules/ Neatļaut: /komponents/ Neatļaut: /search* Neatļaut: /*mailto/ Atļaut: /*.css?*$ Atļaut: /*.less?*$ Atļaut: /*.js?*$ Atļaut: /*.jpg?*$ Atļaut: /*.png?* $ Atļaut: /*.gif?*$ Atļaut: /templates/*.css Atļaut: /templates/*.less Atļaut: /templates/*.js Atļaut: /components/*.css Atļaut: /components/*.less Atļaut: /media/*.js Atļaut: /media/*.css Atļaut: /media/*.less Atļaut: /index.php?*view=sitemap* #open sitemap Clean-param: searchword / Clean-param: limit&limitsstart / Clean-param: atslēgvārds / User-agent: * Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Neatļaut: / installat ion/ Disallow: /language/ Neatļaut: /layouts/ Neatļaut: /bibliotēkas/ Neatļaut: /logs/ Neatļaut: /log/ Neatļaut: /tmp/ Neatļaut: /xmlrpc/ Neatļaut: /plugins/ Neatļaut: /modules/ Neatļaut: / komponents/ Neatļaut: /search* Neatļaut: /*mailto/ Neatļaut: /*meklēšanas vārds Disallow: /*atslēgvārds Atļaut: /*.css?*$ Atļaut: /*.less?*$ Atļaut: /*.js?*$ Atļaut: /*.jpg?*$ Atļaut: /*.png?*$ Atļaut: /*.gif?*$ Atļaut: /templates/*.css Atļaut: /templates/*.less Atļaut: /templates/*. js Atļaut: /components/*.css Atļaut: /components/*.less Atļaut: /media/*.js Atļaut: /media/*.css Atļaut: /media/*.less Atļaut: /index.php?*view =sitemap* #open sitemap Vietnes karte: http://your_sitemap_address

Galveno aģentu saraksts

Bot Funkcija
Googlebot Google galvenais indeksēšanas robots
Googlebot ziņas Google ziņas
Googlebot attēls Google attēli
Googlebot video video
Mediapartners-Google
mediju partneri Google Adsense, Google Mobile Adsense
AdsBot-Google galvenās lapas kvalitātes pārbaude
AdsBot-Google-Mobile-Apps Google robots lietotnēm
YandexBot Yandex galvenais indeksēšanas robots
YandexImages Yandex.Images
YandexVideo Yandex.Video
YandexMedia multivides dati
YandexBlogs emuāru meklēšanas robots
YandexAddurl robots piekļūst lapai, kad tā ir pievienota, izmantojot veidlapu "Pievienot URL".
YandexFavicons robots, kas indeksē vietņu ikonas (favicons)
YandexDirect Yandex.Direct
YandexMetrika Yandex.Metrica
Yandex katalogs Yandex. Katalogs
YandexNews Yandex.News
YandexImageResizer mobilo pakalpojumu robots
bingbot galvenais indeksēšanas robots Bing
Slurp galvenais indeksēšanas robots Yahoo!
Mail.Ru galvenais indeksēšanas robots Mail.Ru

FAQ

Teksta fails robots.txt ir publisks, tāpēc ņemiet vērā, ka šo failu nedrīkst izmantot kā līdzekli konfidenciālas informācijas slēpšanai.

Vai ir kādas atšķirības starp robots.txt Yandex un Google?

Nav būtisku atšķirību robots.txt apstrādē, ko veic Yandex un Google meklētājprogrammas, taču joprojām ir jāuzsver vairāki punkti:

  • kā minēts iepriekš, robots.txt noteikumiem ir ieteikuma raksturs, ko Google aktīvi izmanto.

    Robots.txt dokumentācijā Google norāda, ka “..nav paredzēts, lai novērstu tīmekļa lapu parādīšanos Google meklēšanas rezultātos. " un "Ja fails robots.txt neļauj Googlebot apstrādāt tīmekļa lapu, tas joprojām var tikt rādīts uzņēmumam Google." Lai izslēgtu lapas no Google meklēšanas, ir jāizmanto robotu metatagi.

    Yandex arī izslēdz lapas no meklēšanas, vadoties pēc robots.txt noteikumiem.

  • Yandex, atšķirībā no Google, atbalsta Clean-param un Crawl-delay direktīvas.
  • Google AdsBots neievēro User-agent noteikumus: *, tiem ir nepieciešami atsevišķi noteikumi.
  • Daudzi avoti norāda, ka skriptu un stilu faili (.js, .css) ir jāatver tikai Google robotiem indeksēšanai. Faktiski tā nav taisnība, un šie faili ir jāatver arī Yandex: 2015. gada 9. novembrī Yandex sāka izmantot js un css, indeksējot vietnes (publicējiet oficiālajā emuārā).

Kā bloķēt vietnes indeksēšanu failā robots.txt?

Lai aizvērtu vietni failā Robots.txt, ir jāizmanto viens no šiem noteikumiem:

Lietotāja aģents: * Neatļaut: / Lietotāja aģents: * Neatļaut: *

Vietni var aizvērt tikai vienai meklētājprogrammai (vai vairākām), atstājot pārējo indeksēšanas iespēju. Lai to izdarītu, noteikumā ir jāmaina lietotāja aģenta direktīva: aizstājiet * ar tā aģenta nosaukumu, kura piekļuve ir jāliedz ().

Kā atvērt vietni indeksēšanai failā robots.txt?

Parastā gadījumā, lai atvērtu vietni indeksēšanai failā robots.txt, jums nav jāveic nekādas darbības, jums tikai jāpārliecinās, ka failā robots.txt ir atvērti visi nepieciešamie direktoriji. Piemēram, ja jūsu vietne iepriekš bija paslēpta no indeksēšanas, no faila robots.txt ir jānoņem tālāk norādītie noteikumi (atkarībā no izmantotā).

  • neatļaut: /
  • Neatļaut: *

Lūdzu, ņemiet vērā, ka indeksēšanu var atspējot ne tikai, izmantojot failu robots.txt, bet arī izmantojot robots metatagu.

Jāņem vērā arī tas, ka robots.txt faila neesamība vietnes saknē nozīmē, ka vietnes indeksēšana ir atļauta.

Kā failā robots.txt norādīt galveno vietnes spoguli?

Pašlaik nav iespējams norādīt galveno spoguli, izmantojot robots.txt. Iepriekš Yandex PS izmantoja Host direktīvu, kurā bija norāde par galveno spoguli, taču kopš 2018. gada 20. marta Yandex ir pilnībā atteicies no tās izmantošanas. Tagad galvenā spoguļa norādīšana ir iespējama tikai ar 301 lapas novirzīšanas palīdzību.

Pārdošanas ģenerators

Lasīšanas laiks: 18 minūtes

Materiālu nosūtīsim jums:

Materiālā apspriestie jautājumi:

  • Kādu lomu vietnes indeksēšanā spēlē fails robots.txt?
  • Kā atspējot vietnes un tās atsevišķu lapu indeksēšanu, izmantojot failu robots.txt
  • Kādas robots.txt direktīvas tiek izmantotas vietņu indeksēšanas iestatījumiem
  • Kādas ir visbiežāk pieļaujamās kļūdas, veidojot robots.txt failu

Tīmekļa resurss ir gatavs lietošanai: tas ir piepildīts ar kvalitatīviem unikāliem tekstiem, oriģināliem attēliem, ir ērti pārvietoties pa sadaļām, un dizains ir patīkams acīm. Atliek tikai iepazīstināt interneta lietotājus ar savu ideju. Taču meklētājiem vajadzētu būt pirmajiem, kas ar portālu iepazīstas. Iepazīšanās procesu sauc par indeksēšanu, un vienu no galvenajām lomām tajā spēlē teksta failu roboti. Lai robots.txt vietne tiktu veiksmīgi indeksēta, ir jāievēro vairākas īpašas prasības.



Tīmekļa resursu dzinējs (CMS) ir viens no faktoriem, kas būtiski ietekmē meklēšanas zirnekļu indeksēšanas ātrumu. Kāpēc ir svarīgi novirzīt rāpuļprogrammas tikai uz svarīgām lapām, kurām jāparādās SERP?

  1. Meklētājprogrammas robots apskata ierobežotu skaitu failu konkrētā resursā un pēc tam pāriet uz nākamo vietni. Ja nav norādītu ierobežojumu, meklēšanas zirneklis var sākt, indeksējot programmas failus, kuru skaits dažkārt ir tūkstošos - robotam vienkārši nebūs laika galvenajam saturam.
  2. Vai arī tas indeksēs pilnīgi citas lapas, kurās plānojat virzīties uz priekšu. Vēl sliktāk, ja meklētājprogrammas redz satura dublēšanos, ko tās tik ļoti ienīst, kad dažādas saites ved uz vienu un to pašu (vai gandrīz identisku) tekstu vai attēlu.

Tāpēc ir nepieciešams aizliegt meklētājprogrammas zirnekļiem redzēt pārāk daudz. Tam ir paredzēts robots.txt - parasts teksta fails, kura nosaukums tiek rakstīts ar mazajiem burtiem, neizmantojot lielos burtus. Tas tiek izveidots jebkurā teksta redaktorā (Notepad++, SciTE, VEdit utt.) un rediģēts šeit. Fails ļauj ietekmēt vietnes indeksēšanu, ko veic Yandex un Google.

Programmētājam, kuram vēl nav pietiekamas pieredzes, labāk vispirms iepazīties ar faila pareizas aizpildīšanas piemēriem. Jums ir jāizvēlas tīmekļa resursi, kas viņu interesē, un pārlūkprogrammas adreses joslā ierakstiet site.ru/robots.txt(kur pirmā daļa pirms "/" ir portāla nosaukums).

Ir svarīgi skatīt tikai tās vietnes, kas darbojas ar jūs interesējošo programmu, jo CMS mapes, kurām ir aizliegts indeksēt, dažādās pārvaldības sistēmās tiek nosauktas atšķirīgi. Tāpēc motors kļūst par sākuma punktu. Ja jūsu vietni darbina WordPress, jums ir jāmeklē emuāri, kas darbojas tajā pašā dzinējā; Joomla! būs savi ideālie roboti utt.. Tajā pašā laikā kā paraugus vēlams ņemt failus no portāliem, kas piesaista ievērojamu trafiku no meklēšanas.

Kas ir vietņu indeksēšana, izmantojot failu robots.txt



Meklēšanas indeksēšana- svarīgākais rādītājs, no kura lielā mērā ir atkarīga paaugstinājuma veiksme. Šķiet, ka vietne tika izveidota perfekti: lietotāju pieprasījumi tiek ņemti vērā, saturs ir augšā, navigācija ir ērta, bet vietne nevar sadraudzēties ar meklētājprogrammām. Iemesli ir jāmeklē tehniskajā pusē, jo īpaši instrumentos, ar kuriem jūs varat ietekmēt indeksēšanu.

Ir divi no tiem – Sitemap.xml un robots.txt. Svarīgi faili, kas papildina viens otru un vienlaikus atrisina polāras problēmas. Vietnes karte aicina meklēšanas zirnekļus: "Laipni lūdzam, lūdzu, indeksējiet visas šīs sadaļas", norādot robotiem katras indeksējamās lapas URL un lapas laiku. jaunākais atjauninājums. Savukārt fails robots.txt kalpo kā apstāšanās zīme, neļaujot zirnekļiem rāpot pa jebkuru vietnes daļu.

Šis fails un līdzīgi nosauktais robotu metatags, kas nodrošina precīzākus iestatījumus, satur skaidrus norādījumus meklētājprogrammu rāpuļprogrammām, norādot uz aizliegumiem indeksēt noteiktas lapas vai veselas sadaļas.

Pareizi iestatītie ierobežojumi vislabāk ietekmēs vietnes indeksēšanu. Lai gan joprojām ir amatieri, kuri uzskata, ka ir iespējams ļaut robotiem izpētīt pilnīgi visus failus. Bet šajā situācijā meklētājprogrammas datubāzē ievadīto lapu skaits nenozīmē augstas kvalitātes indeksēšanu. Kāpēc, piemēram, robotiem ir vajadzīgas vietnes administratīvās un tehniskās daļas vai drukas lapas (tās ir ērtas lietotājam, un meklētājprogrammas tiek parādītas kā dublēts saturs)? Ir daudz lapu un failu, kuriem roboti velta laiku.

Kad zirneklis apmeklē jūsu vietni, tas nekavējoties meklē tam paredzēto failu robots.txt. Neatradis dokumentu vai atradis to nepareizā formā, bots sāk darboties neatkarīgi, indeksējot burtiski visu pēc kārtas pēc sev vien zināma algoritma. Tas ne vienmēr sākas ar jaunu saturu, par kuru vispirms vēlaties informēt lietotājus. Labākajā gadījumā indeksēšana vienkārši ievilksies, sliktākajā gadījumā tā var izraisīt arī sodu par dublikātiem.

Pareizs robotu teksta fails ļaus izvairīties no daudzām problēmām.



Ir trīs veidi, kā novērst tīmekļa resursa sadaļu vai lapu indeksēšanu no punkta līdz augstam līmenim:

  • Noindex tags un atribūts ir pilnīgi atšķirīgi koda elementi, kas kalpo dažādiem mērķiem, taču ir vienlīdz vērtīgi SEO palīgi. Jautājums par to apstrādi meklētājprogrammās ir kļuvis gandrīz filozofisks, taču fakts paliek fakts: noindex ļauj paslēpt daļu teksta no robotiem (tas nav html standartos, bet noteikti darbojas Yandex), un nofollow aizliedz sekot saiti un nododot tās svaru (iekļauts standarta klasifikācijā, derīgs visām meklētājprogrammām).
  • Robotu metatags noteiktā lapā ietekmē šo konkrēto lapu. Tālāk mēs sīkāk aplūkosim, kā tajā norādīt indeksēšanas aizliegumu un sekot dokumentā esošajām saitēm. Metatags ir pilnībā derīgs, sistēmas ņem vērā (vai cenšas ņemt vērā) norādītos datus. Turklāt Google, izvēloties starp robotiem faila veidā vietnes saknes direktorijā un lapas metatagu, dod priekšroku pēdējam.
  • robots.txt — šī metode ir pilnībā derīga, to atbalsta visas meklētājprogrammas un citi roboti, kas dzīvo tīmeklī. Tomēr viņa norādījumi ne vienmēr tiek uzskatīti par izpildāmu rīkojumu (iepriekš tika teikts par Google neautorizāciju). Failā norādītie indeksēšanas noteikumi ir spēkā vietnei kopumā: atsevišķām lapām, direktorijiem, sadaļām.

Izmantojot piemērus, apsveriet aizliegumu indeksēt portālu un tā daļas.



Ir daudz iemeslu, lai neļautu zirnekļiem indeksēt vietni. Tas joprojām ir izstrādes stadijā, tiek pārveidots vai modernizēts, resurss ir eksperimentāla platforma, nav paredzēts lietotājiem.

Vietnes indeksēšanu var bloķēt fails robots.txt visām meklētājprogrammām vai atsevišķam robotam, vai arī to var aizliegt visiem, izņemot vienu.

2. Kā atspējot robots.txt vietnes indeksēšanu atsevišķās lapās

Ja resurss ir mazs, tad maz ticams, ka jums būs jāslēpj lapas (ko tur slēpt vizītkaršu vietnē), un lieli portāli, kas satur ievērojamu daudzumu pakalpojumu informācijas, nevar iztikt bez aizliegumiem. Nepieciešams aizvērt no robotiem:

  • administratīvais panelis;
  • pakalpojumu katalogi;
  • vietnes meklēšana;
  • Personīgā zona;
  • reģistrācijas veidlapas;
  • pasūtījumu veidlapas;
  • preču salīdzināšana;
  • mīļākie;
  • grozs;
  • captcha;
  • uznirstošie logi un baneri;
  • sesijas ID.

Nesvarīgas ziņas un notikumi, kalendāra pasākumi, akcijas, īpašie piedāvājumi – tās ir tā saucamās atkritumu lapas, kuras vislabāk paslēpt. Ir arī labāk aizvērt novecojušo saturu informācijas vietnēs, lai novērstu meklētājprogrammu negatīvus vērtējumus. Centieties regulāri atjaunināt atjauninājumus — tad jums nebūs jāspēlē paslēpes ar meklētājprogrammām.

Indeksēšanas robotu aizliegums:



Vietnē robots.txt varat norādīt pilnīgus vai selektīvus aizliegumus indeksēt mapes, failus, skriptus, utm-tagus, kas var būt pasūtījums gan atsevišķiem meklēšanas zirnekļiem, gan visu sistēmu robotiem.

Indeksēšanas aizliegums:

Robotu metatags kalpo kā alternatīva tāda paša nosaukuma teksta failam. Izrakstīts in avota kods tīmekļa resurss (failā index.html), ievietots konteinerā . Ir jāprecizē, kas nevar indeksēt vietni. Ja aizliegums ir vispārīgs, roboti; ja ieraksts tiek liegts tikai vienam rāpuļprogrammai, jānorāda tā nosaukums (Google - Googlebot, "Yandex" - Yandex).

Ir divas metataga rakstīšanas iespējas.

Atribūtam "content" var būt šādas vērtības:

  • nav - indeksēšanas aizliegums (ieskaitot noindex un nofollow);
  • noindex - satura indeksēšanas aizliegums;
  • nofollow - aizliedz indeksēšanas saites;
  • sekot - atļauja indeksēt saites;
  • indekss - atļaut satura indeksēšanu;
  • visi — ļauj indeksēt saturu un saites.

Dažādos gadījumos ir jāizmanto vērtību kombinācijas. Piemēram, ja atspējojat satura indeksēšanu, jums jāļauj robotiem indeksēt saites: content="noindex, follow".


Aizverot vietni no meklētājprogrammām, izmantojot metatagus, īpašniekam nav jāveido fails robots.txt saknē.

Jāatceras, ka indeksēšanas jautājumā daudz kas ir atkarīgs no zirnekļa "pieklājības". Ja viņš ir “izglītots”, tad būs aktuāli meistara noteiktie noteikumi. Bet kopumā robotu direktīvu (gan faila, gan metataga) derīgums nenozīmē simtprocentīgu to ievērošanu. Pat meklētājprogrammām ne katrs aizliegums ir dzelžains, un nav jārunā par dažāda veida satura zagļiem. Sākotnēji tie ir konfigurēti, lai apietu visus aizliegumus.

Turklāt ne visus rāpuļprogrammas interesē saturs. Dažiem svarīgas ir tikai saites, citiem - mikroatzīmes, citi pārbauda vietņu spoguļkopijas utt. Tajā pašā laikā sistēmas zirnekļi nemaz nerāpo pa vietni, piemēram, vīrusi, bet attālināti pieprasa nepieciešamās lapas. Tāpēc visbiežāk tie nerada problēmas resursu īpašniekiem. Bet, ja robota projektēšanas laikā tika pieļautas kļūdas vai radās kāda ārēja nestandarta situācija, rāpuļprogramma var ievērojami ielādēt indeksēto portālu.



Izmantotās komandas:

1. "Lietotāja aģents:"

Galvenā robots.txt faila vadlīnija. Izmanto specifikācijai. Tiek ievadīts bota nosaukums, par kuru sekos turpmāki norādījumi. Piemēram:

  • Lietotāja aģents: Googlebot- pamatdirektīva šajā formā nozīmē, ka visas tālāk norādītās komandas attiecas tikai uz Google indeksēšanas robotu;
  • Lietotāja aģents: Yandex- paredzētās atļaujas un aizliegumi ir paredzēti Yandex robotam.

Ierakstīšana Lietotāja aģents: * nozīmē atsauci uz visām citām meklētājprogrammām (īpašā rakstzīme "*" nozīmē "jebkuru tekstu"). Ja ņemam vērā iepriekš minēto piemēru, zvaigznīte apzīmēs visas meklētājprogrammas, izņemot "Yandex". Tā kā Google pilnībā atsakās no personiskas pievilcības, apmierinoties ar vispārīgo apzīmējumu "jebkurš teksts".


Visizplatītākā komanda indeksēšanas atspējošanai. Atsaucoties uz robotu sadaļā "User-agent:", programmētājs norāda, ka viņš neļauj robotam indeksēt vietnes daļu vai visu vietni (šajā gadījumā tiek norādīts ceļš no saknes). Meklēšanas zirneklis to saprot, paplašinot komandu. Mēs arī to izdomāsim.

Lietotāja aģents: Yandex

Ja failā robots.txt ir šāds ieraksts, Yandex meklēšanas robots saprot, ka nevar indeksēt tīmekļa resursu kā tādu: aiz aizliedzošās zīmes “/” nav precizējumu.

Lietotāja aģents: Yandex

Neatļaut: /wp-admin

Šajā piemērā ir precizējumi: indeksēšanas aizliegums attiecas tikai uz sistēmas mapi wp-admin(vietni nodrošina WordPress). Yandex robots redz komandu un neindeksē norādīto mapi.

Lietotāja aģents: Yandex

Neatļaut: /wp-content/themes

Šī direktīva norāda rāpuļprogrammai, ka tā var indeksēt visu saturu " wp saturs", izņemot " tēmas", ko robots darīs.

Lietotāja aģents: Yandex

Neatļaut: /index$

Parādās vēl viens svarīgs simbols "$", kas pieļauj elastību aizliegumos. Šajā gadījumā robots saprot, ka nav atļauts indeksēt lapas, kuru saites satur burtu secību " rādītājs". Atsevišķs fails ar tādu pašu nosaukumu " indekss.php» Jūs varat indeksēt, un robots to skaidri saprot.

Varat ievadīt aizliegumu indeksēt atsevišķas resursa lapas, kuru saitēs ir noteiktas rakstzīmes. Piemēram:

Lietotāja aģents: Yandex

Yandex robots nolasa komandu šādi: neiekļaujiet visas lapas ar vietrāžiem URL, kas satur "&" starp citām rakstzīmēm.

Lietotāja aģents: Yandex

Šajā gadījumā robots saprot, ka lapas nevar indeksēt tikai tad, ja to adreses beidzas ar "&".

Kāpēc nav iespējams indeksēt sistēmas failus, arhīvus, lietotāju personas datus, mūsuprāt, ir skaidrs - tas nav diskusiju temats. Pilnīgi nav nepieciešams meklēšanas robots, lai tērētu laiku nevienam nevajadzīgu datu pārbaudei. Bet attiecībā uz lapu indeksēšanas aizliegumiem daudzi cilvēki uzdod jautājumus: kāds ir aizliedzošo direktīvu lietderības iemesls? Pieredzējuši izstrādātāji var norādīt duci dažādu iemeslu indeksēšanas tabu noteikšanai, taču galvenais no tiem būs nepieciešamība atbrīvoties no dublētām lapām meklēšanā. Ja tādi ir, tas dramatiski negatīvi ietekmē rangu, atbilstību un citus svarīgus aspektus. Tāpēc iekšējā SEO optimizācija nav iedomājama bez robots.txt, kurā ar dublikātiem tikt galā ir pavisam vienkārši: vajag tikai pareizi izmantot "Disallow:" direktīvu un speciālās rakstzīmes.

3. "Atļaut:"



Burvju robotu fails ļauj ne tikai paslēpt no meklētājprogrammām nevajadzīgās lietas, bet arī atvērt vietni indeksēšanai. robots.txt, kas satur komandu " Atļaut:”, norāda meklētājprogrammu zirnekļiem, kuri tīmekļa resursa elementi jāpievieno datu bāzei. Talkā nāk tie paši precizējumi, kas iepriekšējā komandā, tikai tagad tie paplašina rāpuļprogrammu atļauju loku.

Ņemsim vienu no piemēriem, kas sniegti iepriekšējā rindkopā, un redzēsim, kā situācija mainās:

Lietotāja aģents: Yandex

Atļaut: /wp-admin

Ja "Disallow:" nozīmēja aizliegumu, tad tagad sistēmas mapes saturs wp-admin kļūst par Yandex īpašumu juridiskais pamatojums un var parādīties meklēšanas rezultātos.

Bet praksē šī komanda tiek izmantota reti. Tam ir pilnīgi loģisks izskaidrojums: atteikuma neesamība, kas norādīta ar "Disallow:", ļauj meklēšanas zirnekļiem uzskatīt visu vietni par indeksēšanai atļautu. Šim nolūkam atsevišķa direktīva nav nepieciešama. Ja ir aizliegumi, pēc noklusējuma roboti indeksē arī saturu, uz kuru tie neattiecas.



Vēl divas svarīgas komandas meklēšanas zirnekļiem. " saimniekdators:"- mērķa direktīva vietējai meklētājprogrammai. Yandex vadās pēc tā, nosakot tīmekļa resursa galveno spoguli, kura adrese (ar vai bez www) piedalīsies meklēšanā.

Apsveriet PR-CY.ru piemēru:

Lietotāja aģents: Yandex

Direktīva tiek izmantota, lai izvairītos no resursu satura dublēšanās.

komanda " vietnes karte:» palīdz robotiem pareizi pārvietoties uz vietnes karti - īpašu failu, kas attēlo lapu hierarhisko struktūru, satura veidu, informāciju par atjauninājumu biežumu utt. Meklēšanas zirnekļu navigators ir fails sitemap.xml(uz WordPress dzinēja) vietnes karte.xml.gz), kas viņiem ir jānokļūst pēc iespējas ātrāk. Tad indeksēšana paātrinās ne tikai vietnes kartes, bet arī visu citu lapu, kas nepalēninās, parādīšanās meklēšanas rezultātos.

Hipotētisks piemērs:

Komandas, kas norādītas robotu teksta failā un ko pieņem Yandex:

direktīva

Ko viņš dara

Nosauc meklēšanas zirnekli, kuram ir rakstīti failā uzskaitītie noteikumi.

Norāda uz aizliegumu robotiem indeksēt vietni, tās sadaļas vai atsevišķas lapas.

Norāda ceļu uz tīmekļa resursā mitināto vietnes karti.

Ietver šādu informāciju par meklēšanas zirnekli: Lapas URL ietver neindeksējamus parametrus (piemēram, UTM tagus).

Dod atļauju indeksēt tīmekļa resursa sadaļas un lapas.

Ļauj aizkavēt skenēšanu. Norāda minimālo laiku (sekundēs) rāpuļprogrammai starp lapu ielādēm: pēc vienas pārbaudes zirneklis gaida norādīto laiku, pirms pieprasa nākamo lapu no saraksta.

* Nepieciešama direktīva.

Visbiežāk tiek pieprasītas komandas Disallow, Sitemap un Clean-param. Apskatīsim piemēru:

  • User-agent: * #norāda robotus, kuriem ir paredzētas šādas komandas.
  • Neatļaut: /bin/ # Neļaujiet indeksētājiem pārmeklēt saites no iepirkumu groza.
  • Neatļaut: /search/ # neatļaut vietnes meklēšanas lapu indeksēšanu.
  • Neatļaut: /admin/ # neatļaut meklēšanu administratora panelī.
  • Vietnes karte: http://example.com/sitemap # norāda rāpuļprogrammas ceļu uz vietnes karti.
  • Clean-param: ref /some_dir/get_book.pl

Atgādiniet, ka iepriekš minētās direktīvu interpretācijas attiecas uz Yandex - citu meklētājprogrammu zirnekļi var lasīt komandas atšķirīgi.



Teorētiskā bāze ir izveidota - pienācis laiks izveidot ideālus (nu vai ļoti tuvu tam) teksta failu robotus. Ja vietne darbojas ar dzinēju (Joomla!, WordPress u.c.), tā tiek piegādāta ar lielu objektu masu, bez kuriem normāla darbība nav iespējama. Bet šādos failos nav informatīvas sastāvdaļas. Lielākajā daļā CMS satura krātuve ir datu bāze, taču roboti nevar tai piekļūt. Un viņi turpina meklēt saturu programmas failos. Attiecīgi tiek tērēts indeksēšanai atvēlētais laiks.

Ļoti svarīgs Centieties pēc unikāla satura jūsu tīmekļa resurss , rūpīgi uzraugot dublikātu rašanos. Pat daļēja vietnes informācijas satura atkārtošana vislabāk neietekmē tās novērtējumu meklētājprogrammās. Ja vienu un to pašu saturu var atrast dažādos URL, tas arī tiek uzskatīts par dublikātu.

Divas galvenās meklētājprogrammas Yandex un Google neizbēgami atklās dublēšanos pārmeklēšanas laikā un mākslīgi pazeminās tīmekļa resursa pozīciju meklēšanas rezultātos.

Neaizmirstiet par lielisku rīku, kas palīdzēs tikt galā ar dublēšanos - kanoniskais metatags. Ierakstot tajā citu URL, tīmekļa pārzinis tādējādi norāda meklēšanas zirnekļa indeksēšanai vēlamo lapu, kas būs kanoniskā.

Piemēram, lapā ar lappušu skaitu https://ktonanovenkogo.ru/page/2 ir kanoniskais metatags, kas norāda uz https://ktonanovenkogo.ru , kas novērš problēmas ar dublētām galvenēm.

Tātad, mēs apkopojam visas iegūtās teorētiskās zināšanas un turpinām to praktisko ieviešanu jūsu tīmekļa resursā robots.txt, kura specifika ir jāņem vērā. Kas ir nepieciešams šim svarīgajam failam:

  • teksta redaktors (Notepad vai jebkurš cits) robotu rakstīšanai un rediģēšanai;
  • testētājs, kurš palīdzēs atrast kļūdas izveidotajā dokumentā un pārbaudīs indeksēšanas aizliegumu pareizību (piemēram, Yandex.Webmaster);
  • FTP klients, kas vienkāršo pabeigta un pārbaudīta faila augšupielādi tīmekļa resursa saknē (ja vietne darbojas WordPress, tad roboti visbiežāk tiek glabāti sistēmas mapē Public_html).

Pirmā lieta, ko meklēšanas rāpuļprogramma dara, ir pieprasīt failu, kas ir īpaši izveidots tai un atrodas URL "/robots.txt".

Tīmekļa resursā var būt viens fails "/robots.txt". Nav nepieciešams to ievietot pielāgotos apakšdirektorijos, kur zirnekļi tik un tā nemeklēs dokumentu. Ja vēlaties izveidot robotus apakšdirektorijos, jums jāatceras, ka tie joprojām ir jāapkopo vienā failā saknes mapē. Metataga “Robots” izmantošana ir piemērotāka.

URL ir reģistrjutīgi — atcerieties, ka failā “/robots.txt” nav lielie burti.

Tagad jums jābūt pacietīgam un jāgaida meklēšanas zirnekļi, kuri vispirms izpētīs jūsu pareizi izveidoto, izlabos robots.txt un sāks rāpot jūsu tīmekļa portālu.

Pareizs faila robots.txt iestatījums vietņu indeksēšanai dažādos dzinējos

Ja jums ir komerciāls resurss, tad robotu faila izveide jāuztic pieredzējušam SEO speciālistam. Tas ir īpaši svarīgi, ja projekts ir sarežģīts. Tiem, kuri nav gatavi pieņemt teikto par aksiomu, paskaidrosim: šim svarīgajam teksta failam ir nopietna ietekme uz meklētājprogrammu veikto resursa indeksēšanu, vietnes apstrādes ātrums ar robotprogrammatūru ir atkarīgs no tā pareizības. , un robotu saturam ir sava specifika. Izstrādātājam ir jāņem vērā vietnes veids (emuārs, tiešsaistes veikals utt.), dzinējs, struktūras iezīmes un citi svarīgi aspekti, ko iesācējs meistars var nespēt.

Tajā pašā laikā jums ir jāpieņem svarīgākie lēmumi: ko aizvērt no rāpuļprogrammas, ko atstāt redzamu rāpuļprogrammām, lai lapas parādītos meklēšanā. Nepieredzējušam SEO būs ļoti grūti tikt galā ar šādu darba apjomu.


Lietotāja aģents:* # vispārīgie noteikumi robotiem, izņemot "Yandex" un Google,

Neatļaut: /cgi-bin # mitināšanas mape
neatļaut: /? # visi vaicājuma parametri galvenajā
Neatļaut: /wp- # visi WP faili: /wp-json/, /wp-includes, /wp-content/plugins
Neatļaut: /wp/ # ja ir /wp/ apakšdirektorijs, kurā ir instalēta CMS (ja nē, # noteikumu var noņemt)
Neatļaut: *?s= # meklēšana
Neatļaut: *&s= # meklēšana
Neatļaut: /search/ # meklēšana
Neatļaut: /autors/ # arhivārs
Neatļaut: /lietotāji/ # arhivētāju
Disallow: */trackback # trackbacks, paziņojumi komentāros par atvērtu # saiti uz rakstu
Neatļaut: */feed # visas plūsmas
Neatļaut: */rss # rssfeed
Neatļaut: */embed # visi iegulti
Disallow: */wlwmanifest.xml # Windows Live Writer manifesta xml fails (var noņemt, ja netiek izmantots)
Neatļaut: /xmlrpc.php # WordPress API fails
Neatļaut: *utm*= # saites ar utm tagiem
Neatļaut: *openstat= # tagged linksopenstat
Atļaut: */augšupielādes # atvērta mape ar augšupielādes failiem
Vietnes karte: http://site.ru/sitemap.xml # vietnes kartes adrese

Lietotāja aģents: GoogleBot un # noteikumi Google

Neatļaut: /cgi-bin

Neatļaut: /wp-
Neatļaut: /wp/
Neatļaut: *?s=
Neatļaut: *&s=
Neatļaut: /search/
Neatļaut: /autors/
Neatļaut: /lietotāji/
Neatļaut: */trackback
Neatļaut: */feed
Neatļaut: */rss
Neatļaut: */embed
Neatļaut: */wlwmanifest.xml
Neatļaut: /xmlrpc.php
Neatļaut: *utm*=
Neatļaut: *openstat=
Atļaut: */uploadsAllow: /*/*.js # atvērt js skriptus iekšā /wp- (/*/ - prioritātei)
Atļaut: /*/*.css # atvērt css failus iekšpusē /wp- (/*/ — prioritātei)
Atļaut: /wp-*.png # attēlus spraudņos, kešatmiņas mapē utt.
Atļaut: /wp-*.jpg # attēlus spraudņos, kešatmiņas mapē utt.
Atļaut: /wp-*.jpeg # attēlus spraudņos, kešatmiņas mapē utt.
Atļaut: /wp-*.gif # attēlus spraudņos, kešatmiņas mapē utt.
Atļaut: /wp-admin/admin-ajax.php #, ko izmanto spraudņi, lai nebloķētu JS un CSS

Lietotāja aģents: Yandex # noteikumi Yandex

Neatļaut: /cgi-bin

Neatļaut: /wp-
Neatļaut: /wp/
Neatļaut: *?s=
Neatļaut: *&s=
Neatļaut: /search/
Neatļaut: /autors/
Neatļaut: /lietotāji/
Neatļaut: */trackback
Neatļaut: */feed
Neatļaut: */rss
Neatļaut: */embed
Neatļaut: */wlwmanifest.xml
Neatļaut: /xmlrpc.php
Atļaut: */augšupielādes
Atļaut: /*/*.js
Atļaut: /*/*.css
Atļaut: /wp-*.png
Atļaut: /wp-*.jpg
Atļaut: /wp-*.jpeg
Atļaut: /wp-*.gif
Atļaut: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Yandex iesaka neaizvērt # no indeksēšanas, bet dzēst tagu parametrus, # Google neatbalsta šādus noteikumus
Clean-Param: openstat # līdzīgs



Lietotāja aģents: *
Neatļaut: /administrator/
Neatļaut: /cache/
Neatļaut: /includes/
Neatļaut: /installation/
Neatļaut: /language/
Neatļaut: /bibliotēkas/
Neatļaut: /media/
Neatļaut: /modules/
Neatļaut: /plugins/
Neatļaut: /templates/
Neatļaut: /tmp/
Neatļaut: /xmlrpc/
Vietnes karte: http://jūsu XML vietnes kartes ceļš



Lietotāja aģents: *
Neatļaut: /*index.php$
Neatļaut: /bitrix/
Neatļaut: /auth/
Neatļaut: /personisks/
Neatļaut: /upload/
Neatļaut: /search/
Neatļaut: /*/search/
Neatļaut: /*/slide_show/
Neatļaut: /*/gallery/*order=*
Neatļaut: /*?print=
Neatļaut: /*&print=
Neatļaut: /*register=
Neatļaut: /*forgot_password=
Neatļaut: /*change_password=
Neatļaut: /*login=
Neatļaut: /*logout=
Neatļaut: /*auth=
Neatļaut: /*?action=
Neatļaut: /*action=ADD_TO_COMPARE_LIST
Neatļaut: /*action=DELETE_FROM_COMPARE_LIST
Neatļaut: /*action=ADD2BASKET
Neatļaut: /*action=BUY
Neatļaut: /*bitrix_*=
Neatļaut: /*backurl=*
Neatļaut: /*BACKURL=*
Neatļaut: /*back_url=*
Neatļaut: /*BACK_URL=*
Neatļaut: /*back_url_admin=*
Neatļaut: /*print_course=Y
Neatļaut: /*COURSE_ID=
Neatļaut: /*?COURSE_ID=
Neatļaut: /*?PAGEN
Neatļaut: /*PAGEN_1=
Neatļaut: /*PAGEN_2=
Neatļaut: /*PAGEN_3=
Neatļaut: /*PAGEN_4=
Neatļaut: /*PAGEN_5=
Neatļaut: /*PAGEN_6=
Neatļaut: /*PAGEN_7=


Neatļaut: /*PAGE_NAME=meklēšana
Neatļaut: /*PAGE_NAME=lietotāja_ziņa
Neatļaut: /*PAGE_NAME=detail_slide_show
Neatļaut: /*SHOWALL
Neatļaut: /*show_all=
Vietnes karte: http://jūsu XML vietnes kartes ceļš



Lietotāja aģents: *
Neatļaut: /assets/cache/
Neatļaut: /assets/docs/
Neatļaut: /assets/export/
Neatļaut: /assets/import/
Neatļaut: /assets/modules/
Neatļaut: /assets/plugins/
Neatļaut: /assets/snippets/
Neatļaut: /instalēt/
Neatļaut: /manager/
Vietnes karte: http://site.ru/sitemap.xml

5. Robots.txt, Drupal piemērs

Lietotāja aģents: *
Neatļaut: /datubāze/
Neatļaut: /includes/
Neatļaut: /misc/
Neatļaut: /modules/
Neatļaut: /sites/
Neatļaut: /themes/
Neatļaut: /scripts/
Neatļaut: /updates/
Neatļaut: /profili/
Neatļaut: /profils
Neatļaut: /profile/*
Neatļaut: /xmlrpc.php
Neatļaut: /cron.php
Neatļaut: /update.php
Neatļaut: /install.php
Neatļaut: /index.php
Neatļaut: /admin/
Neatļaut: /comment/reply/
Neatļaut: /kontaktēties/
Neatļaut: /logout/
Neatļaut: /search/
Neatļaut: /user/register/
Neatļaut: /lietotājs/parole/
Neatļaut: *reģistrēties*
Neatļaut: *pieteikties*
Neatļaut: /augstāk novērtēts-
Neatļaut: /ziņas/
Neatļaut: /book/export/
Neatļaut: /user2userpoints/
Neatļaut: /myuserpoints/
Neatļaut: /tagadelic/
Neatļaut: /referral/
Neatļaut: /aggregator/
Neatļaut: /files/pin/
Neatļaut: /jūsu balsis
Neatļaut: /comments/recent
Neatļaut: /*/rediģēt/
Neatļaut: /*/delete/
Neatļaut: /*/export/html/
Neatļaut: /taxonomy/term/*/0$
Neatļaut: /*/rediģēt$
Neatļaut: /*/outline$
Neatļaut: /*/revisions$
Neatļaut: /*/contact$
Neatļaut: /*downloadpipe
Neatļaut: /node$
Neatļaut: /node/*/track$

Neatļaut: /*?page=0
Neatļaut: /*sadaļa
Neatļaut: /* pasūtījums
Neatļaut: /*?kārtot*
Neatļaut: /*&kārtot*
Neatļaut: /*votesupdown
Neatļaut: /*kalendārs
Neatļaut: /*index.php
Atļaut: /*?page=

Vietnes karte: http://ceļš uz jūsu XML vietnes karti

UZMANĪBU! Vietnes satura pārvaldības sistēmas tiek pastāvīgi atjauninātas, tāpēc var mainīties arī robotu fails: var tikt aizvērtas papildu lapas vai failu grupas vai, gluži pretēji, atvērtas indeksēšanai. Tas ir atkarīgs no tīmekļa resursa mērķiem un pašreizējām dzinēja izmaiņām.

7 izplatītas kļūdas, indeksējot vietni, izmantojot failu robots.txt



Faila izveides laikā pieļautās kļūdas izraisa robots.txt nepareizu darbību vai pat noved pie tā, ka fails nevar darboties.

Kādas kļūdas ir iespējamas:

  • Loģiski (atzīmētie noteikumi saduras). Šāda veida kļūdu varat noteikt testēšanas laikā pakalpojumā Yandex.Webmaster un GoogleRobotsTestingTool.
  • Sintaktiskā (direktīvas ir rakstītas ar kļūdām).

Biežāk nekā citi ir:

  • ierakstā nav reģistrjutīga;
  • tiek lietoti lielie burti;
  • visi noteikumi ir uzskaitīti vienā rindā;
  • noteikumi nav atdalīti ar tukšu rindu;
  • rāpuļprogrammas norādīšana direktīvā;
  • katrs aizveramās mapes fails ir norādīts atsevišķi;
  • trūkst obligātās Disallow direktīvas.

Apsveriet bieži pieļautās kļūdas, to sekas un, pats galvenais, pasākumus to novēršanai savā tīmekļa resursā.

  1. Faila atrašanās vieta. Faila URL ir jābūt šādā formā: http://site.ru/robots.txt (vietnes site.ru vietā ir norādīta jūsu vietnes adrese). Fails robots.txt atrodas tikai resursa saknes mapē — pretējā gadījumā meklēšanas zirnekļi to neredzēs. Bez aizlieguma viņi pārmeklēs visu vietni un pat tos failus un mapes, kurus vēlaties paslēpt no meklēšanas rezultātiem.
  2. Reģistrjutīgs. Bez lielajiem burtiem. http://site.ru/Robots.txt ir nepareizs. Šādā gadījumā meklētājprogrammas robots kā servera atbildi saņems 404 (kļūdas lapa) vai 301 (novirzīšana). Rāpošana notiks, neņemot vērā robotos norādītās direktīvas. Ja viss ir izdarīts pareizi, servera atbilde ir kods 200, kurā resursa īpašnieks varēs kontrolēt meklēšanas rāpuļprogrammu. Vienīgā pareizā opcija ir "robots.txt".
  3. Atvēršana pārlūkprogrammas lapā. Meklēšanas zirnekļi varēs pareizi nolasīt un izmantot faila robots.txt direktīvas tikai tad, ja tas tiks atvērts pārlūkprogrammas lapā. Ir svarīgi pievērst īpašu uzmanību dzinēja servera pusei. Dažreiz šāda veida fails tiek piedāvāts lejupielādei. Tad jums vajadzētu iestatīt displeju - pretējā gadījumā roboti pārmeklēs vietni, kā vēlas.
  4. Aizliegumu un atļauju kļūdas."Neatļaut" - direktīva, kas aizliedz vietnes vai tās sadaļu skenēšanu. Piemēram, jums ir jāliedz robotiem indeksēt lapas ar meklēšanas rezultātiem vietnē. Šajā gadījumā failā robots.txt ir jāietver rindiņa: "Disallow: /search/". Rāpuļprogramma saprot, ka visās lapās, kurās notiek "meklēšana", ir aizliegts pārmeklēt. Ar pilnīgu indeksēšanas aizliegumu tiek rakstīts Disallow: /. Bet atļaujošā direktīva "Atļaut" šajā gadījumā nav nepieciešama. Lai gan nav neparasti, ka komanda tiek rakstīta šādi: “Atļaut:”, pieņemot, ka robots to uztvers kā atļauju indeksēt “neko”. Varat atļaut indeksēt visu vietni, izmantojot direktīvu "Atļaut: /". Nav nepieciešams sajaukt komandas. Tas noved pie zirnekļu rāpuļprogrammas kļūdām, kas galu galā pievieno lapas, kas absolūti nav tās, kuras vajadzētu reklamēt.
  5. direktīvas atbilstība. Disallow: un Allow: vienai lapai ir atrodami robotos, kā rezultātā rāpuļprogrammas piešķir prioritāti atļaujas direktīvai. Piemēram, sākotnēji nodalījums tika atvērts zirnekļu pārmeklēšanai. Tad nez kāpēc tika nolemts to slēpt no indeksa. Protams, failam robots.txt tiek pievienots aizliegums, taču tīmekļa pārzinis aizmirst noņemt atļauju. Meklētājprogrammām aizliegums nav tik svarīgs: viņi dod priekšroku lapas indeksēšanai, apejot komandas, kas izslēdz viena otru.
  6. Uzņēmēja direktīva:. Atpazīst tikai Yandex zirnekļi un izmanto, lai noteiktu galveno spoguli. Noderīga komanda, bet diemžēl šķiet, ka tā ir kļūdaina vai nav zināma visām citām meklētājprogrammām. Iesaistot to savos robotos, kā User-agent ir optimāli norādīt: ikviens un Yandex robots, kuram varat personīgi reģistrēt Host komandu:

    Lietotāja aģents: Yandex
    Saimnieks: site.ru

    Visām rāpuļprogrammām paredzēto direktīvu viņi uztvers kā kļūdainu.

  7. Vietnes kartes direktīva:. Ar vietnes kartes palīdzību robotprogrammatūra uzzina, kuras lapas atrodas tīmekļa resursā. Ļoti izplatīta kļūda ir tāda, ka izstrādātāji nepievērš uzmanību faila sitemap.xml atrašanās vietai, lai gan tas nosaka kartē iekļauto URL sarakstu. Novietojot failu ārpus saknes mapes, paši izstrādātāji pakļauj vietni riskam: rāpuļprogrammas nepareizi nosaka lapu skaitu, kā rezultātā svarīgas tīmekļa resursa daļas netiek iekļautas meklēšanas rezultātos.

Piemēram, ievietojot vietnes kartes failu direktorijā ar URL http://primer.ru/catalog/sitemap.xml , varat iekļaut jebkurus URL, kas sākas ar http://primer.ru/catalog/ ... Un URL piemēram, teiksim, http://primer.ru/images/ ... nevajadzētu iekļaut sarakstā.

Apkopojiet. Ja vietnes īpašnieks vēlas ietekmēt tīmekļa resursa indeksēšanas procesu, izmantojot meklēšanas robotus, failam robots.txt ir īpaša nozīme. Ir nepieciešams rūpīgi pārbaudīt izveidotajā dokumentā loģiskās un sintaktiskās kļūdas, lai beigās direktīvas darbotos jūsu vietnes vispārējiem panākumiem, nodrošinot kvalitatīvu un ātru indeksēšanu.

Kā izvairīties no kļūdām, izveidojot pareizu robots.txt struktūru vietņu indeksēšanai



Robots.txt struktūra ir skaidra un vienkārša, ir pilnīgi iespējams uzrakstīt failu pats. Jums vienkārši rūpīgi jāuzrauga sintakse, kas ir ārkārtīgi svarīga robotiem. Meklēšanas roboti brīvprātīgi ievēro dokumenta norādījumus, taču meklētājprogrammas sintaksi interpretē atšķirīgi.

Tālāk norādīto obligāto noteikumu saraksts palīdzēs novērst visbiežāk pieļautās kļūdas, veidojot failu robots.txt. Lai uzrakstītu pareizo dokumentu, jums jāatceras, ka:

  • katra direktīva sākas jaunā rindā;
  • vienā rindā - ne vairāk kā viena komanda;
  • atstarpi nevar ievietot rindas sākumā;
  • komandas parametram jābūt vienā rindā;
  • direktīvas parametri nav jāmin;
  • komandas parametriem nav nepieciešams semikolu beigās;
  • direktīva failā robots.txt ir norādīta šādā formātā: [komandas_nosaukums]:[izvēles atstarpe][vērtība][izvēles atstarpe];
  • aiz mārciņas zīmes robots.txt ir atļauti # komentāri;
  • tukša virkne var tikt interpretēta kā User-agent komandas beigas;
  • aizliedzošā direktīva ar tukšu vērtību - "Disallow:" ir līdzīga direktīvai "Allow: /", kas ļauj skenēt visu vietni;
  • Direktīvās "Allow", "Disallow" var būt ne vairāk kā viens parametrs. Katrs jauns parametrs tiek ierakstīts jaunā rindā;
  • faila robots.txt nosaukumā tiek izmantoti tikai mazie burti. Robots.txt vai ROBOTS.TXT - kļūdaina pareizrakstība;
  • Standarts robots.txt neregulē reģistrjutību, taču faili un mapes šajā jautājumā bieži ir jutīgas. Tāpēc, lai gan komandu un parametru nosaukumos ir pieļaujams izmantot lielos burtus, tas tiek uzskatīts par sliktu formu. Ar lielo burtu labāk neaizrauties;
  • ja komandas parametrs ir mape, pirms nosaukuma ir nepieciešama slīpsvītra "/", piemēram: Disallow: /category;
  • ja fails robots.txt sver vairāk nekā 32 KB, meklēšanas roboti to uztver kā līdzvērtīgu “Disallow:” un uzskata, ka tas pilnībā ļauj indeksēt;
  • robots.txt nepieejamību (dažādu iemeslu dēļ) rāpuļprogrammas var uztvert kā pārmeklēšanas aizliegumu neesamību;
  • tukšs robots.txt tiek uzskatīts par tādu, kas ļauj indeksēt vietni kopumā;
  • ja vairākas "User-agent" komandas ir uzskaitītas bez tukšas rindiņas starp tām, meklēšanas zirnekļi var uzskatīt pirmo direktīvu kā vienīgo, ignorējot visas turpmākās "User-agent" direktīvas;
  • robots.txt neļauj izmantot nacionālo alfabētu simbolus.

Iepriekš minētie noteikumi neattiecas uz visām meklētājprogrammām, jo ​​tie interpretē robots.txt sintaksi atšķirīgi. Piemēram, "Yandex" atlasa ierakstus pēc klātbūtnes rindā "User-agent", tāpēc tam nav nozīmes, vai starp dažādām "User-agent" direktīvām ir tukša rinda.

Kopumā robotos jāiekļauj tikai tas, kas patiešām nepieciešams pareizai indeksēšanai. Nav nepieciešams mēģināt aptvert milzīgumu un ievietot dokumentā maksimālo datu daudzumu. Labākais robots.txt ir jēgpilns fails, rindu skaitam nav nozīmes.

Teksta dokumentu robotiem ir jāpārbauda pareiza struktūra un pareiza sintakse, kas palīdzēs tīmeklī piedāvātajiem pakalpojumiem. Lai to izdarītu, jūsu vietnes saknes mapē ir jāaugšupielādē fails robots.txt, pretējā gadījumā pakalpojums var ziņot, ka tas nevarēja ielādēt nepieciešamo dokumentu. Pirms faila robots.txt ieteicams pārbaudīt pieejamību faila adresē (your_site.ru/robots.txt).

Lielākās meklētājprogrammas Yandex un Google piedāvā savus vietņu analīzes pakalpojumus tīmekļa pārziņiem. Viens no analītiskā darba aspektiem ir robotu pārbaude:

Internetā ir daudz tiešsaistes robots.txt pārbaudītāju, jūs varat izvēlēties jebkuru, kas jums patīk.

Masīvs ( => 24 [~ID] => 24 => 10.10.2019 18:52:28 [~TIMESTAMP_X] => 10.10.2019 18:52:28 => 1 [~MODIFIED_Y] => 1 => 10.10. 2019, 18:51:03 [~DATE_CREATE] => 10/10/2019 18:51:03 => 1 [~CREATED_BY] => 1 => 6 [~IBLOCK_ID] => 6 => [~IBLOCK_SECTION_ID] => => Y [~ACTIVE] => Y => Y [~GLOBAL_ACTIVE] => Y => 500 [~SORT] => 500 => Pāvela Bobiļeva raksti [~NAME] => Pāvela Bobiļeva raksti => 11744 [ ~ATTĒLS] => 11744 => 13 [~LEFT_MARGIN] => 13 => 14 [~RIGHT_MARGIN] => 14 => 1 [~DEPTH_LEVEL] => 1 => Pāvels Bobiļevs [~APRAKSTS] => Pāvels Bobiļevs => teksts [~DESCRIPTION_TYPE ] => teksts => Pāvela Bobiļeva raksti Pāvela Bobiļeva [~SEARCHABLE_CONTENT] => Pāvela Bobiļeva raksti Pāvela Bobiļeva => stati-pavla-bobyleva [~CODE] => stati-pavla-bobyleva => [~ XML_ID] => => [~TMP_ID] => => [~DETAIL_PICTURE] => => [~SOCNET_GROUP_ID] => => /blog/index.php?ID=6 [~LIST_PAGE_URL] => /blog/index .php?ID=6 => /blog/list.php?SECTION_ID=24 [~SECTION_PAGE_URL] => /b log/list.php?SECTION_ID=24 => emuārs [~IBLOCK_TYPE_ID] => emuārs => emuārs [~IBLOCK_CODE] => emuārs => [~IBLOCK_EXTERNAL_ID] => => [~EXTERNAL_ID] =>)