A robotok txtje megakadályozza az oldalindexelést. Hogyan lehet letiltani a szükséges oldalak indexelését

Robots.txt fájl— .txt formátumú szöveges fájl, amely korlátozza a keresőrobotok hozzáférését a http-kiszolgálón lévő tartalomhoz. Hogyan definíció, Robots.txt- azt robot kivétel szabvány, amelyet a W3C 1994. január 30-án fogadott el, és a legtöbb keresőmotor önkéntesen használja. A robots.txt fájl utasításokat tartalmaz a feltérképező robotok számára, amelyek megakadályozzák bizonyos fájlok, oldalak vagy könyvtárak indexelését egy webhelyen. Fontolja meg a robots.txt leírását arra az esetre, ha a webhely nem korlátozza a robotok hozzáférését a webhelyhez.

Egy egyszerű példa a robots.txt fájlra:

User-agent: * Engedélyezés: /

Itt a robotok teljes mértékben lehetővé teszik a teljes webhely indexelését.

A robots.txt fájlt fel kell tölteni webhelye gyökérkönyvtárába hogy elérhető legyen:

Your_site.ru/robots.txt

A robots.txt fájl elhelyezése a webhely gyökerében általában FTP-hozzáférést igényel. Egyes felügyeleti rendszerek (CMS) azonban lehetővé teszik a robots.txt létrehozását közvetlenül a webhely vezérlőpultjáról vagy a beépített FTP-kezelőn keresztül.

Ha a fájl elérhető, akkor a robots.txt tartalma megjelenik a böngészőben.

Mire való a robots.txt?

A webhely Roots.txt fájlja fontos szempont. Miért van szükség a robots.txt fájlra?? Például be A SEO robots.txt fájlra azért van szükség, hogy kizárja az indexelésből azokat az oldalakat, amelyek nem tartalmaznak hasznos tartalmat és még sok mást. Hogy hogyan, mit, miért és miért van kizárva, azt már a cikkben leírtuk, itt nem fogunk foglalkozni vele. Szükségem van egy robots.txt fájlra? minden oldal? Igen és nem. Ha a robots.txt használata az oldalak kizárását vonja maga után a keresésből, akkor az egyszerű szerkezetű és statikus oldalakon az ilyen kizárások szükségtelenek lehetnek. Azonban még egy kis oldal esetében is néhány robots.txt direktívák, mint például a gazdagép vagy webhelytérkép irányelv, de erről lentebb olvashat bővebben.

A robots.txt létrehozása

Mivel a robots.txt egy szöveges fájl, és a hozzon létre egy robots.txt fájlt, használhatsz például bármilyen szövegszerkesztőt jegyzettömb. Amint megnyitott egy új szöveges dokumentumot, már megkezdte a robots.txt létrehozását, már csak a tartalmat kell összeállítania, az Ön igényeitől függően, és elmenteni más néven. robotok nevű szövegfájl txt formátumban. Egyszerű, és a robots.txt fájl létrehozása még a kezdőknek sem okozhat gondot. Az alábbiakban megmutatom, hogyan kell írni a robots.txt fájlt, és mit kell írni a robotokban.

Hozzon létre online robots.txt fájlt

Lehetőség a lusták számára hozzon létre robotokat online, és töltse le a robots.txt fájlt már kész. A robotok txt online létrehozása számos szolgáltatást kínál, a választás az Öné. A lényeg az, hogy világosan megértsük, mi lesz tilos és mi megengedett, ellenkező esetben egy robots.txt fájl online létrehozása tragédiába torkollhat amit aztán nehéz lehet korrigálni. Főleg, ha olyan dolog kerül a keresésbe, amit le kellett volna zárni. Legyen óvatos – ellenőrizze a robots fájlt, mielőtt feltölti a webhelyre. Még egyéni robots.txt fájl pontosabban tükrözi a korlátozások szerkezetét, mint az automatikusan generált és egy másik oldalról letöltött. Olvasson tovább, hogy megtudja, mire kell különös figyelmet fordítania a robots.txt szerkesztésekor.

A robots.txt szerkesztése

Miután sikerült létrehoznia egy robots.txt fájlt online vagy kézzel, megteheti szerkessze a robots.txt fájlt. A tartalmát tetszés szerint módosíthatja, a lényeg az, hogy kövesse a robots.txt néhány szabályát és szintaxisát. Az oldalon végzett munka során a robots fájl módosulhat, és ha szerkeszti a robots.txt fájlt, akkor ne felejtse el feltölteni a fájl frissített, naprakész verzióját az összes változtatással az oldalon. Ezután fontolja meg a fájl beállításának szabályait, hogy megtudja hogyan kell megváltoztatni a robots.txt fájltés "ne vágj fát".

A robots.txt megfelelő beállítása

A robots.txt megfelelő beállítása lehetővé teszi, hogy elkerülje a személyes adatok megszerzését a nagy keresőmotorok keresési eredményei között. Ezt azonban ne felejtsd el A robots.txt parancsai nem mások, mint cselekvési útmutató, nem védekezés. Az olyan megbízható keresőrobotok, mint a Yandex vagy a Google, követik a robots.txt utasításait, de más robotok könnyen figyelmen kívül hagyhatják azokat. A robots.txt megfelelő megértése és használata a kulcs az eredmények eléréséhez.

Megérteni hogyan készítsünk helyes robotok txt-et, először meg kell értened a robots.txt fájl általános szabályait, szintaxisát és direktíváit.

A helyes robots.txt a User-agent utasítással kezdődik, amely jelzi, hogy az adott direktívák melyik robotnak szólnak.

Példák felhasználói ügynökre a robots.txt fájlban:

# Az összes robothoz egyidejűleg ad meg direktívákat User-agent: * # Az összes Yandex robothoz direktívát ad meg User-agent: Yandex # Csak a fő Yandex indexelő robothoz ad meg direktívákat User-agent: YandexBot # Az összes Google robot direktíváját adja meg User-agent: Googlebot

Felhívjuk figyelmét, hogy az ilyen a robots.txt fájl beállítása utasítja a robotot, hogy csak olyan direktívákat használjon, amelyek megegyeznek a felhasználói ügynök nevével.

Robots.txt példa több User-agent bejegyzéssel:

# Az összes Yandex robot fogja használni User-agent: Yandex Disallow: /*utm_ # Minden Google robot használja User-agent: Googlebot Disallow: /*utm_ # Minden robot használja, kivéve a Yandex robotokat és a Google User- ügynök: * Engedélyezés: / *utm_

Felhasználói ügynök direktíva csak egy jelzést hoz létre egy adott robotra, és közvetlenül a User-agent direktíva után kell lennie egy vagy parancsoknak, amelyek közvetlenül jelzik a kiválasztott robot állapotát. A fenti példa a „Disallow” disable direktívát használja, amelynek értéke „/*utm_”. Így mindent lezárunk. A robots.txt helyes beállítása megakadályozza, hogy üres sortörések jelenjenek meg a "User-agent", a "Disallow" direktívák és a "Disallow" után következő utasítások között az aktuális "User-agent"-en belül.

Példa egy helytelen soremelésre a robots.txt fájlban:

Példa a robots.txt helyes soremelésére:

User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Ahogy a példából is látszik, A robots.txt fájlban található utasítások blokkokban jelennek meg, amelyek mindegyike utasításokat tartalmaz egy adott robothoz vagy az összes robothoz "*".

Ezen kívül fontos követni helyes sorrendbenés a parancsok rendezése a robots.txt fájlban, amikor olyan direktívákat osztanak meg, mint a "Disallow" és az "Allow". Az "Allow" direktíva a megengedő utasítás, és ellentéte a robots.txt "Disallow" parancsának, amely egy tiltó direktíva.

Példa az utasítások megosztására a robots.txt fájlban:

User-agent: * Allow: /blog/page Disallow: /blog

Ez a példa megakadályozza, hogy minden robot indexeljen minden „/blog” kezdetű oldalt, de lehetővé teszi a „/blog/page” kezdetű oldalak indexelését.

A robots.txt előző példája a megfelelő sorrendben:

User-agent: * Disallow: /blog Engedélyezés: /blog/oldal

Először letiltjuk a teljes részt, majd engedélyezzük egyes részeit.

Egy másik helyes robots.txt példa közös irányelvekkel:

User-agent: * Allow: / Disallow: /blog Engedélyezés: /blog/oldal

Ügyeljen az utasítások helyes sorrendjére ebben a robots.txt fájlban.

Az "Allow" és "Disallow" direktívák paraméterek nélkül is megadhatók, ebben az esetben az érték a "/" paraméterrel fordítottan értelmeződik.

Példa a "Disallow/Allow" direktívára paraméterek nélkül:

User-agent: * Disallow: # egyenlő az Allow: / Disallow: /blog Allow: /blog/page

A megfelelő robots.txt összeállításaés a direktívák értelmezésének felhasználása az Ön döntése. Mindkét lehetőség helyes lesz. A lényeg, hogy ne keveredj össze.

A robots.txt helyes összeállításához pontosan meg kell adni a direktívák paramétereiben a prioritásokat és azt, hogy mit tiltanak le a robotok által. Az alábbiakban részletesebben megvizsgáljuk a "Disallow" és az "Allow" direktívák használatát, de most nézzük meg a robots.txt szintaxisát. A robots.txt szintaxisának ismerete közelebb visz saját kezűleg készítse el a tökéletes robotok txtjét.

Robots.txt szintaxis

A keresőrobotok önként követik a robots.txt parancsait- a szabvány a robotokra vonatkozó kivételekre, de nem mindenre kereső motorok ugyanúgy kezelje a robots.txt szintaxisát. A robots.txt fájlnak van egy szigorúan meghatározott szintaxisa, de ugyanakkor írj robotok txt-t nem nehéz, mivel szerkezete nagyon egyszerű és könnyen érthető.

Itt található az egyszerű szabályok konkrét listája, amelyek betartása kizárásra kerül gyakori robots.txt hibák:

  1. Minden direktíva új sorban kezdődik;
  2. Egy sorba ne írjon be több irányelvet;
  3. Ne tegyen szóközt a sor elejére;
  4. Az irányelv paraméterének egy sorban kell lennie;
  5. Nem kell idézőjelbe tenni az irányelv paramétereit;
  6. Az irányelv paraméterei nem igényelnek záró pontosvesszőt;
  7. A robots.txt fájlban található parancs a következő formátumban van megadva: [irányelv_neve]:[nem kötelező szóköz][érték][nem kötelező szóköz];
  8. Megjegyzések engedélyezettek a robots.txt fájlban a # font jel után;
  9. Az üres újsor értelmezhető egy User-agent direktíva végeként;
  10. A "Disallow:" direktíva (üres értékkel) egyenértékű az "Allow: /" -vel - mindent engedélyez;
  11. Az "Allow", "Disallow" direktívák legfeljebb egy paramétert adnak meg;
  12. A robots.txt fájl neve nem teszi lehetővé a nagybetűk jelenlétét, a fájlnév hibás elírása Robots.txt vagy ROBOTS.TXT;
  13. A direktívák és paraméterek nevének nagybetűs írása rossz formának minősül, és ha a szabvány szerint a robots.txt nem tesz különbséget a kis- és nagybetűk között, akkor a fájl- és könyvtárnevek gyakran megkülönböztetik a kis- és nagybetűket;
  14. Ha a direktíva paramétere egy könyvtár, akkor a könyvtár nevét mindig egy perjel előzi meg "/", például: Disallow: /category
  15. A túl nagy robots.txt (több mint 32 KB) teljes mértékben megengedőnek minősül, ami egyenértékű a "Disallow:" kifejezéssel;
  16. A valamilyen okból elérhetetlen Robots.txt teljes mértékben megengedőként kezelhető;
  17. Ha a robots.txt üres, akkor a rendszer teljesen megengedőként kezeli;
  18. Több "User-agent" direktíva üres újsor nélküli listázásának eredményeképpen az első kivételével minden további "User-agent" direktíva figyelmen kívül hagyható;
  19. A nemzeti ábécé jeleinek használata a robots.txt fájlban nem megengedett.

Mivel a különböző keresőmotorok eltérően értelmezhetik a robots.txt szintaxisát, néhány pont elhagyható. Ha például több „User-agent” direktívát ad meg üres sortörés nélkül, a Yandex minden „User-agent” direktívát helyesen fogad el, mivel a Yandex a „User-agent” sorban való jelenléte alapján emeli ki a bejegyzéseket. .

A robotoknak szigorúan csak azt kell jelezniük, amire szükség van, és semmi többet. Ne gondolkozz hogyan kell mindent beírni robots txt-be mi lehetséges és hogyan kell kitölteni. Tökéletes robotok txt az, amelynek kevesebb sora van, de több jelentése van. "A rövidség az okosság lelke." Ez a kifejezés nagyon hasznos itt.

A robots.txt ellenőrzése

Azért, hogy ellenőrizze a robots.txt fájlt a fájl helyes szintaxisához és szerkezetéhez az online szolgáltatások egyikét használhatja. Például a Yandex és a Google saját szolgáltatásokat kínál a webmesterek számára, amelyek magukban foglalják robots.txt elemzése:

A robots.txt fájl ellenőrzése a Yandex.Webmasterben: http://webmaster.yandex.ru/robots.xml

Azért, hogy ellenőrizze a robots.txt fájlt online szükséges töltse fel a robots.txt fájlt a webhelyre a gyökérkönyvtárban. Ellenkező esetben a szolgáltatás jelentheti ezt nem sikerült betölteni a robots.txt fájlt. Javasoljuk, hogy először ellenőrizze a robots.txt elérhetőségét azon a címen, ahol a fájl található, például: your_site.ru/robots.txt.

A Yandex és a Google ellenőrző szolgáltatásain kívül sok más online szolgáltatás is elérhető. robots.txt érvényesítők.

Robots.txt vs Yandex és Google

Van egy szubjektív vélemény, hogy a Yandex pozitívabban érzékeli a robots.txt fájlban a „User-agent: Yandex” külön direktívablokk jelzését, mint a „User-agent: *” direktívák általános blokkját. Hasonló a helyzet a robots.txt és a Google esetében is. A Yandex és a Google külön direktíváinak megadása lehetővé teszi a webhelyindexelés kezelését a robots.txt fájlon keresztül. Talán hízelgett nekik a személyes vonzalom, különösen azért, mert a legtöbb webhelyen a Yandex, a Google és más keresőmotorok robots.txt blokkjainak tartalma ugyanaz lesz. Ritka kivételektől eltekintve az összes "User-agent" blokk rendelkezik alapértelmezett a robots.txt számára direktívák halmaza. Ezenkívül különböző "Felhasználói ügynökök" használatával telepítheti az indexelés tilalma a robots.txt fájlban a Yandex számára, de például nem a Google számára.

Külön érdemes megjegyezni, hogy a Yandex figyelembe vesz egy olyan fontos direktívát, mint a "Host", és a Yandex megfelelő robots.txt-jének tartalmaznia kell ezt az irányelvet a fő webhelytükör jelzésére. A "Host" irányelvet az alábbiakban részletesebben tárgyaljuk.

Indexelés letiltása: robots.txt Disallow

Disallow – tiltó utasítás, amelyet leggyakrabban a robots.txt fájlban használnak. A Disallow tiltja a webhely vagy annak egy részének indexelését, a Disallow direktíva paraméterében megadott elérési úttól függően.

Példa a webhelyindexelés letiltására a robots.txt fájlban:

User-agent: * Disallow: /

Ez a példa bezárja a teljes webhelyet az indexelés elől minden robot számára.

A speciális * és $ karakterek használhatók a Disallow direktíva paraméterében:

* - tetszőleges számú karakter, például a /page* paraméter kielégíti a /page, /page1, /page-be-cool, /page/kak-skazat stb. Nem kell azonban minden paraméter végére *-t írni, mivel például a következő direktívák értelmezése ugyanúgy történik:

User-agent: Yandex Disallow: /page User-agent: Yandex Disallow: /page*

$ - a kivétel pontos egyezését jelzi a paraméterértékkel:

Felhasználói ügynök: Googlebot Disallow: /page$

Ebben az esetben a Disallow utasítás letiltja a /page, de nem tiltja meg a /page1, /page-be-cool és /page/kak-skazat indexelését.

Ha zárja be a robots.txt webhelyindexelést, a keresőmotorok egy ilyen lépésre a „Blocked in robots.txt fájlban” vagy „az URL-t a robots.txt korlátozza” (az URL-t a robots.txt fájl tiltja) hibával válaszolhatják. Ha szükséged van oldalindexelés letiltása, nem csak robots txt-t, hanem hasonló html címkéket is használhatsz:

  • - ne indexelje az oldal tartalmát;
  • - ne kövesse az oldalon található hivatkozásokat;
  • - tilos tartalmat indexelni és linkeket követni az oldalon;
  • - hasonló a content="none"-hoz.

Indexelés engedélyezése: robots.txt Engedélyezés

Engedélyezés – engedélyező direktívaés a Disallow direktíva ellentéte. Ennek az irányelvnek a szintaxisa hasonló a Disallow-hoz.

Példa a webhelyindexelés letiltására a robots.txt fájlban, kivéve néhány oldalt:

User-agent: * Disallow: /Allow: /page

Tilos a teljes oldal indexelése, kivéve a /page kezdetű oldalakat.

Disallow és Allow üres paraméterértékkel

Egy üres Disallow direktíva:

User-agent: * Disallow:

Ne tiltson semmit, és ne engedélyezze a teljes webhely indexelését, és egyenértékű:

User-agent: * Engedélyezés: /

Üres utasítás Engedélyezi:

User-agent: * Engedélyezés:

Semmit sem engedélyez vagy a webhelyindexelés teljes tiltása a következővel egyenértékű:

User-agent: * Disallow: /

Főoldal tükör: robots.txt gazdagép

A Host direktíva arra szolgál, hogy jelezze a Yandex robotnak a webhely fő tükrét. Az összes népszerű keresőmotor közül az irányelv A gazdagépet csak a Yandex robotok ismerik fel. A Host direktíva akkor hasznos, ha webhelye több webhelyen is elérhető, például:

mysite.ru mysite.com

Vagy prioritást adjon a következők között:

Saját oldal.ru www.mysite.ru

Megmondhatja a Yandex robotnak, hogy melyik tükör a fő. A Host direktíva a "User-agent: Yandex" direktíva blokkban van megadva, és paraméterként a preferált webhely címe jelenik meg "http://" nélkül.

Példa a fő tükröt jelző robots.txt fájlra:

Felhasználói ügynök: Yandex Disallow: /page Host: mysite.ru

A mysite.ru domain név www nélkül jelenik meg főtükörként. Így ez a címtípus megjelenik a keresési eredmények között.

Felhasználói ügynök: Yandex Disallow: /page Host: www.mysite.ru

A www.mysite.ru domain név fő tükörként jelenik meg.

Host direktíva a robots.txt fájlban csak egyszer használható, ha a Host direktívát többször adjuk meg, akkor csak az elsőt veszi figyelembe, a többi Host direktívát figyelmen kívül hagyja.

Ha meg szeretné adni a Googlebot fő tükrét, használja a Google Webmestereszközök szolgáltatást.

Webhelytérkép: robots.txt webhelytérkép

A Sitemap direktíva segítségével megadhatja a helyet a webhelyen a robots.txt fájlban.

Robots.txt példa webhelytérkép-címmel:

User-agent: * Disallow: /page Webhelytérkép: http://www.mysite.ru/sitemap.xml

Az oldaltérkép címének megadása keresztül sitemap direktíva a robots.txt fájlban lehetővé teszi a keresőrobot számára, hogy tájékozódjon a webhelytérkép jelenlétéről, és elkezdje indexelni.

Clean-param irányelv

A Clean-param direktíva lehetővé teszi a dinamikus paraméterekkel rendelkező oldalak kizárását az indexelésből. A hasonló oldalak ugyanazt a tartalmat jeleníthetik meg különböző oldal URL-ekkel. Egyszerűen fogalmazva, mintha az oldal különböző címeken érhető el. A mi feladatunk az összes felesleges dinamikus cím eltávolítása, ami akár millió is lehet. Ehhez kizárunk minden dinamikus paramétert, a Clean-param direktíva használatával a robots.txt fájlban.

A Clean-param direktíva szintaxisa:

Tiszta paraméter: parm1[&parm2&parm3&parm4&..&parmn] [Elérési út]

Vegyünk egy példát egy oldalra a következő URL-lel:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Példa robots.txt Clean-param:

Clean-param: csak parm1&parm2&parm3 /page.html # page.html

Clean-param: parm1&parm2&parm3 / # mindenkinek

Feltérképezési késleltetési utasítás

Ez az utasítás lehetővé teszi, hogy csökkentse a szerver terhelését, ha a robotok túl gyakran keresik fel webhelyét. Ez az irányelv főleg a nagy mennyiségű oldalt tartalmazó webhelyekre vonatkozik.

Példa robots.txt feltérképezési késleltetésre:

User-agent: Yandex Disallow: /page Feltérképezési késleltetés: 3

Ebben az esetben "megkérjük" a Yandex robotokat, hogy legfeljebb három másodpercenként töltsék le webhelyünk oldalait. Néhány keresőmotor támogatja a decimális formátumot paraméterként Feltérképezési késleltetésű robots.txt direktívák.

Néha szükséges, hogy az oldal oldalai vagy az azokon elhelyezett linkek ne jelenjenek meg a keresési eredmények között. A webhely tartalmát elrejtheti az indexelés elől a robots.txt fájl, a HTML-jelölés vagy a webhelyen található engedélyezés segítségével.

Egy webhely, szakasz vagy oldal indexelésének tilalma

Ha a webhely egyes oldalait vagy részeit nem kell indexelni (például védett vagy bizalmas információkkal), korlátozza a hozzáférést az alábbi módokon:

    Használjon jogosultságot az oldalon. Ezt a módszert javasoljuk a webhely főoldalának elrejtésére az indexelés elől. Ha a kezdőlap le van tiltva a robots.txt fájlban vagy a noindex metatag használatával, de hivatkozva van rá, akkor az oldal megjelenhet a keresési eredmények között.

Az oldaltartalom indexelésének tilalma

Az oldal szövegének egy részének elrejtése az indexelés elől

Az oldal HTML-kódjában adja hozzá a noindex elemet. Például:

Az elem nem érzékeny a beágyazásra – bárhol elhelyezkedhet az oldal HTML kódjában. Ha érvényessé kell tennie a webhely kódját, a következő formátumban használhatja a címkét:

indexelendő szövegEgy oldalon lévő hivatkozás elrejtése az indexelés elől

Az oldal HTML-kódjában adja hozzá az a attribútumot az a elemhez. Például:

Az attribútum a robots metatag nofollow direktívájához hasonlóan működik, de csak arra a hivatkozásra vonatkozik, amelyhez meg van adva.

A robots.txt for wordpress az indexelés beállításának egyik fő eszköze. Korábban a cikkindexelési folyamat felgyorsításáról és javításáról beszéltünk. Ráadásul úgy ítélték meg ezt a kérdést, mintha a keresőrobot nem tudna és nem tudna mit tenni. És el kell mondanunk neki. Ehhez oldaltérkép fájlt használtunk.

Talán még mindig nem tudja, hogyan indexeli webhelyét a keresőrobot? Alapértelmezés szerint minden indexelhető. De nem teszi meg azonnal. A robot, miután kapott egy jelzést, hogy meg kell látogatni a helyszínt, sorba állítja. Ezért az indexelés nem azonnal a mi kérésünkre történik, hanem egy idő után. Ha az Ön webhelyére kerül a sor, ez a pókrobot ott van. Először is megkeresi a robots.txt fájlt.

Ha a robots.txt megtalálható, akkor az összes direktívát beolvassa, és a fájl címét látja a végén. Ezután a robot az oldaltérképnek megfelelően megkerüli az indexeléshez biztosított összes anyagot. Ezt korlátozott időn belül teszi meg. Éppen ezért, ha több ezer oldalas webhelyet hozott létre, és azt teljes egészében közzétette, akkor a robotnak egyszerűen nem lesz ideje az összes oldalt egy menetben körbejárni. És csak azok kerülnek be az indexbe, amelyeket sikerült megnéznie. A robot pedig végigjárja az oldalt, és azzal tölti az idejét. És nem tény, hogy eleve pontosan azokat az oldalakat fogja látni a keresési eredmények között, amelyekre Ön vár.

Ha a robot nem találja a robots.txt fájlt, úgy tekinti, hogy minden indexelhető. És elkezd turkálni a hátsó utcákon. Miután elkészítette a teljes másolatot mindenről, amit talált, elhagyja webhelyét a következő alkalomig. Mint érti, egy ilyen keresés után minden, ami szükséges, és minden, ami nem szükséges, bekerül a keresőmotor indexbázisába. Amit tudnod kell, az a cikkeid, oldalaid, képeid, videóid stb. Miért nem kell indexelni?

A WordPress számára ez nagyon fontos kérdésnek bizonyul. A rá adott válasz hatással van a webhelye tartalmának indexelésének felgyorsítására és annak biztonságára is. A helyzet az, hogy nem kell minden szolgáltatási információt indexelni. És általában kívánatos elrejteni a WordPress fájlokat a kíváncsi szemek elől. Ez csökkenti annak esélyét, hogy webhelyét feltörik.

A WordPress sok másolatot készít a cikkeiről különböző URL-címekkel, de ugyanazzal a tartalommal. Ez így néz ki:

//webhely_neve/cikknév,

//webhely_neve/kategória_neve/cikknév,

//webhely_neve/címsor_neve/alcím_neve/cikknév,

//webhely_neve/címke_neve/cikknév,

//webhely_neve/archívum létrehozási_dátuma/cikk_neve

Címkékkel és archívumokkal, általános őrséggel. Hány címkéhez van csatolva egy cikk, annyi másolat készül. Egy cikk szerkesztésekor ahány archívum jön létre különböző időpontokban, annyi új cím jelenik meg szinte hasonló tartalommal. És vannak cikkek másolatai is, minden megjegyzéshez címmel. Egyszerűen szörnyű.

A keresőmotorok hatalmas számú ismétlődését rossz webhelyként értékelik. Ha ezeket a másolatokat indexeljük és megadjuk a keresésben, akkor a fő cikk súlya az összes példányra kiterjed, ami nagyon rossz. És az sem tény, hogy a keresés eredményeként megjelenik a főcímmel ellátott cikk. Ezért meg kell tiltani az összes másolat indexelését.

A WordPress a képeket külön cikkként, szöveg nélkül formázza. Ebben a formában, szöveg és leírás nélkül, teljesen helytelen cikknek tűnnek. Ezért intézkedéseket kell tennie annak megakadályozására, hogy ezeket a címeket a keresőmotorok indexeljék.

Miért ne lehetne indexelni?

Öt ok az indexelés betiltására!

  1. A teljes indexelés extra terhelést jelent a szerveren.
  2. Maga a robot értékes időt vesz igénybe.
  3. Talán ez a legfontosabb, a téves információkat félreértelmezhetik a keresők. Ez a cikkek és oldalak helytelen rangsorolásához, majd pedig helytelen találatokhoz vezet a keresési eredmények között.
  4. A sablonokat és bővítményeket tartalmazó mappák rengeteg linket tartalmaznak az alkotók és hirdetők webhelyeire. Ez nagyon rossz egy fiatal webhely számára, amikor még nincs, vagy nagyon kevés hivatkozás található az oldalára kívülről.
  5. Az archívumban és a megjegyzésekben lévő cikkeinek összes példányának indexelésével a keresőmotor rossz véleményt kap webhelyéről. Sok másodpéldány. Sok kimenő hivatkozás A keresőmotor a szűrésig visszaminősíti webhelyét a keresési eredmények között. A külön cikknek tervezett, címmel és szöveg nélkül készült képek pedig megrémítik a robotot. Ha sok van belőlük, akkor a webhely zöröghet a Yandex AGS szűrő alatt. Ott volt az oldalam. Ellenőrizve!

Most, az elmondottak után, felvetődik egy ésszerű kérdés: "Lehetséges-e valamilyen módon megtiltani a nem szükséges indexelést?". Kiderült, hogy lehet. Legalábbis nem parancsra, hanem ajánlásra. Az a helyzet, hogy egyes objektumok indexelését nem teljesen tiltják, a sitemap.xml fájl miatt következik be, amely a robots.txt után kerül feldolgozásra. Így alakul: a robots.txt tiltja, a sitemap.xml pedig megengedi. És mégis meg tudjuk oldani ezt a problémát. Hogyan kell ezt most megtenni, és fontolja meg.

A wordpress robots.txt fájl alapértelmezés szerint dinamikus, és nem igazán létezik a wordpressben. És csak abban a pillanatban jön létre, amikor valaki kéri, legyen az robot vagy csak egy látogató. Vagyis ha FTP-kapcsolaton keresztül lép fel az oldalra, akkor egyszerűen nem fogja megtalálni a roots.txt fájlt a wordpress számára a gyökérmappában. Ha pedig a böngészőben megadod a http://webhelyed_neve/robots.txt címét, akkor a tartalma úgy jelenik meg a képernyőn, mintha a fájl létezne. Ennek a generált wordpress robots.txt fájlnak a tartalma a következő lesz:

A robots.txt fájl fordítási szabályaiban alapértelmezés szerint minden indexelhető. A User-agent: * direktíva azt jelzi, hogy minden további parancs az összes keresési ügynökre vonatkozik (*). De akkor semmi sincs korlátozva. És mint tudod, ez nem elég. A korlátozott hozzáférésű mappákról, rekordokról már elég sokat tárgyaltunk.

Ahhoz, hogy a robots.txt fájlt módosítani tudja és ott el tudja menteni, statikus, állandó formában kell létrehoznia.

Hogyan készítsünk robots.txt fájlt a WordPress számára

Bármely szövegszerkesztőben (csak semmi esetre se használjon MS Word-et és hasonlókat automatikus szövegformázó elemekkel) hozzon létre egy szöveges fájlt az alábbi hozzávetőleges tartalommal, és küldje el webhelye gyökérmappájába. Szükség szerint módosíthatók.

Csak figyelembe kell vennie a fájl összeállításának jellemzőit:

A számsorok elején, mint itt a cikkben, nem szabadna lennie. A számok itt a fájl tartalmának áttekintésének megkönnyítése érdekében vannak megadva. Az egyes sorok végén nem lehetnek extra karakterek, beleértve a szóközöket és a tabulátorokat sem. A blokkok között legyen egy üres sor karakterek nélkül, beleértve a szóközöket is. Csak egy hely nagy kárt okozhat – LÉGY VIGYÁZAT .

Hogyan lehet ellenőrizni, hogy a robots.txt fájlban van-e wordpress

A következő módon ellenőrizheti, hogy a robots.txt fájlban vannak-e felesleges szóközök. Szövegszerkesztőben jelölje ki az összes szöveget a Ctrl+A megnyomásával. Ha nincs szóköz a sorok végén és üres sorok, akkor ezt észre fogja venni. És ha van egy kiválasztott üresség, akkor el kell távolítania a szóközöket, és minden rendben lesz.

Az alábbi linkeken ellenőrizheti, hogy az előírt szabályok megfelelően működnek-e:

  • Robots.txt elemzése Yandex webmester
  • A robots.txt elemzése a Google Search Console-ban .
  • Szolgáltatás robots.txt fájl létrehozásához: http://pr-cy.ru/robots/
  • A robots.txt létrehozására és ellenőrzésére szolgáló szolgáltatás: https://seolib.ru/tools/generate/robots/
  • A Yandex dokumentációja .
  • Dokumentáció a google-ból(Angol)

Van egy másik módja a robots.txt fájl ellenőrzésének egy wordpress webhelyhez, ez az, hogy feltölti a tartalmát a Yandex webmesteréhez, vagy megadja a hely címét. Ha vannak hibák, azonnal tudni fogja.

Javítsa ki a robots.txt fájlt a wordpress számára

Most ugorjunk közvetlenül a robots.txt fájl tartalmára egy wordpress webhelyhez. Milyen irányelveknek kell szerepelniük benne. A robots.txt fájl hozzávetőleges tartalma a wordpresshez, annak jellemzői alapján, az alábbiakban látható:

User-agent: * Disallow: /wp-login.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: */*comments Disallow: * /*category Disallow: */*tag Disallow: */trackback Disallow: */*feed Disallow: /*?* Disallow: /?s= Engedélyezés: /wp-admin/admin-ajax.php Engedélyezés: /wp-content /uploads/ Engedélyezés: /*?replytocom User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: */comments Disallow: */*category Disallow: */*tag Disallow: */trackback Disallow: */*feed Disallow: /*?* Disallow: /*?s= Engedélyezés: /wp-admin/admin- ajax.php Engedélyezés: /wp-content/uploads/ Engedélyezés: /*?replytocom Feltérképezési késleltetés: 2.0 Gazdagép: site.ru Webhelytérkép: http://site.ru/sitemap.xml

Wordpress robots.txt direktívák

Most nézzük meg közelebbről:

1-16 soros blokkbeállítások minden robothoz

User-agent: - Ez egy kötelező direktíva, amely meghatározza a keresési ügynököt. A csillag azt mondja, hogy az irányelv minden keresőmotor robotjára vonatkozik. Ha a blokkot egy adott robothoz szánják, akkor meg kell adnia a nevét, például Yandex, mint a 18. sorban.

Alapértelmezés szerint minden engedélyezett az indexeléshez. Ez megegyezik az Allow: / direktívával.

Ezért bizonyos mappák vagy fájlok indexelésének tiltására egy speciális Disallow: direktíva használatos.

Példánkban a mappanevek és fájlnévmaszkok használatával minden WordPress szolgáltatási mappa tiltásra kerül, például admin, témák, bővítmények, megjegyzések, kategória, címke... Ha ebben a formában ad meg egy direktívát Disallow: /, akkor a teljes oldal indexelését tiltják.

Engedélyezés: - mint mondtam, az irányelv lehetővé teszi a mappák vagy fájlok indexelését. Akkor kell használni, ha a tiltott mappák mélyén vannak olyan fájlok, amelyeket még indexelni kell.

Példámban a 3. sor Disallow: /wp-admin - tiltja a /wp-admin mappa indexelését, a 14. sor Engedélyezés: /wp-admin/admin-ajax.php - engedélyezi az /admin-ajax.php fájl indexelését a /wp-admin/ tiltott indexelési mappában található.

17 - Üres sor (csak nyomja meg az Enter gombot szóközök nélkül)

18–33 beállítási blokk kifejezetten a Yandex ügynökhöz (User-agent: Yandex). Mint észrevette, ez a blokk teljesen megismétli az előző blokk összes parancsát. És felmerül a kérdés: "Mi a fene ez a baj?". Tehát mindez csak néhány irányelv miatt történik, amelyeket a továbbiakban megvizsgálunk.

34 - Feltérképezési késleltetés - Opcionális utasítás csak a Yandex számára. Akkor használatos, ha a szerver erősen le van terhelve, és nincs ideje a robotkérések feldolgozására. Lehetővé teszi, hogy a keresőrobotnak beállítsa a minimális késleltetést (másodpercben és tizedmásodpercben) az egyik oldal betöltésének vége és a következő betöltésének kezdete között. A maximális megengedett érték 2,0 másodperc. Közvetlenül a Disallow és Allow direktívák után kerül hozzáadásra.

35 - Üres karakterlánc

36 - Gazda: site.ru - a webhely domain neve (KÖTELEZŐ direktíva a Yandex blokkhoz). Ha oldalunk HTTPS protokollt használ, akkor a címet teljes egészében meg kell adni az alábbiak szerint:

Házigazda: https://site.ru

37 - Egy üres karakterláncnak (csak az Enter gomb megnyomásával szóközök nélkül) jelen kell lennie.

38 - Webhelytérkép: http://site.ru/sitemap.xml - sitemap.xml fájl(ok) helycíme (KÖTELEZŐ direktíva), amely a fájl végén található egy üres sor után, és minden blokkra vonatkozik.

Maszkok a robots.txt fájl direktíváihoz a wordpresshez

Most egy kicsit a maszkok létrehozásáról:

  1. Disallow: /wp-register.php – A gyökérmappában található wp-register.php fájl indexelésének letiltása.
  2. Disallow: /wp-admin – tiltja a gyökérmappában található wp-admin mappa tartalmának indexelését.
  3. Disallow: /trackback – letiltja az értesítések indexelését.
  4. Disallow: /wp-content/plugins – tiltja a wp-content almappájában (második szintű mappájában) található plugins mappa tartalmának indexelését.
  5. Disallow: /feed - tiltja a hírcsatorna indexelését, azaz. bezárja az oldal RSS feedjét.
  6. * - bármilyen karaktersorozatot jelent, ezért helyettesítheti mind egy karaktert, mind a név egy részét, vagy egy fájl vagy mappa teljes nevét. Egy konkrét név hiánya a végén egyenlő a * írással.
  7. Disallow: */*comments – tiltja azon mappák és fájlok tartalmának indexelését, amelyek nevében megjegyzések találhatók, és bármely mappában találhatók. Ebben az esetben megakadályozza a megjegyzések indexelését.
  8. Disallow: *?s= - tiltja a keresőoldalak indexelését

A fenti sorok működő robots.txt fájlként használhatók a wordpresshez. Csak 36, 38 sorban kell megadnia a webhely címét és a KÖTELEZŐ ELTÁVOLÍTÁS sorszámait. És kapsz egy működő robots.txt fájlt a wordpresshez , bármely keresőmotorhoz igazodva.

Az egyetlen jellemző, hogy a Wordpress webhely működő robots.txt fájljának mérete nem haladhatja meg a 32 kB lemezterületet.

Ha egyáltalán nem érdekli a Yandex, akkor egyáltalán nem lesz szüksége a 18-35 sorokra. Valószínűleg ennyi. Remélem, hogy a cikk hasznos volt. Ha bármilyen kérdése van, írja meg a megjegyzésekben.

ROBOTOK.TXT- Szabványos kivételek robotokra – szöveges formátumú.txt fájl, amely korlátozza a robotok hozzáférését a webhely tartalmához. A fájlnak a webhely gyökérjében kell lennie (a /robots.txt címen). A szabvány használata nem kötelező, de a keresőmotorok követik a robots.txt fájlban foglalt szabályokat. Maga a fájl az űrlap rekordjaiból áll

:

ahol a mező a szabály neve (User-Agent, Disallow, Allow stb.)

A rekordokat egy vagy több üres sor választja el (sorlezáró: CR, CR+LF, LF karakterek)

Hogyan kell helyesen beállítani a ROBOTS.TXT fájlt?

Ez a bekezdés tartalmazza a fájl beállításának alapvető követelményeit, konkrét javaslatokat a beállításhoz, példákat a népszerű CMS-ekhez

  • A fájl mérete nem haladhatja meg a 32 KB-ot.
  • A kódolásnak ASCII-nak vagy UTF-8-nak kell lennie.
  • Egy érvényes robots.txt fájlnak tartalmaznia kell legalább egy szabályt, amely több direktívából áll. Minden szabálynak a következő direktívákat kell tartalmaznia:
    • melyik robotra vonatkozik ez a szabály (User-agent direktíva)
    • mely erőforrásokhoz fér hozzá az ügynök (Allow direktíva), vagy mely erőforrásokhoz nem fér hozzá (Disallow).
  • Minden szabálynak és utasításnak új sorban kell kezdődnie.
  • A Disallow/Allow szabály értékének / vagy * karakterrel kell kezdődnie.
  • Minden # szimbólummal kezdődő sor, vagy az ezzel a szimbólummal kezdődő sorok egy része megjegyzésnek minősül, és az ügynökök nem veszik figyelembe.

Így a megfelelően konfigurált robots.txt fájl minimális tartalma így néz ki:

User-agent: * #minden ügynök számára Disallow: #nothing is enabled = az összes fájlhoz való hozzáférés engedélyezett

Hogyan lehet létrehozni/módosítani a ROBOTS.TXT fájlt?

Fájlokat bármilyen szövegszerkesztővel létrehozhat (például notepad++). A robots.txt fájl létrehozásához vagy módosításához általában FTP/SSH-n keresztüli hozzáférés szükséges a szerverhez, azonban sok CMS/CMF rendelkezik beépített fájltartalom-kezelő felülettel az adminisztrációs panelen („admin panel”) keresztül, pl. : Bitrix, ShopScript és mások.

Mire való a ROBOTS.TXT fájl a webhelyen?

Ahogy a definícióból is látszik, a robots.txt lehetővé teszi a robotok viselkedésének szabályozását egy webhely felkeresésekor, pl. beállíthatja a webhely indexelését a keresőmotorok által – ez teszi ezt a fájlt webhelye SEO optimalizálásának fontos részévé. A robots.txt legfontosabb jellemzője a hasznos információkat nem tartalmazó oldalak/fájlok indexelésének tilalma. Vagy általában a teljes webhelyet, amelyre szükség lehet például a webhely tesztverzióihoz.

Az alábbiakban bemutatjuk azokat a főbb példákat, amelyeket le kell zárni az indexelésből.

Mit kell lezárni az indexelés elől?

Először is, mindig kapcsolja ki a webhelyindexelést a fejlesztés során, hogy elkerülje az olyan indexoldalakra való bejutást, amelyek egyáltalán nem szerepelnek a webhely kész verziójában, illetve a hiányzó/ismétlődő/teszttartalommal rendelkező oldalakra, mielőtt kitöltenék őket.

Másodszor, a fejlesztési tesztoldalként létrehozott webhely másolatait el kell rejteni az indexelés elől.

Harmadszor elemezzük, hogy a közvetlenül a webhelyen található tartalmak indexelését meg kell tiltani.

  1. Az oldal adminisztratív része, szolgáltatási fájlok.
  2. Felhasználói engedélyezési / regisztrációs oldalak, a legtöbb esetben - a felhasználók személyes részei (ha nincs nyilvános hozzáférés a személyes oldalakhoz).
  3. Kosár és pénztár oldalak, rendelés áttekintése.
  4. Termék-összehasonlító oldalakon lehetőség van az ilyen oldalak szelektív megnyitására indexelés céljából, amennyiben egyediek. Általánosságban elmondható, hogy az összehasonlító táblázatok számtalan, ismétlődő tartalommal rendelkező oldal.
  5. A keresési és szűrési oldalak csak akkor maradhatnak nyitva indexelés céljából, ha azok helyes beállítás: egyedi URL-ek egyedi címekkel, metacímkékkel. A legtöbb esetben az ilyen oldalakat be kell zárni.
  6. Lapok rendezési termékekkel/rekordokkal, ha eltérő címmel rendelkeznek.
  7. Utm-, openstat-címkéket tartalmazó oldalak URL-ben (valamint az összes többi).

Szintaxis ROBOTS.TXT

Most nézzük meg részletesebben a robots.txt szintaxisát.

Általános rendelkezések:

  • minden irányelvnek új sorban kell kezdődnie;
  • a karakterlánc nem kezdődhet szóközzel;
  • az irányelv értékének egy sorban kell lennie;
  • nem szükséges idézőjelbe tenni az irányelvek értékeit;
  • alapértelmezés szerint az összes direktíva értéknél a * a végére van írva, Példa: Felhasználói ügynök: Yandex Disallow: /cgi-bin* # blokkolja az oldalak elérését Disallow: /cgi-bin # ugyanaz
  • egy üres újsort a rendszer a User-agent szabály végeként kezel;
  • csak egy érték van megadva az "Allow", "Disallow" direktívákban;
  • a robots.txt fájl neve nem engedélyezi a nagybetűket;
  • A 32 KB-nál nagyobb robots.txt nem engedélyezett, a robotok nem töltenek le ilyen fájlt, és az oldalt teljesen engedélyezettnek tekintik;
  • Az inaccesible robots.txt teljes mértékben megengedőként kezelhető;
  • az üres robots.txt teljes mértékben megengedőnek minősül;
  • a szabályok cirill értékeinek megadásához használja a Punycodot;
  • csak UTF-8 és ASCII kódolás engedélyezett: a robots.txt fájlban nemzeti ábécé és egyéb karakterek használata nem megengedett.

Különleges szimbólumok:

  • #

    A megjegyzés kezdő karaktere, a # utáni és a soremelés előtti szöveg megjegyzésnek minősül, és a robotok nem használják.

    *

    Helyettesítő karakter, amely az utasítás előtagját, utótagját vagy teljes értékét jelöli – bármilyen karakterkészlet (beleértve az üreset is).

  • $

    A sor végének jelzése, a * értékre való kitöltési tilalom, on Példa:

    User-agent: * #mindenre Engedélyezés: /$ #a főoldal indexelésének engedélyezése Disallow: * #Az összes oldal indexelésének tiltása, kivéve az engedélyezetteket

Irányelvek listája

  1. user-agent

    Kötelező irányelv. Meghatározza, hogy a szabály melyik robotra vonatkozik, a szabály tartalmazhat egy vagy több ilyen direktívát. A * karaktert használhatja előtag, utótag vagy utótag jelzésére teljes név robot. Példa:

    #webhely bezárva a Google számára.Hírek és Google.Images User-agent: Googlebot-Image User-agent: Googlebot-News Disallow: / #minden olyan robot esetében, amelynek neve Yandex-szel kezdődik, zárja be a „Hírek” részt User-agent: Yandex* Disallow: /hírek #mindenki más számára nyitva User-agent: * Disallow:

  2. Letiltás

    Az irányelv meghatározza, hogy mely fájlokat vagy könyvtárakat nem szabad indexelni. Az utasítás értékének / vagy * karakterrel kell kezdődnie. Alapértelmezés szerint a * az érték végéhez fűződik, hacsak nem tiltja a $ szimbólum.

  3. lehetővé teszi

    Minden szabálynak rendelkeznie kell legalább egy Disallow: vagy Allow: direktívával.

    Az irányelv meghatározza, hogy mely fájlokat vagy könyvtárakat kell indexelni. Az utasítás értékének / vagy * karakterrel kell kezdődnie. Alapértelmezés szerint a * az érték végéhez fűződik, hacsak nem tiltja a $ szimbólum.

    Az irányelv használata csak a Disallow-val együtt releváns, mivel lehetővé teszi a Disallow-irányelv által tiltott oldalak bizonyos részeinek indexelését.

  4. Tiszta param

    Opcionális, keresztmetszeti direktíva. Használja a Clean-param direktívát, ha a webhelyoldalak címei olyan GET-paramétereket tartalmaznak (amelyek az URL-ben a ? jel után jelennek meg), amelyek nincsenek hatással a tartalomra (például UTM). Ennek a szabálynak a segítségével az összes cím egyetlen formába kerül - az eredetibe, paraméterek nélkül.

    Irányelv szintaxis:

    Tiszta paraméter: p0[&p1&p2&..&pn]

    p0… - olyan paraméterek nevei, amelyeket nem kell figyelembe venni
    elérési út – azon oldalak elérési úti előtagja, amelyekre a szabály vonatkozik


    Példa.

    Az oldalon vannak olyan oldalak, mint

    www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_ 123

    Szabály megadásakor

    Felhasználói ügynök: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

    a robot az összes oldalcímet egyre csökkenti:

    www.example.com/some_dir/get_book.pl?book_id=123

  5. Webhelytérkép

    Opcionális direktíva, több ilyen direktíva is elhelyezhető egy fájlban, keresztmetszetben (elég egyszer megadni a fájlban, anélkül, hogy minden ügynöknél duplikálna).

    Példa:

    Webhelytérkép: https://example.com/sitemap.xml

  6. Feltérképezés-késleltetés

    Az irányelv lehetővé teszi, hogy beállítsa a keresőrobotnak azt a minimális időtartamot (másodpercben), amely az egyik oldal betöltésének vége és a következő betöltésének kezdete között teljen el. Törtértékek támogatottak

    A Yandex robotok minimális megengedett értéke 2.0.

    A Google robotjai nem tartják tiszteletben ezt az irányelvet.

    Példa:

    User-agent: Yandex feltérképezési késleltetés: 2.0 # az időtúllépést 2 másodpercre állítja User-agent: * Feltérképezés késleltetése: 1.5 # az időtúllépést 1.5 másodpercre állítja

  7. Házigazda

    Az irányelv meghatározza a webhely fő tükrét. Jelenleg csak a Mail.ru-t támogatják a népszerű keresőmotorok.

    Példa:

    Felhasználói ügynök: Mail.Ru Host: www.site.ru # főtükör a www

Példák a robots.txt fájlra a népszerű CMS-ekhez

ROBOTS.TXT 1C:Bitrixhez

A Bitrix CMS lehetővé teszi a robots.txt fájl tartalmának kezelését. Ehhez az adminisztrációs felületen a keresővel a „Robots.txt beállítások” eszközbe kell lépni, vagy a Marketing->Keresőoptimalizálás->Robots.txt beállítások útvonalon. A robots.txt fájl tartalmát a beépített Bitrix fájlszerkesztővel vagy FTP-n keresztül is módosíthatja.

Az alábbi példa használható a robots.txt kezdőkészleteként a Bitrix webhelyein, de nem univerzális, és a webhelytől függően adaptációt igényel.

Magyarázatok:

  1. a különböző ügynökökre vonatkozó szabályokra való felosztás annak a ténynek köszönhető, hogy a Google nem támogatja a Clean-param direktívát.
User-Agent: Yandex Disallow: */index.php Disallow: /bitrix/ Disallow: /*filter Disallow: /*order Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /clude*abitrix_resz. = Disallow: /*clear_cache= Disallow: /*clear_cache_session= Disallow: /*ADD_TO_COMPARE_LIST Disallow: /*ORDER_BY Disallow: /*?print= Disallow: /*&print= Disallow: /*print_course= Disallow: /*?action= Disallow: /*? : /*&action= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*backurl= Disallow: / *back_url= Tiltás: /*BACKURL= Tiltás: /*BACK_URL= Tiltás: /*back_url_admin= Tiltás: /*?utm_source= Tiltás: /*?bxajaxid= Tiltás: /*&bxajaxid= Tiltás: /*?view_result= Tiltás: /*&view_result= Disallow: /*?PAGEN*& Disallow: /*&PAGEN Engedélyezés: */?PAGEN* Engedélyezés: /bitrix/components/*/ Engedélyezés: /bitrix/cache/*/ Engedélyezés: /bitrix/js/* / Engedélyezés: /bitrix/templates/*/ Engedélyezés: /bitrix/panel/ */ Engedélyezés: /bitrix/components/*/*/ Engedélyezés: /bitrix/cache/*/*/ Engedélyezés: /bitrix/js/*/*/ Engedélyezés: /bitrix/templates/*/*/ Engedélyezés: /bitrix /panel/*/*/ Engedélyezés: /bitrix/komponensek/ Engedélyezés: /bitrix/cache/ Engedélyezés: /bitrix/js/ Engedélyezés: /bitrix/sablonok/ Engedélyezés: /bitrix/panel/ Clean-Param: PAGEN_1 / Clean- Paraméter: PAGEN_2 / #ha több oldalszámozott komponens található a webhelyen, akkor a szabály megkettőzése az összes változathoz a szám módosításával Clean-Param: sort Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-Agent: * Disallow: */ index.php Disallow : /bitrix/ Disallow: /*filter Disallow: /*sort Disallow: /*order Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /*bitrix_include *clear_cache= Disallow : /*clear_cache_session= Disallow: /*ADD_TO_COMPARE_LIST Disallow: /*ORDER_BY Disallow: /*?print= Disallow: /*&print= Disallow: /*print_course= Disallow: /*?action= Disallow: /* = Disallow: / *register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*backurl= Disallow: /*back_url= Disallow: /*BACKURL= Disallow: /*BACK_URL= Disallow: /*back_url_admin= Tiltás: /*?utm_source= Tiltás: /*?bxajaxid= Tiltás: /*&bxajaxid= Tiltás: /*?view_result= Tiltás: /*&view_result= Tiltás: /*utm_ Disallow: /*openstat= Disallow /*?PAGEN*& Disallow: /*&PAGEN Engedélyezés: */?PAGEN* Engedélyezés: /bitrix/components/*/ Engedélyezés: /bitrix/cache/*/ Engedélyezés: /bitrix/js/*/ Engedélyezés: /bitrix/ sablonok/*/ Engedélyezés: /bitrix/panel/*/ Engedélyezés: /bitrix/komponensek/*/*/ Engedélyezés: /bitrix/cache/*/*/ Engedélyezés: /bitrix/js/*/*/ Engedélyezés: /bitrix /sablonok/*/*/ Engedélyezés: /bitrix/panel/*/*/ Engedélyezés: /bitrix/components/ Engedélyezés: /bitrix/cache/ Engedélyezés: /bitrix/js/ Engedélyezés: /bitrix/templates/ Engedélyezés: /bitrix /panel/ Webhelytérkép: http://site.com/sitemap.xml #csere a webhelytérkép címére

ROBOTS.TXT WordPresshez

A WordPress adminisztrációs panelén nincs beépített eszköz a robots.txt beállításához, így a fájl elérése csak FTP-n keresztül, vagy egy speciális plugin (például DL Robots.txt) telepítése után lehetséges.

Az alábbi példa használható robots.txt indítóként Wordpress-webhelyekhez, de nem univerzális, és a webhelytől függően módosítani kell.


Magyarázatok:

  1. az Allow direktívák tartalmazzák a stílusok, szkriptek, képek fájljainak elérési útját: az oldal helyes indexeléséhez szükséges, hogy ezek elérhetőek legyenek a robotok számára;
  2. a legtöbb webhely esetében a szerző és a címkearchívum oldala csak duplikált tartalmat hoz létre, és nem hoz létre hasznos tartalmat, így ezt a példát zárva vannak az indexelés miatt. Ha a projektben az ilyen oldalak szükségesek, hasznosak és egyediek, akkor távolítsa el a Disallow: /tag/ és a Disallow: /author/ direktívákat.

Példa a helyes ROBOTS.TXT-re egy WoRdPress webhelyhez:

Felhasználói ügynök: Yandex # Yandex Disallow esetén: /cgi-bin Disallow: /? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ embed Disallow: /xmlrpc.php Disallow: /tag/ Disallow: /readme.html Disallow: *?replytocom Engedélyezés: */uploads Engedélyezés: /*/*.js Engedélyezés: /*/*.css Engedélyezés: /wp-* .png Engedélyezés: /wp-*.jpg Engedélyezés: /wp-*.jpeg Engedélyezés: /wp-*.gif Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-agent: * Disallow: /cgi-bin Disallow: / ? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ embed Disallow: /xmlrpc.php Disallow: *?utm Disallow: *openstat= Disallow: /tag/ Disallow: /readme.html Disallow: *?replytocom Engedélyezés: */uploads Engedélyezés: /*/*.js Engedélyezés: /* /*.css Engedélyezés: /wp-*.png Engedélyezés: /wp-*.jpg Engedélyezés: /wp-*.jpeg Engedélyezés: /wp-*.gif Webhelytérkép: http://site.com/sitemap.xml # cserélje ki webhelytérképének címére

ROBOTS.TXT az OpenCarthoz

Az OpenCart „adminisztrációs panelén” nincs beépített eszköz a robots.txt konfigurálására, így a fájl csak FTP-n keresztül érhető el.

Az alábbi példa használható a robots.txt indítójaként az OpenCart webhelyeken, de nem univerzális, és a webhelytől függően módosítani kell.


Magyarázatok:

  1. az Allow direktívák tartalmazzák a stílusok, szkriptek, képek fájljainak elérési útját: az oldal helyes indexeléséhez szükséges, hogy ezek elérhetőek legyenek a robotok számára;
  2. a különböző ügynökökre vonatkozó szabályokra való felosztás annak a ténynek köszönhető, hogy a Google nem támogatja a Clean-param direktívát;
User-agent: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product *&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Distralow: /*? Disallow: /*&tracking= Disallow: /*compare-products Disallow: /*search Disallow: /*cart Disallow: /*checkout Disallow: /*bejelentkezés Disallow: /*logout Disallow: /*vouchers Disallow: /*kívánságlista Disallow: /*my-account Disallow: /*order-history Disallow: /*hírlevél Disallow: /*return-add Disallow: /*forgot-password Disallow: /*letöltések Disallow: /*returns Disallow: /*tranzakciók Disallow: /* create-account Disallow: /*ismétlődő Disallow: /*address-book Disallow: /*reward-points Disallow: /*affiliate-forgot-password Disallow: /*create-affiliate-account Disallow: /*affiliate-login Disallow: /*affiliates Disallow: /*?filter_tag = Disallow: /*brands Disallow: /*specials Disallow: /*simpleregister Disallow: /*simplecheckout Disallow: *utm= Disallow: /*&page Disallow: /*?page*& Engedélyezés: /*?oldal Engedélyezés: /catalog/ view/javascript/ Engedélyezés: /catalog/view/theme/*/ Felhasználói ügynök: Yandex Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route= product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*? filter_description= Disallow: /*&filter_description= Disallow: /*compa re-products Disallow: /*search Disallow: /*kosár Disallow: /*checkout Disallow: /*bejelentkezés Disallow: /*logout Disallow: /*vouchers Disallow: /*kívánságlista Disallow: /*my-account Disallow: /*rendelés -history Disallow: /*hírlevél Disallow: /*return-add Disallow: /*forgot-password Disallow: /*letöltések Disallow: /*returns Disallow: /*tranzakciók Disallow: /*fiók létrehozása Disallow: /*ismétlődő Disallow: /*address-book Disallow: /*reward-points Disallow: /*affiliate-forgot-password Disallow: /*create-affiliate-account Disallow: /*affiliate-login Disallow: /*affiliates Disallow: /*?filter_tag= Disallow : /*brands Disallow: /*specials Disallow: /*simpleregister Disallow: /*simplecheckout Disallow: /*&page Disallow: /*?page*& Engedélyezés: /*?oldal Engedélyezés: /catalog/view/javascript/ Engedélyezés: / catalog/view/theme/*/ Clean-Param: oldal / Clean-Param: utm_source&utm_medium&utm_campaign / Webhelytérkép: http://site.com/sitemap.xml #csere a webhelytérkép címére

ROBOTS.TXT a Joomla!

A Joomla adminisztrációs panelén nincs beépített eszköz a robots.txt beállításához, így a fájl csak FTP-n keresztül érhető el.

Az alábbi példa használható robots.txt indítóként olyan Joomla-webhelyeken, amelyeknél engedélyezett a SEF, de nem univerzális, és a webhelytől függően módosítani kell.


Magyarázatok:

  1. az Allow direktívák tartalmazzák a stílusok, szkriptek, képek fájljainak elérési útját: az oldal helyes indexeléséhez szükséges, hogy ezek elérhetőek legyenek a robotok számára;
  2. a különböző ügynökökre vonatkozó szabályokra való felosztás annak a ténynek köszönhető, hogy a Google nem támogatja a Clean-param direktívát;
Felhasználói ügynök: Yandex Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /telepítés/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: /component/ Disallow: /search* Disallow: /*mailto/ Engedélyezés: /*.css?*$ Engedélyezés: /*.less?*$ Engedélyezés: /*.js?*$ Engedélyezés: /*.jpg?*$ Engedélyezés: /*.png?* $ Engedélyezés: /*.gif?*$ Engedélyezés: /templates/*.css Engedélyezés: /templates/*.less Engedélyezés: /templates/*.js Engedélyezés: /components/*.css Engedélyezés: /components/*.less Engedélyezés: /media/*.js Engedélyezés: /media/*.css Engedélyezés: /media/*.less Engedélyezés: /index.php?*view=sitemap* #webhelytérkép megnyitása Clean-param: searchword / Clean-param: limit&limitstart / Clean-param: kulcsszó / User-agent: * Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: / installat ion/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: / komponens/ Disallow: /search* Disallow: /*mailto/ Disallow: /*keresőszó Disallow: /*kulcsszó Engedélyezés: /*.css?*$ Engedélyezés: /*.less?*$ Engedélyezés: /*.js?*$ Engedélyezés: /*.jpg?*$ Engedélyezés: /*.png?*$ Engedélyezés: /*.gif?*$ Engedélyezés: /templates/*.css Engedélyezés: /templates/*.less Engedélyezés: /templates/*. js Engedélyezés: /components/*.css Engedélyezés: /components/*.less Engedélyezés: /media/*.js Engedélyezés: /media/*.css Engedélyezés: /media/*.less Engedélyezés: /index.php?*view =webhelytérkép* #webhelytérkép megnyitása Webhelytérkép: http://webhelytérkép_címe

A fő ügynökök listája

Bot Funkció
Googlebot A Google fő indexelő robotja
Googlebot hírek Google Hírek
Googlebot kép Google Képek
Googlebot Videó videó-
Mediapartners-Google
médiapartnerek Google Adsense, Google Mobile Adsense
AdsBot-Google céloldal minőségének ellenőrzése
AdsBot-Google-Mobile-Apps Google Robot alkalmazásokhoz
YandexBot A Yandex fő indexelő robotja
YandexImages Yandex.Images
YandexVideo Yandex.Video
YandexMedia multimédiás adatok
YandexBlogs blogkereső robot
YandexAddurl robot eléri az oldalt, amikor azt az „URL hozzáadása” űrlapon keresztül hozzáadják
YandexFavicons robot, amely indexeli a webhely ikonjait (favicon)
YandexDirect Yandex.Direct
YandexMetrika Yandex.Metrica
YandexCatalog Yandex.Katalógus
YandexNews Yandex.News
YandexImageResizer mobilszolgáltató robot
bingbot a fő indexelő robot Bing
Slurp fő indexelő robot Yahoo!
Mail.Ru fő indexelő robot Mail.Ru

GYIK

A robots.txt szövegfájl nyilvános, ezért ügyeljen arra, hogy ez a fájl nem használható bizalmas információk elrejtésére.

Van különbség a Yandex és a Google robots.txt fájlja között?

Nincsenek alapvető különbségek a robots.txt Yandex és Google keresőmotorok általi feldolgozásában, de néhány pontot mégis érdemes kiemelni:

  • mint korábban említettük, a robots.txt szabályai tájékoztató jellegűek, amelyet a Google aktívan használ.

    A robots.txt dokumentációjában a Google kijelenti, hogy „..nem célja, hogy megakadályozza a weboldalak megjelenését a Google keresési eredményei között. " és "Ha a robots.txt fájl megakadályozza, hogy a Googlebot feldolgozzon egy weboldalt, az továbbra is megjeleníthető a Google számára." Az oldalak Google keresésből való kizárásához robots metacímkéket kell használnia.

    A Yandex emellett kizárja az oldalakat a keresésből, a robots.txt szabályai szerint.

  • A Yandex a Google-lel ellentétben támogatja a Clean-param és a Crawl-delay direktívákat.
  • A Google AdsBots nem követi a User-agent: * szabályait, külön szabályokra van szükségük.
  • Sok forrás szerint a szkript- és stílusfájlokat (.js, .css) csak a Google robotjainak szabad indexelés céljából megnyitnia. Valójában ez nem igaz, és ezeket a fájlokat a Yandex számára is meg kell nyitni: 2015. november 9-én a Yandex elkezdte használni a js-t és a css-t a webhelyek indexelésekor (hivatalos blogbejegyzés).

Hogyan lehet letiltani egy webhely indexelését a robots.txt fájlban?

Egy webhely bezárásához a Robots.txt fájlban a következő szabályok egyikét kell alkalmazni:

User-agent: * Disallow: / User-agent: * Disallow: *

Lehetőség van az oldal bezárására csak egy (vagy több) keresőmotor számára, a többi indexelés lehetőségének meghagyásával. Ehhez módosítania kell a User-agent direktívát a szabályban: cserélje ki a *-t annak az ügynöknek a nevére, amelynek hozzáférését meg kell tagadni ().

Hogyan lehet megnyitni egy webhelyet indexeléshez a robots.txt fájlban?

Szokásos esetben, ha egy webhelyet robots.txt fájlban szeretne indexelni, nem kell semmit tennie, csak meg kell győződnie arról, hogy minden szükséges könyvtár nyitva van a robots.txt fájlban. Ha például webhelye korábban el volt rejtve az indexelés elől, akkor a következő szabályokat el kell távolítani a robots.txt fájlból (a használttól függően):

  • letilt: /
  • Letiltás: *

Kérjük, vegye figyelembe, hogy az indexelés nem csak a robots.txt fájl, hanem a robots metacímke használatával is letiltható.

Azt is meg kell jegyezni, hogy a robots.txt fájl hiánya a webhely gyökérjében azt jelenti, hogy a webhely indexelése engedélyezett.

Hogyan lehet megadni a fő webhelytükröt a robots.txt fájlban?

Jelenleg a főtükör megadása a robots.txt segítségével nem lehetséges. Korábban a Yandex PS a Host direktívát használta, amely tartalmazta a fő tükör jelzését, de 2018. március 20. óta a Yandex teljesen felhagyott a használattal. A főtükör megadása most már csak 301 oldalas átirányítással lehetséges.

Értékesítési generátor

Olvasási idő: 18 perc

Az anyagot elküldjük Önnek:

Az anyagban tárgyalt kérdések:

  • Milyen szerepet játszik a robots.txt fájl a webhelyindexelésben?
  • Hogyan lehet letiltani a webhely és az egyes oldalak indexelését a robots.txt használatával
  • Milyen robots.txt direktívákat használnak a webhelyindexelési beállításokhoz
  • Melyek a leggyakoribb hibák a robots.txt fájl létrehozásakor?

A webes erőforrás készen áll: tele van kiváló minőségű egyedi szövegekkel, eredeti képekkel, kényelmes a szakaszok közötti navigáció, a dizájn pedig kellemes a szemnek. Már csak az ötleteket kell bemutatnia az internetezőknek. De a keresőmotoroknak először meg kell ismerkedniük a portállal. A randevúzási folyamatot indexelésnek nevezik, és ebben az egyik fő szerepet a szöveges fájlrobotok töltik be. A robots.txt webhely sikeres indexeléséhez számos speciális követelménynek kell teljesülnie.



A webes erőforrás-motor (CMS) az egyik olyan tényező, amely jelentősen befolyásolja a keresőpók által végzett indexelés sebességét. Miért fontos, hogy a bejárókat csak azokra a fontos oldalakra irányítsuk, amelyeknek meg kell jelenniük a SERP-ekben?

  1. A keresőrobot korlátozott számú fájlt néz meg egy adott erőforráson, majd a következő webhelyre lép. Meghatározott korlátozások hiányában a keresőpók elindulhat a motorfájlok indexelésével, amelyek száma néha több ezer - a robotnak egyszerűen nem lesz ideje a fő tartalomra.
  2. Vagy teljesen más oldalakat indexel, amelyeken előre szeretne lépni. Még rosszabb, ha a keresőmotorok látják a tartalom megkettőzését, amit annyira utálnak, amikor a különböző hivatkozások ugyanahhoz (vagy majdnem azonos) szöveghez vagy képhez vezetnek.

Ezért elengedhetetlen, hogy megtiltsa a keresőpókokat, hogy túl sokat lássanak. Erre szolgál a robots.txt - egy normál szöveges fájl, amelynek nevét kisbetűkkel írják, nagybetűk használata nélkül. Bármilyen szövegszerkesztőben (Notepad++, SciTE, VEdit stb.) létrejön és itt szerkeszthető. A fájl lehetővé teszi, hogy befolyásolja a webhely Yandex és Google általi indexelését.

Azon programozók számára, akik még nem rendelkeznek elegendő tapasztalattal, jobb, ha először megismerkednek a fájl helyes kitöltésével kapcsolatos példákkal. Ki kell választania az őt érdeklő webes forrásokat, és be kell írnia a böngésző címsorába site.ru/robots.txt(ahol a „/” előtti első rész a portál neve).

Fontos, hogy csak az Önt érdeklő motoron futó oldalakat jelenítse meg, mivel az indexeléstől tilos CMS-mappákat a különböző felügyeleti rendszerekben más-más névvel látják el. Ezért a motor lesz a kiindulási pont. Ha webhelyét a WordPress üzemelteti, akkor meg kell keresnie az ugyanazon a motoron futó blogokat; a Joomla! saját ideális robotjai lesznek, stb. Ugyanakkor célszerű olyan portálok fájljait venni mintaként, amelyek jelentős forgalmat vonzanak a keresésből.

Mi az a webhelyindexelés a robots.txt fájllal?



Indexelés keresése- a legfontosabb mutató, amelytől a promóció sikere nagyban függ. Úgy tűnik, az oldal tökéletesen készült: a felhasználói kéréseket figyelembe veszik, a tartalom felül van, a navigáció kényelmes, de az oldal nem tud megbarátkozni a keresőkkel. Az okokat a technikai oldalon kell keresni, konkrétan azokban az eszközökben, amelyekkel az indexelést befolyásolni lehet.

Ezek közül kettő van – a Sitemap.xml és a robots.txt. Fontos fájlok, amelyek kiegészítik egymást, és egyben megoldják a sarki problémákat. Az oldaltérkép felkéri a keresőpókokat: "Üdvözöljük, indexelje ezeket a szakaszokat", megadja a robotoknak az indexelendő oldalak URL-jét és az oldal idejét. legújabb frissítés. A robots.txt fájl ezzel szemben stoptáblaként szolgál, és megakadályozza, hogy a pókok átmásszanak a webhely bármely részén.

Ez a fájl és a hasonló nevű robots metacímke, amely finomabb beállításokat tesz lehetővé, egyértelmű utasításokat tartalmaz a keresőrobotok számára, jelezve bizonyos oldalak vagy teljes szakaszok indexelésének tilalmát.

A helyesen beállított korlátok befolyásolják legjobban a webhely indexelését. Bár még mindig vannak amatőrök, akik úgy vélik, hogy lehetséges, hogy a robotok teljesen minden fájlt tanulmányozzanak. De ebben a helyzetben a kereső adatbázisába beírt oldalak száma nem jelent jó minőségű indexelést. Miért van szükség például a robotoknak az oldal adminisztratív és technikai részeire vagy az oldalak nyomtatására (kényelmesek a felhasználó számára, és a keresőmotorok duplikált tartalomként jelennek meg)? Nagyon sok olyan oldal és fájl van, amelyekre a robotok időt töltenek, valójában a semmiért.

Amikor egy pók felkeresi webhelyét, azonnal megkeresi a neki szánt robots.txt fájlt. Miután nem talált dokumentumot, vagy hibás formában találja azt, a bot önállóan kezd el cselekedni, és szó szerint mindent indexel egymás után egy csak általa ismert algoritmus szerint. Nem feltétlenül olyan új tartalommal kezdődik, amelyről először értesíteni szeretné a felhasználókat. A legjobb esetben az indexelés egyszerűen elhúzódik, legrosszabb esetben pedig szankciókat is vonhat maga után a duplikációkért.

A megfelelő robotszövegfájllal sok probléma elkerülhető.



Háromféleképpen akadályozhatja meg a webes erőforrás szakaszainak vagy oldalainak indexelését, a ponttól a magas szintig:

  • A noindex címke és az attribútum teljesen különböző kódelemek, amelyek különböző célokat szolgálnak, de ugyanolyan értékes SEO segítők. A keresőmotorok általi feldolgozásuk kérdése már-már filozofikussá vált, de a tény továbbra is fennáll: a noindex lehetővé teszi a szöveg egy részének elrejtését a robotok elől (nem szerepel a html szabványokban, de a Yandex esetében biztosan működik), a nofollow pedig tiltja a követést. a hivatkozást és súlyának átadását (a szabványos besorolás tartalmazza, minden keresőmotorra érvényes).
  • A robots metacímke egy adott oldalon hatással van az adott oldalra. Az alábbiakban közelebbről megvizsgáljuk, hogyan jelezzük benne az indexelés tilalmát és a dokumentumban található hivatkozások követését. A meta tag teljesen érvényes, a rendszerek figyelembe veszik (vagy megpróbálják figyelembe venni) a megadott adatokat. Sőt, a Google az oldal gyökérkönyvtárában lévő fájl és az oldal metatagja között választva a robotok közül az utóbbit részesíti előnyben.
  • robots.txt - ez a módszer teljesen érvényes, támogatja az összes keresőmotor és más, a weben élő robotok. Mindazonáltal az ő utasításait nem mindig tekintik végrehajtandó parancsnak (a Google-hoz való jogosulatlanságról fentebb volt szó). A fájlban megadott indexelési szabályok a webhely egészére érvényesek: egyes oldalak, könyvtárak, szakaszok.

Példák alapján fontolja meg a portál és részei indexelésének tilalmát.



Számos oka van annak, hogy megakadályozzák a pókokat egy webhely indexelésében. Még fejlesztés alatt áll, újratervezés vagy frissítés alatt áll, az erőforrás egy kísérleti platform, nem felhasználóknak szánták.

Egy webhely indexelése letiltható a robots.txt segítségével az összes keresőmotornál, vagy egy adott robotnál, vagy egy kivételével az összes számára letiltható.

2. Hogyan lehet letiltani a robots.txt webhelyindexelést az egyes oldalakon

Ha az erőforrás kicsi, akkor nem valószínű, hogy el kell rejtenie az oldalakat (mit rejthet a névjegykártya-oldalon), és a jelentős mennyiségű szolgáltatási információt tartalmazó nagy portálok sem nélkülözhetik a tiltásokat. Le kell zárni a robotoktól:

  • adminisztratív panel;
  • szolgáltatási címtárak;
  • helyszíni keresés;
  • Személyes terület;
  • regisztrációs űrlapok;
  • megrendelőlapok;
  • áruk összehasonlítása;
  • kedvencek;
  • kosár;
  • captcha;
  • előugró ablakok és bannerek;
  • munkamenet-azonosítók.

Irreleváns hírek és események, naptári események, akciók, különleges ajánlatok – ezek az úgynevezett szemétoldalak, amelyek a legjobban elrejthetők. Az is jobb, ha bezárja az elavult tartalmat az információs oldalakon, hogy elkerülje a keresőmotorok negatív értékelését. Próbáljon rendszeresen frissíteni – akkor nem kell bújócskáznia a keresőmotorokkal.

A robotok indexelési tilalma:



A robots.txt-ben teljes vagy szelektív tiltásokat adhat meg a mappák, fájlok, szkriptek, utm-címkék indexelésére, amely parancs lehet mind az egyes keresőpókok, mind az összes rendszer robotja számára.

Az indexelés tilalma:

A robots metacímke az azonos nevű szövegfájl alternatívájaként szolgál. ben felírva forráskód webes erőforrás (az index.html fájlban), tárolóba helyezve . Tisztázni kell, hogy ki nem indexelheti az oldalt. Ha a tilalom általános, akkor robotok; ha csak egy bejárótól van megtagadva a belépés, meg kell adni a nevét (Google - Googlebot, "Yandex" - Yandex).

Két lehetőség van a metacímke írására.

A "content" attribútumnak a következő értékei lehetnek:

  • nincs - az indexelés tilalma (beleértve a noindexet és a nofollow-t);
  • noindex - a tartalom indexelésének tilalma;
  • nofollow - tiltja a linkek indexelését;
  • követés - engedély linkek indexelésére;
  • index - tartalomindexelés engedélyezése;
  • mind - lehetővé teszi a tartalom és a hivatkozások indexelését.

Különböző esetekben értékkombinációkat kell használni. Például, ha letiltja a tartalomindexelést, engedélyeznie kell a botoknak, hogy indexeljék a linkeket: content="noindex, follow".


Ha bezárja a webhelyet a keresőmotorok elől metacímkéken keresztül, a tulajdonosnak nem kell létrehoznia a robots.txt fájlt a gyökérben.

Emlékeztetni kell arra, hogy az indexelés kérdésében sok múlik a pók "udvariasságán". Ha „művelt”, akkor a mester által előírt szabályok érvényesek. De általánosságban elmondható, hogy a robots direktívák (mind a fájl, mind a meta tag) érvényessége nem jelenti azt, hogy száz százalékos követést kapnak. Még a keresők számára sem minden tiltás vaskalapos, és nem kell beszélni a különféle tartalomtolvajokról. Kezdetben úgy vannak beállítva, hogy megkerüljenek minden tilalmat.

Ráadásul nem minden robotot érdekel a tartalom. Egyesek számára csak a linkek fontosak, másoknak - mikro-jelölések, mások ellenőrzik a webhelyek tükörmásolatait stb. Ugyanakkor a rendszerpókok egyáltalán nem mászkálnak az oldalon, mint a vírusok, hanem távolról kérik le a szükséges oldalakat. Ezért leggyakrabban nem okoznak problémát az erőforrás-tulajdonosoknak. De ha hibák történtek a robot tervezése során, vagy valamilyen külső, nem szabványos helyzet állt elő, a bejáró jelentősen betöltheti az indexelt portált.



Használt parancsok:

1. "Felhasználói ügynök:"

A robots.txt fájl fő irányelve. Specifikációhoz használjuk. Be kell írni a bot nevét, amelyhez további utasítások következnek. Például:

  • Felhasználói ügynök: Googlebot- az alapirányelv ebben a formában azt jelenti, hogy az összes következő parancs csak a Google indexelő robotjára vonatkozik;
  • Felhasználói ügynök: Yandex- az előírt engedélyek és tilalmak a Yandex robotra vonatkoznak.

Felvétel User-agent: * azt jelenti, hogy az összes többi keresőmotorra hivatkozik (a "*" speciális karakter "bármilyen szöveget" jelent). Ha figyelembe vesszük a fenti példát, akkor a csillag az összes keresőmotort jelöli, kivéve a "Yandex". Mivel a Google teljesen eltekint a személyes vonzerőtől, megelégszik az általános „bármilyen szöveg” megjelöléssel.


A leggyakoribb parancs az indexelés letiltására. A "User-agent:"-ben a robotra hivatkozva a programozó jelzi, hogy nem engedi, hogy a bot indexelje a webhely egy részét vagy a teljes webhelyet (ebben az esetben a gyökértől származó elérési út van feltüntetve). A keresőpók ezt a parancs kibontásával érti meg. Majd mi is kitaláljuk.

Felhasználói ügynök: Yandex

Ha van ilyen bejegyzés a robots.txt fájlban, akkor a Yandex keresőbotja megérti, hogy nem tudja indexelni a webes erőforrást, mint olyan: a tiltó „/” jel után nincs magyarázat.

Felhasználói ügynök: Yandex

Disallow: /wp-admin

Ebben a példában magyarázatok vannak: az indexelés tilalma csak a rendszermappára vonatkozik wp-admin(az oldalt a WordPress üzemelteti). A Yandex robot látja a parancsot, és nem indexeli a megadott mappát.

Felhasználói ügynök: Yandex

Disallow: /wp-content/themes

Ez az utasítás azt mondja a bejárónak, hogy képes indexelni az összes tartalmat " wp-tartalom", kivéve a " témákat", amit a robot meg fog tenni.

Felhasználói ügynök: Yandex

Disallow: /index$

Megjelenik egy másik fontos „$” szimbólum, amely rugalmasságot tesz lehetővé a tiltásokban. Ebben az esetben a robot megérti, hogy nem indexelheti azokat az oldalakat, amelyek linkjei tartalmazzák a betűsorozatot " index". Külön fájl azonos névvel " index.php» Indexelhet, és a robot ezt egyértelműen megérti.

Betilthatja az erőforrás egyes oldalainak indexelését, amelyek hivatkozásai bizonyos karaktereket tartalmaznak. Például:

Felhasználói ügynök: Yandex

A Yandex robot a következőképpen olvassa be a parancsot: ne indexeljen minden olyan oldalt, amelynek URL-címe "&" karaktereket tartalmaz.

Felhasználói ügynök: Yandex

Ebben az esetben a robot megérti, hogy az oldalakat nem lehet csak akkor indexelni, ha a címük "&"-ra végződik.

Miért lehetetlen indexelni a rendszerfájlokat, archívumokat, a felhasználók személyes adatait, úgy gondoljuk, ez egyértelmű - ez nem vita tárgya. Egyáltalán nincs szükség keresőrobotra, hogy időt pazaroljon olyan adatok ellenőrzésére, amelyekre senkinek nincs szüksége. De az oldalindexelési tilalmakkal kapcsolatban sokan felteszik a kérdést: mi indokolja a tiltó irányelvek célszerűségét? A tapasztalt fejlesztők tucatnyi különböző indokot adhatnak az indexelés tabunak bezárására, de a fő oka az lesz, hogy meg kell szabadulni az ismétlődő oldalaktól a keresés során. Ha vannak ilyenek, az drámaian negatívan befolyásolja a rangsorolást, a relevanciát és más fontos szempontokat. Ezért a belső SEO optimalizálás elképzelhetetlen robots.txt nélkül, amelyben meglehetősen egyszerű a duplikátumok kezelése: csak helyesen kell használni a "Disallow:" direktívát és a speciális karaktereket.

3. "Engedélyezés:"



A mágikus robotok fájl segítségével nemcsak elrejtheti a felesleges dolgokat a keresők elől, hanem megnyithatja az oldalt indexelésre. A "" parancsot tartalmazó robots.txt lehetővé teszi:”, megmondja a keresőmotoroknak, hogy a webes erőforrás mely elemeit kell hozzáadni az adatbázishoz. Ugyanazok a pontosítások jönnek, mint az előző parancsban, csak most bővítik a bejárók engedélyeinek körét.

Vegyük az előző bekezdésben említett példák egyikét, és nézzük meg, hogyan változik a helyzet:

Felhasználói ügynök: Yandex

Engedélyezés: /wp-admin

Ha a "Disallow:" tiltást jelentett, akkor most a rendszermappa tartalma wp-admin a Yandex tulajdonába kerül jogi indokokés megjelenhet a keresési eredmények között.

De a gyakorlatban ezt a parancsot ritkán használják. Ennek teljesen logikus magyarázata van: a tiltás hiánya, amelyet a "Disallow:" jelöl, lehetővé teszi a keresőpókok számára, hogy a teljes webhelyet indexelhetőnek tekintsék. Ehhez külön irányelv nem szükséges. Ha vannak tiltások, akkor a nem hatálya alá tartozó tartalmakat is alapértelmezés szerint indexelik a robotok.



Még két fontos parancs a keresőpókokhoz. " házigazda:"- célirányelv egy hazai keresőmotor számára. A Yandex ez alapján vezérli annak a webes erőforrásnak a fő tükrét, amelynek címe (www-vel vagy anélkül) részt vesz a keresésben.

Tekintsük a PR-CY.ru példáját:

Felhasználói ügynök: Yandex

Az irányelv az erőforrás-tartalom megkettőzésének elkerülésére szolgál.

csapat " oldaltérkép:» segít a robotoknak helyesen eljutni a webhelytérképre – egy speciális fájl, amely az oldalak hierarchikus szerkezetét, a tartalomtípust, a frissítések gyakoriságára vonatkozó információkat stb. jeleníti meg. A fájl navigátorként szolgál a keresőpókok számára. sitemap.xml(WordPress motoron) sitemap.xml.gz), amelyet a lehető leggyorsabban el kell érniük. Ekkor az indexelés nem csak az oldaltérképet gyorsítja fel, hanem az összes többi oldalt is, amely nem lassul le a keresési eredmények között.

Hipotetikus példa:

A robotok szövegfájljában feltüntetett és a Yandex által elfogadott parancsok:

Irányelv

Mit csinál

Megnevezi azt a keresőpókot, amelyre a fájlban felsorolt ​​szabályok meg vannak írva.

Azt jelzi, hogy a robotok nem indexelhetik a webhelyet, annak szakaszait vagy egyes oldalait.

Megadja a webes erőforráson tárolt webhelytérkép elérési útját.

A következő információkat tartalmazza a keresőpókhoz: Az oldal URL-je nem indexelhető paramétereket (például UTM-címkéket) tartalmaz.

Engedélyt ad egy webes erőforrás szakaszainak és oldalainak indexelésére.

Lehetővé teszi a szkennelés késleltetését. Az oldalbetöltések közötti minimális időt (másodpercben) jelzi a bejáró számára: az egyik ellenőrzése után a pók a megadott ideig vár, mielőtt lekérné a következő oldalt a listáról.

*Kötelező utasítás.

A Disallow, Sitemap és Clean-param parancsok a leggyakrabban kértek. Nézzünk egy példát:

  • User-agent: * #azokat a robotokat jelöli, amelyekre a következő parancsok vonatkoznak.
  • Disallow: /bin/ # Megakadályozza, hogy az indexelők feltérképezzék a bevásárlókosárból származó hivatkozásokat.
  • Disallow: /search/ # letiltja a keresési oldalak indexelését a webhelyen.
  • Disallow: /admin/ # letiltja a keresést az adminisztrációs panelen.
  • Webhelytérkép: http://example.com/sitemap # a feltérképező robot webhelytérképének elérési útját jelzi.
  • Clean-param: ref /some_dir/get_book.pl

Emlékezzünk vissza, hogy az irányelvek fenti értelmezései a Yandexre vonatkoznak - más keresőmotorok pókai eltérően olvashatják a parancsokat.



Az elméleti alap elkészült - itt az ideje egy ideális (jól, vagy nagyon közel hozzá) szövegfájl-robot létrehozásának. Ha az oldal motoron fut (Joomla!, WordPress stb.), akkor rengeteg objektum van ellátva, amelyek nélkül a normál működés lehetetlen. De az ilyen fájlokban nincs információs komponens. A legtöbb CMS-ben a tartalomtároló az adatbázis, de a robotok nem tudnak hozzáférni. És továbbra is keresnek tartalmat a motorfájlokban. Ennek megfelelően az indexelésre szánt idő elpazarolt.

Nagyon fontos Törekedjen egyedi tartalomra az Ön internetes erőforrása , gondosan figyelemmel kíséri az ismétlődések előfordulását. Még az oldal információtartalmának részleges megismétlése sem hat a legjobban a keresőmotorok általi értékelésére. Ha ugyanaz a tartalom különböző URL-eken található, akkor ez is ismétlődőnek minősül.

A két fő keresőmotor, a Yandex és a Google elkerülhetetlenül felfedi a duplikációkat a feltérképezés során, és mesterségesen csökkenti a webes erőforrás pozícióját a keresési eredmények között.

Ne feledkezzen meg egy nagyszerű eszközről, amely segít megbirkózni a többszörözéssel – kanonikus meta tag. Ha más URL-t ír bele, a webmester jelzi a keresőpóknak, hogy melyik oldalt részesíti előnyben az indexeléshez, amely a kanonikus oldal lesz.

Például a https://ktonanovenkogo.ru/page/2 oldalszámozású oldal a https://ktonanovenkogo.ru címre mutató Canonical metacímkét tartalmazza, amely kiküszöböli a duplikált fejlécekkel kapcsolatos problémákat.

Összegyűjtjük tehát az összes megszerzett elméleti tudást, és folytatjuk azok gyakorlati megvalósítását a robots.txt fájlban az Ön webes erőforrásához, amelynek sajátosságait figyelembe kell venni. Mi szükséges ehhez a fontos fájlhoz:

  • szövegszerkesztő (Jegyzettömb vagy bármilyen más) robotok írásához és szerkesztéséhez;
  • egy tesztelő, aki segít megtalálni a hibákat a létrehozott dokumentumban, és ellenőrzi az indexelési tilalmak helyességét (például Yandex.Webmaster);
  • FTP-kliens, amely leegyszerűsíti a kész és ellenőrzött fájl feltöltését egy webes erőforrás gyökérkönyvtárába (ha az oldal WordPress-en fut, akkor a robotokat leggyakrabban a Public_html rendszermappában tárolják).

Az első dolog, amit a keresőrobot megtesz, az, hogy egy kifejezetten neki létrehozott fájlt kér a „/robots.txt” URL-címen.

Egy webes erőforrás egyetlen „/robots.txt” fájlt tartalmazhat. Nem kell egyéni alkönyvtárakba helyezni, ahol a pókok úgysem fogják keresni a dokumentumot. Ha alkönyvtárakba szeretne robotokat létrehozni, ne feledje, hogy továbbra is egyetlen fájlba kell gyűjtenie őket a gyökérmappában. A "Robots" metacímke használata megfelelőbb.

Az URL-ek megkülönböztetik a kis- és nagybetűket – ne feledje, hogy a „/robots.txt” fájl nem nagybetűs.

Most türelmesnek kell lennie, és meg kell várnia a keresőpókokat, akik először megvizsgálják a megfelelően elkészített, kijavított robots.txt fájlt, és elkezdik feltérképezni a webportált.

A robots.txt helyes beállítása a webhelyek indexeléséhez különböző motorokon

Ha rendelkezik kereskedelmi erőforrással, akkor a robots fájl létrehozását egy tapasztalt SEO szakemberre kell bízni. Ez különösen fontos, ha a projekt összetett. Azok számára, akik nem hajlandók elfogadni az elhangzottakat axiómának, magyarázzuk el: ez a fontos szöveges fájl komoly hatással van az erőforrás keresőmotorok általi indexelésére, annak helyességétől függ az oldal botok általi feldolgozásának sebessége. , és a robotok tartalmának megvannak a maga sajátosságai. A fejlesztőnek figyelembe kell vennie az oldal típusát (blog, online áruház stb.), a motort, a szerkezeti jellemzőket és egyéb fontos szempontokat, amelyekre egy kezdő mester nem biztos, hogy képes.

Ugyanakkor meg kell hoznia a legfontosabb döntéseket: mit zárjon be a bejárásból, mit hagyjon láthatóvá a bejáróknak, hogy az oldalak megjelenjenek a keresésben. Egy tapasztalatlan keresőoptimalizálónak nagyon nehéz lesz megbirkóznia ekkora munkával.


User-agent:* # Általános szabályok robotok esetében, kivéve a "Yandex" és a Google,

Disallow: /cgi-bin # hosting mappa
tiltás: /? # minden lekérdezési paraméter a főoldalon
Disallow: /wp- # minden WP-fájl: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/ # ha van egy /wp/ alkönyvtár, ahol a CMS telepítve van (ha nincs, akkor # a szabály eltávolítható)
Disallow: *?s= # keresés
Disallow: *&s= # keresés
Disallow: /search/ # keresés
Disallow: /author/ # levéltáros
Disallow: /users/ # archiválók
Disallow: */trackback # trackback, értesítések a megjegyzésekben egy cikkre mutató megnyitott # hivatkozásról
Disallow: */feed # minden hírcsatorna
Disallow: */rss # rssfeed
Disallow: */embed # minden beágyazás
Disallow: */wlwmanifest.xml # Windows Live Writer manifest xml fájl (ha nem használja, eltávolítható)
Disallow: /xmlrpc.php # WordPress API fájl
Disallow: *utm*= # hivatkozás utm címkékkel
Disallow: *openstat= # tagged linksopenstat
Engedélyezés: */feltöltések # nyitott mappa feltöltési fájlokkal
Webhelytérkép: http://site.ru/sitemap.xml # webhelytérkép címe

User-agent: GoogleBot és # szabály a Google számára

Disallow: /cgi-bin

Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Engedélyezés: */uploadsAllow: /*/*.js # js szkriptek megnyitása a /wp- belsejében (/*/ - prioritás)
Engedélyezés: /*/*.css # css fájlok megnyitása a /wp- belsejében (/*/ - prioritás)
Engedélyezés: /wp-*.png # kép a bővítményekben, a gyorsítótár mappájában stb.
Engedélyezés: /wp-*.jpg # kép a bővítményekben, a gyorsítótár mappájában stb.
Engedélyezés: /wp-*.jpeg # kép a bővítményekben, a gyorsítótár mappájában stb.
Engedélyezés: /wp-*.gif # kép a bővítményekben, a gyorsítótár mappájában stb.
Engedélyezés: /wp-admin/admin-ajax.php # a beépülő modulok arra használják, hogy ne blokkolják a JS-t és a CSS-t

User-agent: Yandex # szabályok a Yandexhez

Disallow: /cgi-bin

Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Engedélyezés: */feltöltések
Engedélyezés: /*/*.js
Engedélyezés: /*/*.css
Engedélyezés: /wp-*.png
Engedélyezés: /wp-*.jpg
Engedélyezés: /wp-*.jpeg
Engedélyezés: /wp-*.gif
Engedélyezés: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # A Yandex azt javasolja, hogy ne zárja be # az indexelést, hanem törölje a címkeparamétereket, # A Google nem támogatja az ilyen szabályokat
Clean-Param: openstat # hasonló



User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /telepítés/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Webhelytérkép: http://az XML-webhelytérképének elérési útja



User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /személyes/
Disallow: /feltöltés/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=


Disallow: /*PAGE_NAME=keresés
Disallow: /*PAGE_NAME=felhasználói_bejegyzés
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Webhelytérkép: http://az XML-webhelytérképének elérési útja



User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Webhelytérkép: http://site.ru/sitemap.xml

5. Robots.txt, egy példa a Drupalhoz

User-agent: *
Disallow: /adatbázis/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /frissítések/
Disallow: /profiles/
Disallow: /profile
Disallow: /profile/*
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: *regisztrál*
Disallow: *bejelentkezés*
Disallow: /legjobbra értékelt-
Disallow: /üzenetek/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Disallow: /*/szerkesztés/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$

Disallow: /*?page=0
Disallow: /*szakasz
Disallow: /* sorrend
Disallow: /*?sort*
Disallow: /*&rendezés*
Disallow: /*votesupdown
Disallow: /*naptár
Disallow: /*index.php
Engedélyezés: /*?page=

Webhelytérkép: http://az XML-webhelytérképének elérési útja

FIGYELEM! Az oldal tartalomkezelő rendszerei folyamatosan frissülnek, így a robots fájl is változhat: további oldalak vagy fájlcsoportok zárhatók be, vagy éppen ellenkezőleg, indexelésre nyithatók meg. Ez a webes erőforrás céljaitól és az aktuális motorváltozásoktól függ.

7 gyakori hiba egy webhely robots.txt használatával történő indexelésekor



A fájl létrehozása során elkövetett hibák a robots.txt hibás működését vagy akár a fájl működésképtelenségét is eredményezik.

Milyen hibák lehetségesek:

  • Logikai (a jelölt szabályok ütköznek). Az ilyen típusú hibákat a Yandex.Webmaster és a GoogleRobotsTestingTool tesztelése során azonosíthatja.
  • Szintaktikai (az irányelvek hibával vannak írva).

Másoknál gyakoribbak a következők:

  • a rekord nem különbözteti meg a kis- és nagybetűket;
  • nagybetűket használnak;
  • minden szabály egy sorban van felsorolva;
  • a szabályokat nem választja el üres sor;
  • a bejáró megadása az irányelvben;
  • a mappa minden egyes fájlja, amelyet be kell zárni, külön szerepel;
  • hiányzik a kötelező Disallow direktíva.

Fontolja meg a gyakori hibákat, azok következményeit, és – ami a legfontosabb – a megelőzésükre vonatkozó intézkedéseket a webes forrásban.

  1. Fájl helye. A fájl URL-jének a következő formátumúnak kell lennie: http://site.ru/robots.txt (a site.ru helyett az Ön webhelyének címe szerepel a listán). A robots.txt fájl kizárólag az erőforrás gyökérmappájában található – különben a keresőpók nem látja. Anélkül, hogy kitiltanák, feltérképezik a teljes webhelyet, és még azokat a fájlokat és mappákat is, amelyeket el szeretne rejteni a keresési eredmények közül.
  2. Kis-nagybetű érzékeny. Nincs nagybetű. A http://site.ru/Robots.txt hibás. Ebben az esetben a keresőrobot 404-es (hibaoldal) vagy 301-es (átirányítás) üzenetet kap szerver válaszként. A feltérképezés a robotokban megadott utasítások figyelembevétele nélkül történik. Ha minden helyesen történik, a szerver válasza 200-as kód, amelyben az erőforrás tulajdonosa vezérelheti a keresőrobotot. Az egyetlen helyes lehetőség a „robots.txt”.
  3. Megnyitás a böngésző oldalon. A keresőpókok csak akkor tudják helyesen olvasni és használni a robots.txt fájl direktíváit, ha az egy böngészőoldalon nyílik meg. Fontos, hogy nagyon odafigyeljünk a motor szerver oldalára. Néha egy ilyen típusú fájlt felajánlanak letöltésre. Ezután állítsa be a kijelzőt - különben a robotok tetszés szerint járják be az oldalt.
  4. Tiltási és engedélyezési hibák.„Disallow” – egy direktíva, amely megtiltja a webhely vagy részei átvizsgálását. Például meg kell akadályoznia, hogy a robotok indexeljék a keresési eredményeket tartalmazó oldalakat a webhelyen. Ebben az esetben a robots.txt fájlnak tartalmaznia kell a „Disallow: /search/” sort. A bejáró megérti, hogy minden olyan oldal feltérképezése, ahol "keresés" történik, tilos. Az indexelés teljes tilalmával a Disallow: / ki van írva. De az "Engedélyezés" engedélyezési utasítás ebben az esetben nem szükséges. Bár nem ritka, hogy egy parancsot így írnak: „Engedélyezés:”, feltételezve, hogy a robot ezt a „semmi” indexelésének engedélyeként fogja fel. Az "Allow: /" direktívával engedélyezheti a teljes webhely indexelését. Nem kell összekeverni a parancsokat. Ez a pókok feltérképezési hibáihoz vezet, amelyek végül olyan oldalakat adnak hozzá, amelyeket egyáltalán nem kellene reklámozni.
  5. direktíva egyezés. A Disallow: és az Allow: ugyanazon oldalon találhatók a robotokban, ami miatt a bejárók prioritást adnak az engedélyezési utasításnak. Például kezdetben a partíciót megnyitották a pókok feltérképezésére. Aztán valamiért úgy döntöttek, hogy elrejtik az index elől. Természetesen a robots.txt fájlhoz egy kitiltást adnak, de a webmester elfelejti eltávolítani az engedélyt. A keresők számára a tiltás nem annyira fontos: inkább az egymást kizáró parancsokat megkerülve indexelik az oldalt.
  6. Host direktíva:. Csak a Yandex pókok ismerik fel, és a fő tükör meghatározására használják. Hasznos parancs, de sajnos hibásnak vagy ismeretlennek tűnik az összes többi keresőmotor számára. A robotokba való bevonásakor optimális felhasználói ügynökként megadni: mindenkit és a Yandex robotot, amelyhez személyesen regisztrálhatja a Host parancsot:

    Felhasználói ügynök: Yandex
    Házigazda: site.ru

    Az összes bejáró számára előírt irányelvet hibásnak fogják tekinteni.

  7. Webhelytérkép-irányelv:. A webhelytérkép segítségével a robotok kiderítik, hogy egy webes erőforrás mely oldalai vannak. Nagyon gyakori hiba, hogy a fejlesztők nem figyelnek a sitemap.xml fájl helyére, bár ez határozza meg a térképen szereplő URL-ek listáját. Azzal, hogy a fájlt a gyökérmappán kívül helyezték el, maguk a fejlesztők is veszélybe sodorták az oldalt: a bejárók hibásan határozzák meg az oldalak számát, ennek következtében a webes erőforrás fontos részei nem kerülnek be a keresési eredmények közé.

Például, ha elhelyez egy webhelytérkép fájlt a http://primer.ru/catalog/sitemap.xml URL címen található könyvtárba, bármilyen http://primer.ru/catalog/ kezdetű URL-t megadhat... És URL-eket mint mondjuk a http://primer.ru/images/ ... ne kerüljön bele a listába.

Összesít. Ha a webhely tulajdonosa befolyásolni szeretné egy webes erőforrás keresőrobotok általi indexelésének folyamatát, a robots.txt fájl különösen fontos. Gondosan ellenőriznie kell a létrehozott dokumentumot logikai és szintaktikai hibák szempontjából, hogy az irányelvek végül a webhely általános sikerét szolgálják, biztosítva a kiváló minőségű és gyors indexelést.

Hogyan kerülheti el a hibákat a megfelelő robots.txt struktúra létrehozásával a webhely indexeléséhez



A robots.txt felépítése világos és egyszerű, teljesen lehetséges a fájl megírása. Csak gondosan figyelnie kell a robotok számára rendkívül fontos szintaxist. A keresőrobotok önként követik a dokumentum utasításait, de a keresőmotorok eltérően értelmezik a szintaxist.

A következő kötelező szabályok listája segít kiküszöbölni a robots.txt létrehozásakor előforduló leggyakoribb hibákat. A megfelelő dokumentum megírásához emlékezzen a következőkre:

  • minden direktíva új sorban kezdődik;
  • egy sorban - legfeljebb egy parancs;
  • szóköz nem helyezhető a sor elejére;
  • a parancs paraméterének egy sorban kell lennie;
  • az irányelv paramétereit nem kell idézni;
  • parancsparaméterek nem igényelnek pontosvesszőt a végén;
  • a robots.txt direktívája a következő formátumban van megadva: [parancsnév]:[nem kötelező szóköz][érték][nem kötelező szóköz];
  • a font jel után # megjegyzés megengedett a robots.txt fájlban;
  • egy üres karakterlánc értelmezhető a User-agent parancs végeként;
  • a tiltó direktíva üres értékkel - "Disallow:" hasonló az "Allow: /" direktívához, amely lehetővé teszi a teljes webhely vizsgálatát;
  • Az "Allow", "Disallow" direktívák legfeljebb egy paramétert tartalmazhatnak. Minden új paraméter egy új sorba kerül;
  • a robots.txt fájl nevében csak kisbetűk szerepelnek. Robots.txt vagy ROBOTS.TXT - hibás elírások;
  • A robots.txt szabvány nem szabályozza a kis- és nagybetűk érzékenységét, de a fájlok és mappák gyakran érzékenyek ebben a kérdésben. Ezért, bár elfogadható a nagybetűk használata a parancsok és paraméterek nevében, ez rossz formának minősül. Jobb, ha nem ragaszkodunk a nagybetűkhöz;
  • ha a parancs paramétere egy mappa, a név előtt perjel "/" szükséges, például: Disallow: /category;
  • ha a robots.txt fájl tömege meghaladja a 32 KB-ot, a keresőrobotok a "Disallow:" kifejezéssel egyenértékűnek tekintik, és teljes mértékben lehetővé teszik az indexelést;
  • a robots.txt elérhetetlenségét (különböző okok miatt) a feltérképező robotok a feltérképezési tiltások hiányaként érzékelhetik;
  • Az üres robots.txt lehetővé teszi a webhely egészének indexelését;
  • ha több "User-agent" parancs szerepel üres sor nélkül, a keresőpók az első direktívát kezelheti egyedüliként, figyelmen kívül hagyva az összes további "User-agent" direktívát;
  • A robots.txt nem teszi lehetővé a nemzeti ábécé szimbólumainak használatát.

A fenti szabályok nem vonatkoznak minden keresőmotorra, mert eltérően értelmezik a robots.txt szintaxisát. Például a "Yandex" a "User-agent" sorban való jelenléte alapján választja ki a bejegyzéseket, így nem számít, hogy a különböző "User-agent" direktívák között üres sor van.

Általában a robotoknak csak azt kell tartalmazniuk, ami valóban szükséges a megfelelő indexeléshez. Nincs szükség arra, hogy felvállalja a mérhetetlenséget, és a maximális adatmennyiséget illessze be a dokumentumba. A legjobb robots.txt egy értelmes fájl, a sorok száma nem számít.

A szöveges dokumentum-robotoknál ellenőrizni kell a megfelelő szerkezetet és szintaxist, ami segíti a weben bemutatott szolgáltatásokat. Ehhez fel kell töltenie a robots.txt fájlt az oldal gyökérmappájába, ellenkező esetben a szolgáltatás jelentheti, hogy nem tudta betölteni a szükséges dokumentumot. A robots.txt előtt ajánlatos ellenőrizni a fájl elérhetőségét a fájl címén (your_site.ru/robots.txt).

A legnagyobb keresőmotorok, a Yandex és a Google webhelyelemző szolgáltatásaikat kínálják a webmestereknek. Az elemző munka egyik aspektusa a robotellenőrzés:

Nagyon sok online robots.txt érvényesítő található az interneten, bármelyiket kiválaszthatja, amelyik tetszik.

Tömb ( => 24 [~ID] => 24 => 10.10.2019 18:52:28 [~TIMESTAMP_X] => 10.10.2019 18:52:28 => 1 [~MODIFIED_BY] => 1 => 10.10. 2019 18:51:03 [~DATE_CREATE] => 10/10/2019 18:51:03 => 1 [~CREATED_BY] => 1 => 6 [~IBLOCK_ID] => 6 => [~IBLOCK_SECTION_ID] => => I [~ACTIVE] => I => Y [~GLOBAL_ACTIVE] => Y => 500 [~SORT] => 500 => Pavel Bobylev cikkei [~NAME] => Pavel Bobylev cikkei => 11744 [ ~KÉP] = > 11744 => 13 [~BAL_MARGIN] => 13 => 14 [~JOBB_MARGIN] => 14 => 1 [~DEPTH_LEVEL] => 1 => Pavel Bobylev [~LEÍRÁS] => Pavel Bobylev => text [~DESCRIPTION_TYPE ] => text => Pavel Bobylev cikkei Pavel Bobylev [~SEARCHABLE_CONTENT] => Pavel Bobylev cikkei Pavel Bobylev => stati-pavla-bobyleva [~CODE] => stati-pavla-bobyleva => [~ XML_ID] => => [~TMP_ID] => => [~DETAIL_PICTURE] => => [~SOCNET_GROUP_ID] => => /blog/index.php?ID=6 [~LIST_PAGE_URL] => /blog/index .php?ID=6 => /blog/list.php?SECTION_ID=24 [~SECTION_PAGE_URL] => /b log/list.php?SECTION_ID=24 => blog [~IBLOCK_TYPE_ID] => blog => blog [~IBLOCK_CODE] => blog => [~IBLOCK_EXTERNAL_ID] => => [~EXTERNAL_ID] =>)