Robot txt mencegah pengindeksan halaman. Cara menonaktifkan pengindeksan halaman yang diperlukan

File robots.txt— file teks dalam format .txt yang membatasi akses robot pencari ke konten di server http. Bagaimana definisi, Robots.txt- ini standar pengecualian robot, yang diadopsi oleh W3C pada 30 Januari 1994, dan secara sukarela digunakan oleh sebagian besar mesin pencari. File robots.txt terdiri dari sekumpulan instruksi untuk crawler untuk mencegah file, halaman, atau direktori tertentu diindeks di situs. Pertimbangkan deskripsi robots.txt untuk kasus ketika situs tidak membatasi akses ke situs oleh robots.txt.

Contoh robots.txt sederhana:

Agen-pengguna: * Izinkan: /

Di sini, robot sepenuhnya memungkinkan pengindeksan seluruh situs.

File robots.txt harus diunggah ke direktori root situs web Anda sehingga tersedia di:

Your_site.ru/robots.txt

Menempatkan file robots.txt di root situs biasanya memerlukan akses FTP. Namun, beberapa sistem manajemen (CMS) memungkinkan Anda membuat robots.txt langsung dari panel kontrol situs atau melalui pengelola FTP bawaan.

Jika file tersedia, maka Anda akan melihat isi robots.txt di browser.

Untuk apa robots.txt?

Roots.txt untuk situs merupakan aspek penting. Mengapa robots.txt diperlukan? Misalnya, di Robots.txt SEO diperlukan untuk mengecualikan dari halaman pengindeksan yang tidak berisi konten yang bermanfaat dan banyak lagi. Bagaimana, apa, mengapa dan mengapa itu dikecualikan telah dijelaskan dalam artikel tentang, kami tidak akan membahasnya di sini. Apakah saya memerlukan file robots.txt? semua situs? Iya dan tidak. Jika penggunaan robots.txt menyiratkan pengecualian halaman dari pencarian, maka untuk situs kecil dengan struktur sederhana dan halaman statis, pengecualian seperti itu mungkin tidak diperlukan. Namun, bahkan untuk situs kecil, beberapa arahan robots.txt, seperti direktif Host atau Sitemap, tetapi lebih lanjut tentang itu di bawah.

Cara membuat robots.txt

Karena robots.txt adalah file teks, dan untuk buat file robots.txt, Anda dapat menggunakan editor teks apa pun, misalnya buku catatan. Segera setelah Anda membuka dokumen teks baru, Anda sudah mulai membuat robots.txt, tinggal menyusun kontennya, tergantung pada kebutuhan Anda, dan menyimpannya sebagai file teks bernama robot dalam format txt. Ini sederhana, dan membuat file robots.txt seharusnya tidak menimbulkan masalah bahkan untuk pemula. Di bawah ini saya akan menunjukkan cara menulis robots.txt dan apa yang harus ditulis di robots.txt.

Buat robots.txt online

Pilihan untuk yang malas buat robot online dan unduh file robots.txt sudah siap. Membuat robot txt online menawarkan banyak layanan, pilihan ada di tangan Anda. Hal utama adalah memahami dengan jelas apa yang akan dilarang dan apa yang diizinkan, jika tidak membuat file robots.txt secara online dapat berubah menjadi tragedi yang kemudian sulit untuk diperbaiki. Apalagi jika sesuatu yang seharusnya tertutup masuk ke dalam pencarian. Hati-hati - periksa file robot Anda sebelum mengunggahnya ke situs. Belum file robots.txt khusus lebih akurat mencerminkan struktur pembatasan daripada yang dibuat dan diunduh secara otomatis dari situs lain. Baca terus untuk mengetahui apa yang harus diperhatikan secara khusus saat mengedit robots.txt.

Mengedit robots.txt

Setelah Anda berhasil membuat file robots.txt secara online atau dengan tangan, Anda dapat edit robots.txt. Anda dapat mengubah isinya sesuka Anda, yang utama adalah mengikuti beberapa aturan dan sintaks robots.txt. Dalam proses bekerja di situs, file robots dapat berubah, dan jika Anda mengedit robots.txt, maka jangan lupa untuk mengunggah versi file yang diperbarui dan terbaru dengan semua perubahan di situs. Selanjutnya, pertimbangkan aturan untuk menyiapkan file untuk mengetahui cara mengubah file robots.txt dan "jangan menebang kayu."

Pengaturan robots.txt yang benar

Pengaturan robots.txt yang benar memungkinkan Anda untuk menghindari mendapatkan informasi pribadi dalam hasil pencarian mesin pencari utama. Namun, jangan lupa itu perintah robots.txt tidak lebih dari panduan untuk bertindak, bukan pertahanan. Robot mesin pencari yang andal seperti Yandex atau Google mengikuti instruksi robots.txt, tetapi robot lain dapat dengan mudah mengabaikannya. Pemahaman yang tepat dan penggunaan robots.txt adalah kunci untuk mendapatkan hasil.

Untuk mengerti cara membuat robot txt yang benar, pertama-tama Anda perlu memahami aturan umum, sintaks, dan arahan dari file robots.txt.

Robots.txt yang benar dimulai dengan direktif User-agent, yang menunjukkan ke robot mana arahan khusus ditujukan.

Contoh agen pengguna di robots.txt:

# Menentukan arahan untuk semua robot secara bersamaan Agen-pengguna: * # Menentukan arahan untuk semua robot Yandex Agen-pengguna: Yandex # Menentukan arahan hanya untuk robot pengindeksan Yandex utama Agen-pengguna: YandexBot # Menentukan arahan untuk semua robot Google Agen-pengguna: Googlebot

Harap dicatat bahwa seperti itu menyiapkan file robots.txt memberitahu robot untuk menggunakan hanya arahan yang cocok dengan agen pengguna dengan namanya.

Contoh robots.txt dengan beberapa entri User-agent:

# Akan digunakan oleh semua robot Yandex Agen-pengguna: Yandex Disallow: /*utm_ # Akan digunakan oleh semua robot Google Agen-pengguna: Googlebot Disallow: /*utm_ # Akan digunakan oleh semua robot kecuali robot Yandex dan Pengguna Google- agen: * Izinkan: / *utm_

Arahan agen pengguna hanya membuat indikasi ke robot tertentu, dan segera setelah arahan Agen-pengguna harus ada perintah atau perintah dengan indikasi langsung tentang kondisi robot yang dipilih. Contoh di atas menggunakan direktif disable "Disallow", yang memiliki nilai "/*utm_". Jadi, kami menutup semuanya. Pengaturan robots.txt yang tepat mencegah adanya jeda baris kosong antara arahan "User-agent", "Disallow" dan arahan setelah "Disallow" dalam "User-agent" saat ini.

Contoh umpan baris yang salah di robots.txt:

Contoh feed baris yang benar di robots.txt:

Agen-pengguna: Yandex Larang: /*utm_ Izinkan: /*id= Agen-pengguna: * Larang: /*utm_ Izinkan: /*id=

Seperti yang Anda lihat dari contoh, instruksi di robots.txt datang dalam blok, yang masing-masing berisi instruksi untuk robot tertentu atau untuk semua robot "*".

Selain itu, penting untuk diikuti urutan yang benar dan menyortir perintah di robots.txt saat membagikan arahan seperti "Disallow" dan "Allow". Perintah "Allow" adalah perintah permisif dan merupakan kebalikan dari perintah "Disallow" robots.txt, yang merupakan perintah disallow.

Contoh berbagi arahan di robots.txt:

Agen-pengguna: * Izinkan: /blog/halaman Larang: /blog

Contoh ini mencegah semua robot mengindeks semua halaman yang dimulai dengan "/blog", tetapi mengizinkan pengindeksan halaman yang dimulai dengan "/blog/page".

Contoh robots.txt sebelumnya dalam urutan yang benar:

Agen-pengguna: * Larang: /blog Izinkan: /blog/halaman

Pertama kami menonaktifkan seluruh bagian, lalu kami mengizinkan beberapa bagiannya.

Satu lagi contoh robots.txt yang benar dengan arahan bersama:

Agen-pengguna: * Izinkan: / Larang: /blog Izinkan: /blog/halaman

Perhatikan urutan arahan yang benar dalam robots.txt ini.

Direktif "Allow" dan "Disallow" juga dapat ditentukan tanpa parameter, dalam hal ini nilainya akan diinterpretasikan secara terbalik dengan parameter "/".

Contoh direktif "Disallow/Allow" tanpa parameter:

Agen-pengguna: * Disallow: # setara dengan Allow: / Disallow: /blog Allow: /blog/page

Cara membuat robots.txt yang benar dan bagaimana menggunakan interpretasi arahan adalah pilihan Anda. Kedua opsi akan benar. Yang utama jangan bingung.

Untuk kompilasi robots.txt yang benar, perlu secara akurat menentukan prioritas dalam parameter arahan dan apa yang akan dilarang untuk diunduh oleh robots.txt. Kita akan melihat penggunaan direktif "Disallow" dan "Allow" lebih lengkap di bawah ini, tetapi sekarang mari kita lihat sintaks robots.txt. Mengetahui sintaks robots.txt akan membuat Anda lebih dekat dengan buat robot txt yang sempurna dengan tangan Anda sendiri.

Sintaks Robots.txt

Robot mesin pencari secara sukarela mengikuti perintah robots.txt- standar pengecualian untuk robot, tetapi tidak semua mesin pencari perlakukan sintaks robots.txt dengan cara yang sama. File robots.txt memiliki sintaks yang ditentukan secara ketat, tetapi pada saat yang sama menulis robot txt tidak sulit karena strukturnya sangat sederhana dan mudah dipahami.

Berikut adalah daftar khusus aturan sederhana, yang akan Anda kecualikan kesalahan umum robots.txt:

Setiap arahan dimulai pada baris baru;
Jangan memasukkan lebih dari satu direktif dalam satu baris;
Jangan beri spasi di awal baris;
Parameter direktif harus dalam satu baris;
Anda tidak perlu menyertakan parameter direktif dalam tanda kutip;
Parameter direktif tidak memerlukan penutupan titik koma;
Perintah di robots.txt ditentukan dalam format - [nama_direktif]:[spasi opsional][nilai][spasi opsional];
Komentar diperbolehkan di robots.txt setelah tanda pagar #;
Baris baru yang kosong dapat diartikan sebagai akhir dari direktif User-agent;
Arahan "Disallow:" (dengan nilai kosong) sama dengan "Allow: /" - izinkan semuanya;
Arahan "Allow", "Disallow" menentukan tidak lebih dari satu parameter;
Nama file robots.txt tidak memungkinkan adanya huruf kapital, ejaan nama file yang salah adalah Robots.txt atau ROBOTS.TXT;
Menulis nama direktif dan parameter dalam huruf kapital dianggap sebagai bentuk yang buruk, dan jika, menurut standar, robots.txt tidak peka huruf besar/kecil, nama file dan direktori sering peka huruf besar/kecil;
Jika parameter direktif adalah direktori, maka nama direktori selalu diawali dengan garis miring "/", misalnya: Disallow: /category
Robots.txt yang terlalu besar (lebih dari 32 KB) dianggap sepenuhnya permisif, setara dengan "Disallow: ";
Robots.txt yang tidak dapat diakses karena alasan tertentu dapat dianggap sepenuhnya permisif;
Jika robots.txt kosong, maka akan diperlakukan sebagai sepenuhnya permisif;
Sebagai hasil dari daftar beberapa arahan "User-agent" tanpa baris baru yang kosong, semua arahan "User-agent" berikutnya kecuali yang pertama dapat diabaikan;
Penggunaan simbol alfabet nasional apa pun di robots.txt tidak diperbolehkan.

Karena mesin pencari yang berbeda dapat menafsirkan sintaks robots.txt secara berbeda, beberapa poin dapat dihilangkan. Jadi, misalnya, jika Anda menentukan beberapa arahan "User-agent" tanpa jeda baris kosong, semua arahan "User-agent" akan diterima dengan benar oleh Yandex, karena Yandex menyoroti entri dengan kehadiran di baris "User-agent" .

Robot harus secara ketat menunjukkan hanya apa yang dibutuhkan, dan tidak lebih. Jangan berpikir cara menulis semuanya di robots txt apa yang mungkin dan bagaimana mengisinya. Robot sempurna txt adalah yang memiliki lebih sedikit garis tetapi lebih bermakna. "Singkatnya adalah jiwa kecerdasan". Ungkapan ini sangat berguna di sini.

Bagaimana cara memeriksa robots.txt

Untuk cek robots.txt untuk sintaks dan struktur file yang benar, Anda dapat menggunakan salah satu layanan online. Misalnya, Yandex dan Google menawarkan layanan mereka sendiri untuk webmaster, yang meliputi: penguraian robots.txt:

Memeriksa file robots.txt di Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

Untuk periksa robots.txt online diperlukan unggah robots.txt ke situs di direktori root. Jika tidak, layanan dapat melaporkan bahwa gagal memuat robots.txt. Disarankan untuk memeriksa ketersediaan robots.txt terlebih dahulu di alamat tempat file berada, misalnya: your_site.ru/robots.txt.

Selain layanan verifikasi dari Yandex dan Google, ada banyak layanan online lainnya. validator robots.txt.

Robots.txt vs Yandex dan Google

Ada pendapat subjektif bahwa Yandex merasakan indikasi blok arahan terpisah "User-agent: Yandex" di robots.txt lebih positif daripada blok arahan umum dengan "User-agent: *". Situasi serupa dengan robots.txt dan Google. Menentukan arahan terpisah untuk Yandex dan Google memungkinkan Anda mengelola pengindeksan situs melalui robots.txt. Mungkin mereka tersanjung oleh daya tarik pribadi, terutama karena untuk sebagian besar situs, konten blok robots.txt Yandex, Google, dan mesin pencari lainnya akan sama. Dengan pengecualian langka, semua blok "Agen-pengguna" akan memiliki default untuk robots.txt seperangkat arahan. Juga, dengan menggunakan "Agen-pengguna" yang berbeda, Anda dapat menginstal larangan pengindeksan di robots.txt untuk Yandex, tetapi, misalnya, bukan untuk Google.

Secara terpisah, perlu dicatat bahwa Yandex memperhitungkan arahan penting seperti "Host", dan robots.txt yang benar untuk Yandex harus menyertakan arahan ini untuk menunjukkan mirror situs utama. Arahan "Host" akan dibahas lebih detail di bawah ini.

Nonaktifkan pengindeksan: robots.txt Disallow

Disallow - melarang direktif, yang paling sering digunakan di file robots.txt. Disallow melarang pengindeksan situs atau bagiannya, tergantung pada jalur yang ditentukan dalam parameter direktif Disallow.

Contoh cara menonaktifkan pengindeksan situs di robots.txt:

Agen-pengguna: * Larang: /

Contoh ini menutup seluruh situs dari pengindeksan untuk semua robot.

Karakter khusus * dan $ dapat digunakan dalam parameter direktif Disallow:

* - sejumlah karakter apa pun, misalnya, parameter /page* memenuhi /page, /page1, /page-be-cool, /page/kak-skazat, dll. Namun, tidak perlu menentukan * di akhir setiap parameter, karena, misalnya, arahan berikut diinterpretasikan dengan cara yang sama:

Agen-pengguna: Yandex Disallow: /page Agen-pengguna: Yandex Disallow: /page*

$ - menunjukkan kecocokan persis pengecualian dengan nilai parameter:

Agen pengguna: Googlebot Larang: /page$

Dalam kasus ini, direktif Disallow akan melarang /page, tetapi tidak akan melarang /page1, /page-be-cool, atau /page/kak-skazat untuk diindeks.

Jika tutup pengindeksan situs robots.txt, mesin telusur mungkin merespons langkah tersebut dengan kesalahan “Diblokir di file robots.txt” atau “url dibatasi oleh robots.txt” (url dilarang oleh file robots.txt). Jika Anda membutuhkan nonaktifkan pengindeksan halaman, Anda tidak hanya dapat menggunakan robots txt, tetapi juga tag html serupa:

- jangan mengindeks konten halaman;
- jangan ikuti tautan di halaman;
- dilarang mengindeks konten dan mengikuti tautan di halaman;
- mirip dengan konten = "tidak ada".

Izinkan pengindeksan: robots.txt Izinkan

Izinkan - izinkan direktif dan kebalikan dari Disallow directive. Direktif ini memiliki sintaks yang mirip dengan Disallow.

Contoh cara menonaktifkan pengindeksan situs di robots.txt kecuali untuk beberapa halaman:

Agen-pengguna: * Larang: /Izinkan: /halaman

Dilarang mengindeks seluruh situs, kecuali untuk halaman yang dimulai dengan /page.

Larang dan Izinkan dengan nilai parameter kosong

Arahan Disallow kosong:

Agen-pengguna: * Larang:

Jangan melarang apa pun atau mengizinkan pengindeksan seluruh situs dan setara dengan:

Agen-pengguna: * Izinkan: /

Arahan kosong Izinkan:

Agen-pengguna: * Izinkan:

Tidak mengizinkan apa pun atau larangan lengkap pengindeksan situs sama dengan:

Agen-pengguna: * Larang: /

Cermin situs utama: Host robots.txt

Arahan Host digunakan untuk menunjukkan kepada robot Yandex cermin utama situs Anda. Dari semua mesin pencari populer, arahan Tuan rumah hanya dikenali oleh robot Yandex. Arahan Host berguna jika situs Anda tersedia di beberapa situs, misalnya:

situsku.ru situsku.com

Atau untuk memprioritaskan antara:

Situs saya.ru www.situssaya.ru

Anda dapat memberi tahu robot Yandex cermin mana yang utama. Arahan Host ditentukan dalam blok arahan "User-agent: Yandex" dan sebagai parameter, alamat situs pilihan tanpa "http://" ditunjukkan.

Contoh robots.txt yang menunjukkan cermin utama:

Agen-pengguna: Yandex Disallow: /page Host: mysite.ru

Nama domain mysite.ru tanpa www diindikasikan sebagai cermin utama. Dengan demikian, jenis alamat ini akan ditunjukkan dalam hasil pencarian.

Agen-pengguna: Yandex Larang: /halaman Host: www.mysite.ru

Nama domain www.mysite.ru diindikasikan sebagai cermin utama.

Perintah host di file robots.txt dapat digunakan hanya sekali, jika direktif Host ditentukan lebih dari sekali, hanya yang pertama yang akan diperhitungkan, direktif Host lainnya akan diabaikan.

Jika Anda ingin menentukan cermin utama untuk Googlebot, gunakan layanan Alat Webmaster Google.

Peta Situs: peta situs robots.txt

Menggunakan arahan Peta Situs, Anda dapat menentukan lokasi di situs di robots.txt.

Contoh robots.txt dengan alamat peta situs:

Agen-pengguna: * Larang: /halaman Peta Situs: http://www.mysite.ru/sitemap.xml

Menentukan alamat peta situs melalui arahan peta situs di robots.txt memungkinkan robot pencari mengetahui keberadaan peta situs dan mulai mengindeksnya.

Arahan param bersih

Arahan Clean-param memungkinkan Anda untuk mengecualikan halaman dengan parameter dinamis dari pengindeksan. Halaman serupa dapat menyajikan konten yang sama dengan URL halaman yang berbeda. Sederhananya, seolah-olah halaman tersebut tersedia di alamat yang berbeda. Tugas kami adalah menghapus semua alamat dinamis yang tidak perlu, yang bisa mencapai satu juta. Untuk melakukan ini, kami mengecualikan semua parameter dinamis, menggunakan direktif Clean-param di robots.txt.

Sintaks dari arahan Clean-param:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Path]

Perhatikan contoh halaman dengan URL berikut:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Contoh robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # page.html saja

Clean-param: parm1&parm2&parm3 / # untuk semua

Arahan penundaan perayapan

Instruksi ini memungkinkan Anda untuk mengurangi beban pada server jika robot mengunjungi situs Anda terlalu sering. Arahan ini relevan terutama untuk situs dengan volume halaman yang besar.

Contoh robots.txt Penundaan perayapan:

Agen-pengguna: Yandex Disallow: /page Crawl-delay: 3

Dalam hal ini, kami "meminta" robot Yandex untuk mengunduh halaman situs kami tidak lebih dari sekali setiap tiga detik. Beberapa mesin pencari mendukung format desimal sebagai parameter Arahan crawl-delay robots.txt.

Terkadang halaman situs atau tautan yang ditempatkan di dalamnya perlu tidak muncul di hasil pencarian. Anda dapat menyembunyikan konten situs dari pengindeksan menggunakan file robots.txt, markup HTML, atau otorisasi di situs.

Larangan mengindeks situs, bagian, atau halaman

Jika beberapa halaman atau bagian situs tidak boleh diindeks (misalnya, dengan informasi kepemilikan atau rahasia), batasi akses ke halaman atau bagian tersebut dengan cara berikut:

Gunakan otorisasi di situs. Kami merekomendasikan metode ini untuk menyembunyikan halaman utama situs dari pengindeksan. Jika halaman beranda dinonaktifkan di file robots.txt atau menggunakan tag meta noindex, tetapi ditautkan, halaman mungkin muncul di hasil pencarian.

Larangan pengindeksan konten halaman

Sembunyikan bagian teks halaman dari pengindeksan

Dalam kode HTML halaman, tambahkan elemen noindex. Sebagai contoh:

Elemen ini tidak sensitif untuk bersarang - elemen ini dapat ditemukan di mana saja dalam kode HTML halaman. Jika Anda perlu membuat kode situs valid, Anda dapat menggunakan tag dalam format berikut:

teks yang akan diindeksSembunyikan tautan pada halaman dari pengindeksan

Dalam kode HTML halaman, tambahkan atribut a ke elemen a. Sebagai contoh:

Atribut ini bekerja mirip dengan arahan nofollow di tag meta robots, tetapi hanya berlaku untuk tautan yang ditentukan.

Robots.txt untuk wordpress adalah salah satu alat utama untuk menyiapkan pengindeksan. Sebelumnya kita berbicara tentang mempercepat dan meningkatkan proses pengindeksan artikel. Apalagi mereka menganggap masalah ini seolah-olah robot pencari tidak tahu dan tidak bisa berbuat apa-apa. Dan kita harus memberitahunya. Untuk ini kami menggunakan file peta situs.

Mungkin Anda masih belum tahu bagaimana robot pencari mengindeks situs Anda? Secara default, semuanya diizinkan untuk diindeks. Tapi dia tidak langsung melakukannya. Robot, setelah menerima sinyal bahwa perlu mengunjungi situs, menempatkannya dalam antrian. Oleh karena itu, pengindeksan tidak terjadi secara instan atas permintaan kami, tetapi setelah beberapa waktu. Setelah giliran situs Anda, robot laba-laba ini ada di sana. Pertama-tama, ia mencari file robots.txt.

Jika robots.txt ditemukan, ia membaca semua arahan dan melihat alamat file di akhir. Kemudian robot, sesuai dengan peta situs, melewati semua materi yang disediakan untuk pengindeksan. Dia melakukan ini dalam jangka waktu terbatas. Itulah sebabnya, jika Anda telah membuat situs dengan beberapa ribu halaman dan mempostingnya secara keseluruhan, maka robot tidak akan punya waktu untuk menelusuri semua halaman sekaligus. Dan hanya yang berhasil dia lihat yang akan masuk ke dalam indeks. Dan robot berjalan di seluruh situs dan menghabiskan waktunya di sana. Dan itu bukan fakta bahwa sejak awal dia akan melihat halaman yang Anda tunggu di hasil pencarian.

Jika robot tidak menemukan file robots.txt, maka dianggap semua diperbolehkan untuk diindeks. Dan dia mulai mengaduk-aduk semua jalan belakang. Setelah membuat salinan lengkap dari semua yang bisa dia temukan, dia meninggalkan situs Anda, sampai waktu berikutnya. Seperti yang Anda pahami, setelah pencarian seperti itu, semua yang diperlukan dan semua yang tidak diperlukan masuk ke basis indeks mesin pencari. Yang perlu Anda ketahui adalah artikel, halaman, gambar, video, dll. Mengapa Anda tidak perlu mengindeks?

Untuk WordPress, ini ternyata menjadi masalah yang sangat penting. Jawabannya memengaruhi percepatan pengindeksan konten situs Anda, dan keamanannya. Faktanya adalah bahwa semua informasi layanan tidak perlu diindeks. Dan umumnya diinginkan untuk menyembunyikan file WordPress dari pengintaian. Ini akan mengurangi kemungkinan situs Anda diretas.

WordPress membuat banyak salinan artikel Anda dengan URL yang berbeda tetapi konten yang sama. Ini terlihat seperti ini:

//nama_situs/nama_artikel,

//nama_situs/nama_kategori/nama_artikel,

//nama_situs/nama_judul/nama_subjudul/nama_artikel,

//nama_situs/nama_tag/nama_artikel,

//nama_situs/arsip_pembuatan_tanggal/nama_artikel

Dengan tag dan arsip dalam penjagaan umum. Berapa banyak tag yang dilampirkan pada artikel, begitu banyak salinan yang dibuat. Saat mengedit artikel, banyak arsip yang akan dibuat pada tanggal yang berbeda, dan banyak alamat baru dengan konten yang hampir serupa akan muncul. Dan ada juga salinan artikel dengan alamat untuk setiap komentar. Ini benar-benar mengerikan.

Sejumlah besar mesin pencari duplikat dievaluasi sebagai situs yang buruk. Jika semua salinan ini diindeks dan disediakan dalam pencarian, maka bobot artikel utama akan tersebar di semua salinan, yang sangat buruk. Dan bukan fakta bahwa artikel dengan alamat utama akan ditampilkan sebagai hasil pencarian. Oleh karena itu perlu untuk melarang pengindeksan semua salinan.

WordPress memformat gambar sebagai artikel terpisah tanpa teks. Dalam formulir ini, tanpa teks dan deskripsi, mereka terlihat seperti artikel yang sama sekali tidak benar. Oleh karena itu, Anda perlu mengambil tindakan untuk mencegah alamat ini diindeks oleh mesin pencari.

Mengapa tidak harus diindeks?

Lima alasan untuk melarang pengindeksan!

Pengindeksan penuh memberi beban ekstra pada server Anda.
Dibutuhkan waktu yang berharga dari robot itu sendiri.
Mungkin ini yang terpenting, informasi yang salah bisa disalahartikan oleh mesin pencari. Ini akan menyebabkan peringkat artikel dan halaman yang salah, dan selanjutnya ke hasil yang salah dalam hasil pencarian.
Folder dengan templat dan plugin berisi sejumlah besar tautan ke situs pembuat dan pengiklan. Ini sangat buruk untuk situs muda, ketika belum ada atau sangat sedikit tautan ke situs Anda dari luar.
Dengan mengindeks semua salinan artikel Anda di arsip dan komentar, mesin pencari mendapat opini buruk tentang situs Anda. Banyak duplikat. Banyak tautan keluar Mesin pencari akan menurunkan peringkat situs Anda dalam hasil pencarian ke titik penyaringan. Dan gambar-gambar itu, yang dirancang sebagai artikel terpisah dengan judul dan tanpa teks, membuat robot itu ketakutan. Jika ada banyak, maka situs mungkin bergetar di bawah filter Yandex AGS. Situs saya ada di sana. Diperiksa!

Sekarang, setelah semua yang telah dikatakan, muncul pertanyaan yang masuk akal: "Apakah mungkin untuk entah bagaimana melarang pengindeksan sesuatu yang tidak perlu?". Ternyata Anda bisa. Setidaknya bukan berdasarkan perintah, tetapi berdasarkan rekomendasi. Situasi tidak sepenuhnya melarang pengindeksan beberapa objek terjadi karena file sitemap.xml, yang diproses setelah robots.txt. Ternyata seperti ini: robots.txt melarang, dan sitemap.xml mengizinkan. Namun kita bisa memecahkan masalah ini. Bagaimana melakukannya sekarang dan pertimbangkan.

File robots.txt wordpress secara default dinamis dan tidak benar-benar ada di wordpress. Dan itu dihasilkan hanya pada saat seseorang memintanya, baik itu robot atau hanya pengunjung. Artinya, jika Anda pergi ke situs melalui koneksi FTP, maka Anda tidak akan menemukan file robots.txt untuk wordpress di folder root. Dan jika Anda menentukan alamat spesifiknya http://your_site_name/robots.txt di browser, maka Anda akan mendapatkan isinya di layar seolah-olah file itu ada. Isi dari file robots.txt wordpress yang dihasilkan ini adalah:

Dalam aturan kompilasi file robots.txt, secara default, semuanya diizinkan untuk diindeks. User-agent: * directive menunjukkan bahwa semua perintah selanjutnya berlaku untuk semua agen pencarian (*). Tapi kemudian tidak ada yang dibatasi. Dan seperti yang Anda tahu, ini tidak cukup. Kami telah membahas folder dan catatan dengan akses terbatas, cukup banyak.

Agar dapat membuat perubahan pada file robots.txt dan menyimpannya di sana, Anda harus membuatnya dalam bentuk statis dan permanen.

Cara membuat robots.txt untuk wordpress

Dalam editor teks apa pun (hanya dalam kasus apa pun tidak menggunakan MS Word dan sejenisnya dengan elemen pemformatan teks otomatis) buat file teks dengan konten perkiraan di bawah ini dan kirimkan ke folder root situs Anda. Perubahan dapat dilakukan sesuai kebutuhan.

Anda hanya perlu mempertimbangkan fitur kompilasi file:

Di awal baris angka, seperti di artikel ini, tidak boleh ada. Angka-angka diberikan di sini untuk kenyamanan meninjau isi file. Seharusnya tidak ada karakter tambahan di akhir setiap baris, termasuk spasi atau tab. Di antara blok harus ada baris kosong tanpa karakter apa pun, termasuk spasi. Hanya satu ruang yang dapat membahayakan Anda - HATI-HATI .

Bagaimana cara memeriksa robots.txt untuk wordpress

Anda dapat memeriksa robots.txt untuk ruang ekstra dengan cara berikut. Di editor teks, pilih semua teks dengan menekan Ctrl+A. Jika tidak ada spasi di akhir baris dan baris kosong, Anda akan melihat ini. Dan jika ada kekosongan yang dipilih, maka Anda harus menghapus spasi dan semuanya akan baik-baik saja.

Anda dapat memeriksa apakah aturan yang ditentukan berfungsi dengan benar di tautan berikut:

Penguraian robots.txt Webmaster Yandex
Mengurai robots.txt di Google Search console .
Layanan untuk membuat file robots.txt: http://pr-cy.ru/robots/
Layanan untuk membuat dan memeriksa robots.txt: https://seolib.ru/tools/generate/robots/
Dokumentasi dari Yandex .
Dokumentasi dari google(Bahasa Inggris)

Ada cara lain untuk memeriksa file robots.txt untuk situs wordpress, ini adalah dengan mengunggah kontennya ke webmaster Yandex atau menentukan alamat lokasinya. Jika ada kesalahan, Anda akan langsung tahu.

Robots.txt yang benar untuk wordpress

Sekarang mari kita langsung masuk ke konten file robots.txt untuk situs wordpress. Arahan apa yang harus ada di dalamnya. Perkiraan konten file robots.txt untuk wordpress, berdasarkan fitur-fiturnya, diberikan di bawah ini:

Agen-pengguna: * Disallow: /wp-login.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: */*comments Disallow: * /*category Disallow: */*tag Disallow: */trackback Disallow: */*feed Disallow: /*?* Disallow: /?s= Allow: /wp-admin/admin-ajax.php Izinkan: /wp-content /uploads/ Izinkan: /*?replytocom Agen-pengguna: Yandex Disallow: /wp-login.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: */comments Disallow: */*category Disallow: */*tag Disallow: */trackback Disallow: */*feed Disallow: /*?* Disallow: /*?s= Allow: /wp-admin/admin- ajax.php Izinkan: /wp-content/uploads/ Izinkan: /*?replytocom Crawl-delay: 2.0 Host: site.ru Peta Situs: http://site.ru/sitemap.xml

Arahan robots.txt Wordpress

Sekarang mari kita lihat lebih dekat:

1 - 16 baris blok pengaturan untuk semua robot

Agen-pengguna: - Ini adalah arahan wajib yang mendefinisikan agen pencarian. Tanda bintang mengatakan bahwa direktif adalah untuk robot dari semua mesin pencari. Jika blok ditujukan untuk robot tertentu, maka Anda harus menentukan namanya, misalnya, Yandex, seperti pada baris 18.

Secara default, semuanya diperbolehkan untuk pengindeksan. Ini sama dengan perintah Allow: /.

Oleh karena itu, untuk melarang pengindeksan folder atau file tertentu, perintah Disallow: khusus digunakan.

Dalam contoh kami, menggunakan nama folder dan topeng nama file, larangan dibuat di semua folder layanan WordPress, seperti admin, tema, plugin, komentar, kategori, tag... Jika Anda menentukan arahan dalam formulir ini Disallow: /, maka akan diberikan larangan mengindeks seluruh situs.

Izinkan: - seperti yang saya katakan, arahan memungkinkan pengindeksan folder atau file. Ini harus digunakan ketika ada file jauh di dalam folder terlarang yang masih perlu diindeks.

Dalam contoh saya, baris 3 Disallow: /wp-admin - melarang pengindeksan folder /wp-admin, dan baris 14 Allow: /wp-admin/admin-ajax.php - memungkinkan pengindeksan file /admin-ajax.php terletak di folder pengindeksan terlarang /wp-admin/.

17 - Baris kosong (cukup tekan tombol Enter tanpa spasi)

18 - 33 blok pengaturan khusus untuk agen Yandex (User-agent: Yandex). Seperti yang Anda perhatikan, blok ini sepenuhnya mengulangi semua perintah dari blok sebelumnya. Dan muncul pertanyaan: "Apa sih masalah seperti itu?". Jadi ini semua dilakukan hanya karena beberapa arahan yang akan kami pertimbangkan lebih lanjut.

34 - Penundaan perayapan - Arahan opsional hanya untuk Yandex. Ini digunakan ketika server dimuat dengan berat dan tidak punya waktu untuk memproses permintaan robot. Ini memungkinkan Anda untuk mengatur robot pencari penundaan minimum (dalam detik dan sepersepuluh detik) antara akhir pemuatan satu halaman dan awal pemuatan halaman berikutnya. Nilai maksimum yang diizinkan adalah 2,0 detik. Itu ditambahkan langsung setelah arahan Disallow dan Allow.

35 - String kosong

36 - Host: site.ru - nama domain situs Anda (perintah WAJIB untuk blok Yandex). Jika situs kita menggunakan protokol HTTPS, maka alamat harus dicantumkan secara lengkap seperti gambar di bawah ini:

Tuan rumah: https://site.ru

37 - String kosong (hanya menekan tombol Enter tanpa spasi) harus ada.

38 - Peta Situs: http://site.ru/sitemap.xml - alamat lokasi file sitemap.xml (perintah WAJIB), terletak di akhir file setelah baris kosong dan berlaku untuk semua blok.

Masker untuk arahan file robots.txt untuk wordpress

Sekarang sedikit cara membuat topeng:

Disallow: /wp-register.php - Nonaktifkan pengindeksan file wp-register.php yang terletak di folder root.
Disallow: /wp-admin - melarang pengindeksan konten folder wp-admin yang terletak di folder root.
Larang: /trackback - menonaktifkan pengindeksan notifikasi.
Disallow: /wp-content/plugins - melarang pengindeksan konten folder plugins yang terletak di subfolder (folder tingkat kedua) dari wp-content.
Disallow: /feed - melarang pengindeksan feed, mis. menutup umpan RSS situs.
* - berarti urutan karakter apa pun, oleh karena itu dapat menggantikan satu karakter dan sebagian nama atau seluruh nama file atau folder. Tidak adanya nama tertentu di akhir sama saja dengan penulisan *.
Disallow: */*comments - melarang pengindeksan isi folder dan file dengan nama yang ada komentar dan terletak di folder mana pun. Dalam hal ini, ini mencegah komentar diindeks.
Larang: *?s= - melarang pengindeksan halaman pencarian

Baris di atas dapat digunakan sebagai file robots.txt yang berfungsi untuk wordpress. Hanya dalam 36, 38 baris Anda harus memasukkan alamat situs Anda dan WAJIB HAPUS nomor baris. Dan Anda akan mendapatkan file robots.txt yang berfungsi untuk wordpress , disesuaikan dengan mesin pencari apa pun.

Satu-satunya fitur adalah ukuran file robots.txt yang berfungsi untuk situs wordpress tidak boleh melebihi 32 kB ruang disk.

Jika Anda sama sekali tidak tertarik dengan Yandex, maka Anda tidak perlu baris 18-35 sama sekali. Itu mungkin saja. Saya harap artikel itu bermanfaat. Jika Anda memiliki pertanyaan tulis di komentar.

ROBOTS.TXT- Pengecualian standar untuk robot - file dalam format teks.txt untuk membatasi akses ke konten situs oleh robots. File harus berada di root situs (di /robots.txt). Menggunakan standar adalah opsional, tetapi mesin pencari mengikuti aturan yang terdapat dalam robots.txt. File itu sendiri terdiri dari satu set catatan formulir

di mana bidang adalah nama aturan (User-Agent, Disallow, Allow, dll.)

Rekaman dipisahkan oleh satu atau lebih baris kosong (terminator baris: karakter CR, CR+LF, LF)

Bagaimana cara mengatur ROBOTS.TXT dengan benar?

Paragraf ini memberikan persyaratan dasar untuk menyiapkan file, rekomendasi khusus untuk menyiapkan, contoh untuk CMS populer

Ukuran file tidak boleh melebihi 32 KB.
Encoding harus ASCII atau UTF-8.
File robots.txt yang valid harus berisi setidaknya satu aturan yang terdiri dari beberapa arahan. Setiap aturan harus berisi arahan berikut:
- untuk robot mana aturan ini (User-agent directive)
- sumber daya mana yang dapat diakses oleh agen ini (Allow directive), atau sumber daya mana yang tidak dapat diaksesnya (Disallow).
Setiap aturan dan arahan harus dimulai pada baris baru.
Nilai aturan Disallow/Allow harus dimulai dengan / atau *.
Semua baris yang dimulai dengan simbol #, atau bagian dari baris yang dimulai dengan simbol ini, dianggap sebagai komentar dan tidak diperhitungkan oleh agen.

Jadi, konten minimum dari file robots.txt yang dikonfigurasi dengan benar akan terlihat seperti ini:

Agen-pengguna: * #untuk semua agen Disallow: #tidak ada yang diizinkan = akses ke semua file diizinkan

Bagaimana cara membuat/memodifikasi ROBOTS.TXT?

Anda dapat membuat file menggunakan editor teks apa pun (misalnya, notepad++). Untuk membuat atau memodifikasi file robots.txt, akses ke server melalui FTP/SSH biasanya diperlukan, namun, banyak CMS/CMF memiliki antarmuka manajemen konten file bawaan melalui panel administrasi ("panel admin"), misalnya : Bitrix, ShopScript, dan lainnya.

Untuk apa file ROBOTS.TXT di situs?

Seperti yang Anda lihat dari definisi, robots.txt memungkinkan Anda untuk mengontrol perilaku robot saat mengunjungi situs, mis. mengatur pengindeksan situs oleh mesin pencari - ini membuat file ini menjadi bagian penting dari optimasi SEO situs Anda. Fitur paling penting dari robots.txt adalah larangan mengindeks halaman/file yang tidak berisi informasi berguna. Atau secara umum, seluruh situs, yang mungkin diperlukan, misalnya, untuk versi uji situs.

Contoh utama dari apa yang perlu ditutup dari pengindeksan akan dibahas di bawah ini.

Apa yang perlu ditutup dari pengindeksan?

Pertama, Anda harus selalu menonaktifkan pengindeksan situs selama pengembangan untuk menghindari masuk ke halaman indeks yang tidak akan berada di versi situs yang sudah jadi sama sekali dan halaman dengan konten yang hilang/duplikat/uji sebelum diisi.

Kedua, salinan situs yang dibuat sebagai situs uji untuk pengembangan harus disembunyikan dari pengindeksan.

Ketiga, kami akan menganalisis konten apa yang langsung di situs yang harus dilarang untuk diindeks.

Bagian administratif situs, file layanan.
Halaman otorisasi / pendaftaran pengguna, dalam banyak kasus - bagian pribadi pengguna (jika akses publik ke halaman pribadi tidak disediakan).
Halaman keranjang dan checkout, ulasan pesanan.
Halaman perbandingan produk, dimungkinkan untuk membuka halaman tersebut secara selektif untuk pengindeksan, asalkan unik. Secara umum, tabel perbandingan adalah halaman yang tak terhitung jumlahnya dengan konten duplikat.
Halaman pencarian dan filter dapat dibiarkan terbuka untuk pengindeksan hanya jika mereka pengaturan yang benar: url individual diisi dengan judul unik, tag meta. Dalam kebanyakan kasus, halaman seperti itu harus ditutup.
Halaman dengan menyortir produk/catatan, jika memiliki alamat yang berbeda.
Halaman dengan utm-, openstat-tag di URl (serta yang lainnya).

Sintaks ROBOTS.TXT

Sekarang mari kita membahas sintaks robots.txt secara lebih rinci.

Ketentuan umum:

setiap arahan harus dimulai pada baris baru;
string tidak boleh dimulai dengan spasi;
nilai direktif harus dalam satu baris;
tidak perlu menyertakan nilai direktif dalam tanda kutip;
secara default, untuk semua nilai arahan, * ditulis di akhir, Contoh: Agen-pengguna: Yandex Larang: /cgi-bin* # memblokir akses ke halaman Larang: /cgi-bin # sama
baris baru yang kosong dianggap sebagai akhir dari aturan Agen-pengguna;
hanya satu nilai yang ditentukan dalam arahan "Allow", "Disallow";
nama file robots.txt tidak mengizinkan huruf besar;
robots.txt yang lebih besar dari 32 KB tidak diizinkan, robot tidak akan mengunduh file semacam itu dan akan menganggap situs tersebut sepenuhnya diizinkan;
robots.txt yang tidak dapat diakses dapat diperlakukan sebagai sepenuhnya permisif;
robots.txt kosong dianggap sepenuhnya permisif;
untuk menentukan nilai Cyrillic dari aturan, gunakan Punycod;
hanya pengkodean UTF-8 dan ASCII yang diizinkan: penggunaan alfabet nasional dan karakter lain apa pun di robots.txt tidak diizinkan.

Simbol khusus:

#
Karakter awal komentar, semua teks setelah # dan sebelum umpan baris dianggap sebagai komentar dan tidak digunakan oleh robot.
*
Nilai wildcard yang menunjukkan awalan, akhiran, atau nilai penuh dari arahan - set karakter apa pun (termasuk yang kosong).
$
Indikasi akhir baris, larangan melengkapi * dengan nilai, pada Contoh:
Agen-pengguna: * #untuk semua Izinkan: /$ #izinkan pengindeksan halaman utama Disallow: * #larangan pengindeksan semua halaman kecuali diizinkan

Daftar arahan

Agen pengguna
Arahan wajib. Menentukan robot mana yang dirujuk oleh aturan, aturan tersebut dapat berisi satu atau lebih arahan semacam itu. Anda dapat menggunakan karakter * untuk menunjukkan awalan, akhiran, atau nama lengkap robot. Contoh:
#situs ditutup untuk Google.Berita dan Google.Gambar Agen-pengguna: Googlebot-Gambar Agen-pengguna: Googlebot-Berita Disallow: / #untuk semua robot yang namanya dimulai dengan Yandex, tutup bagian "Berita" Agen-pengguna: Yandex* Larang: /news #terbuka untuk semua orang Agen-pengguna: * Larang:
Melarang
Arahan menentukan file atau direktori mana yang tidak boleh diindeks. Nilai direktif harus dimulai dengan karakter / atau *. Secara default, * ditambahkan ke akhir nilai, kecuali jika dilarang oleh simbol $.
mengizinkan
Setiap aturan harus memiliki setidaknya satu Disallow: atau Allow: direktif.

Arahan menentukan file atau direktori mana yang harus diindeks. Nilai direktif harus dimulai dengan karakter / atau *. Secara default, * ditambahkan ke akhir nilai, kecuali jika dilarang oleh simbol $.

Penggunaan arahan hanya relevan dalam hubungannya dengan Disallow untuk memungkinkan pengindeksan beberapa subset halaman yang dilarang diindeks oleh arahan Disallow.
Bersihkan param
Opsional, arahan cross-sectional. Gunakan direktif Clean-param jika alamat halaman situs berisi parameter GET (ditampilkan setelah tanda ? di URL) yang tidak memengaruhi kontennya (misalnya, UTM). Dengan bantuan aturan ini, semua alamat akan dibawa ke satu bentuk - yang asli, tanpa parameter.

Sintaks direktif:
Bersih-param: p0[&p1&p2&..&pn]
p0… - nama parameter yang tidak perlu diperhitungkan
path - awalan path halaman yang aturannya berlaku

Contoh.

Situs ini memiliki halaman seperti
www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123
Saat menentukan aturan
Agen-pengguna: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl
robot akan mengurangi semua alamat halaman menjadi satu:
www.example.com/some_dir/get_book.pl?book_id=123
peta situs
Direktif opsional, dimungkinkan untuk menempatkan beberapa arahan seperti itu dalam satu file, cross-sectional (cukup untuk menentukannya sekali dalam file, tanpa menduplikasi untuk setiap agen).

Contoh:
Peta Situs: https://example.com/sitemap.xml
Penundaan perayapan
Arahan memungkinkan Anda untuk mengatur robot pencarian periode waktu minimum (dalam detik) antara akhir pemuatan satu halaman dan awal pemuatan halaman berikutnya. Nilai pecahan didukung

Nilai minimum yang diizinkan untuk robot Yandex adalah 2.0.

Robot Google tidak menghormati arahan ini.

Contoh:
Agen-pengguna: Yandex Crawl-delay: 2.0 # menyetel batas waktu menjadi 2 detik Agen-pengguna: * Crawl-delay: 1.5 # menyetel batas waktu menjadi 1,5 detik
Tuan rumah
Arahan menentukan cermin utama situs. Saat ini, hanya Mail.ru yang didukung dari mesin pencari populer.

Contoh:
Agen-pengguna: Mail.Ru Host: www.site.ru # mirror utama dari www

Contoh robots.txt untuk CMS populer

ROBOTS.TXT untuk 1C:Bitrix

Bitrix CMS menyediakan kemampuan untuk mengelola konten file robots.txt. Untuk melakukan ini, di antarmuka administratif, Anda harus pergi ke alat "Pengaturan robots.txt" menggunakan pencarian, atau di sepanjang jalur Pemasaran->Optimasi mesin pencari->Pengaturan robots.txt. Anda juga dapat mengubah konten robots.txt melalui editor file Bitrix bawaan, atau melalui FTP.

Contoh di bawah ini dapat digunakan sebagai set awal robots.txt untuk situs di Bitrix, tetapi tidak universal dan memerlukan adaptasi tergantung pada situsnya.

Penjelasan:

pemisahan menjadi aturan untuk agen yang berbeda disebabkan oleh fakta bahwa Google tidak mendukung arahan Clean-param.

Agen-Pengguna: Yandex Disallow: */index.php Disallow: /bitrix/ Disallow: /*filter Disallow: /*order Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /*bitrix_include_areas = Larang: /*clear_cache= Larang: /*clear_cache_session= Larang: /*ADD_TO_COMPARE_LIST Larang: /*ORDER_BY Larang: /*?print= Larang: /*&print= Larang: /*print_course= Larang: /*?action= Larang : /*&action= Larang: /*register= Larang: /*forgot_password= Larang: /*change_password= Larang: /*login= Larang: /*logout= Larang: /*auth= Larang: /*backurl= Larang: / *back_url= Larang: /*BACKURL= Larang: /*BACK_URL= Larang: /*back_url_admin= Larang: /*?utm_source= Larang: /*?bxajaxid= Larang: /*&bxajaxid= Larang: /*?view_result= Larang: /*&view_result= Larang: /*?PAGEN*& Larang: /*&PAGEN Izinkan: */?PAGEN* Izinkan: /bitrix/components/*/ Izinkan: /bitrix/cache/*/ Izinkan: /bitrix/js/* / Izinkan: /bitrix/templates/*/ Izinkan: /bitrix/panel/ */ Izinkan: /bitrix/components/*/*/ Izinkan: /bitrix/cache/*/*/ Izinkan: /bitrix/js/*/*/ Izinkan: /bitrix/templates/*/*/ Izinkan: /bitrix /panel/*/*/ Allow: /bitrix/components/ Allow: /bitrix/cache/ Allow: /bitrix/js/ Allow: /bitrix/templates/ Allow: /bitrix/panel/ Clean-Param: PAGEN_1 / Clean- Param: PAGEN_2 / #jika ada lebih banyak komponen paginasi di situs, maka duplikat aturan untuk semua varian, ubah nomor Clean-Param: sort Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-Agent: * Disallow: */ index.php Disallow : /bitrix/ Disallow: /*filter Disallow: /*sort Disallow: /*order Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /*bitrix_include_areas= Disallow: / *clear_cache= Larang : /*clear_cache_session= Larang: /*ADD_TO_COMPARE_LIST Larang: /*ORDER_BY Larang: /*?print= Larang: /*&print= Larang: /*print_course= Larang: /*?action= Larang: /*&action = Larang: / *register= Larang: /*forgot_password= Larang: /*change_password= Larang: /*login= Larang: /*logout= Larang: /*auth= Larang: /*backurl= Larang: /*back_url= Larang: /*BACKURL= Larang: /*BACK_URL= Larang: /*back_url_admin= Larang: /*?utm_source= Larang: /*?bxajaxid= Larang: /*&bxajaxid= Larang: /*?view_result= Larang: /*&view_result= Larang: /*utm_ Larang: /*openstat= Larang: /*?PAGEN*& Larang: /*&PAGEN Izinkan: */?PAGEN* Izinkan: /bitrix/components/*/ Izinkan: /bitrix/cache/*/ Izinkan: /bitrix/js/*/ Izinkan: /bitrix/ templates/*/ Izinkan: /bitrix/panel/*/ Izinkan: /bitrix/components/*/*/ Izinkan: /bitrix/cache/*/*/ Izinkan: /bitrix/js/*/*/ Izinkan: /bitrix /templates/*/*/ Izinkan: /bitrix/panel/*/*/ Izinkan: /bitrix/components/ Izinkan: /bitrix/cache/ Izinkan: /bitrix/js/ Izinkan: /bitrix/templates/ Izinkan: /bitrix /panel/ Peta Situs: http://site.com/sitemap.xml #ganti dengan alamat peta situs Anda

ROBOTS.TXT untuk WordPress

Tidak ada alat bawaan untuk mengatur robots.txt di panel admin WordPress, jadi akses ke file hanya dimungkinkan melalui FTP, atau setelah menginstal plugin khusus (misalnya, DL Robots.txt).

Contoh di bawah ini dapat digunakan sebagai starter kit robots.txt untuk situs Wordpress, tetapi tidak universal dan perlu disesuaikan tergantung pada situsnya.

Penjelasan:

arahan Izinkan berisi jalur ke file gaya, skrip, gambar: untuk pengindeksan situs yang benar, perlu tersedia untuk robot;
untuk sebagian besar situs, penulis dan halaman arsip tag hanya membuat konten duplikat dan tidak membuat konten yang bermanfaat, jadi dalam contoh ini mereka ditutup untuk pengindeksan. Jika dalam proyek Anda halaman seperti itu diperlukan, berguna dan unik, maka Anda harus menghapus arahan Disallow: /tag/ dan Disallow: /author/.

Contoh ROBOTS.TXT yang benar untuk situs di WoRdPress:

Agen-pengguna: Yandex # Untuk Yandex Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ embed Larang: /xmlrpc.php Larang: /tag/ Larang: /readme.html Larang: *?replytocom Izinkan: */uploads Izinkan: /*/*.js Izinkan: /*/*.css Izinkan: /wp-* .png Izinkan: /wp-*.jpg Izinkan: /wp-*.jpeg Izinkan: /wp-*.gif Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-agent: * Disallow: /cgi-bin Disallow: / ? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ embed Larang: /xmlrpc.php Larang: *?utm Larang: *openstat= Larang: /tag/ Larang: /readme.html Larang: *?replytocom Izinkan: */uploads Izinkan: /*/*.js Izinkan: /* /*.css Izinkan: /wp-*.png Izinkan: /wp-*.jpg Izinkan: /wp-*.jpeg Izinkan: /wp-*.gif Peta Situs: http://site.com/sitemap.xml # ganti dengan alamat peta situs Anda

ROBOTS.TXT untuk OpenCart

Tidak ada alat bawaan untuk mengonfigurasi robots.txt di “panel admin” OpenCart, sehingga file hanya dapat diakses menggunakan FTP.

Contoh di bawah ini dapat digunakan sebagai starter robots.txt untuk situs OpenCart, tetapi tidak universal dan perlu disesuaikan tergantung pada situsnya.

Penjelasan:

arahan Izinkan berisi jalur ke file gaya, skrip, gambar: untuk pengindeksan situs yang benar, perlu tersedia untuk robot;
memecah menjadi aturan untuk agen yang berbeda adalah karena fakta bahwa Google tidak mendukung arahan Clean-param;

Agen-pengguna: * Larang: /*route=account/ Larang: /*route=affiliate/ Larang: /*route=checkout/ Larang: /*route=product/search Larang: /index.php?route=product/product *&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Larang: /*?filter_name= Larang: /*&filter_name= Larang: /*?filter_sub_category= Larang: /*&filter_sub_category= Larang: /*?filter_description= Larang: /*&filter_description= Larang: /*?tracking= Disallow: /*&tracking= Disallow: /*compare-products Disallow: /*search Disallow: /*cart Disallow: /*checkout Disallow: /*login Disallow: /*logout Disallow: /*vouchers Disallow: /*wishlist Disallow: /*akun saya Disallow: /*order-history Disallow: /*newsletter Disallow: /*return-add Disallow: /*forgot-password Disallow: /*downloads Disallow: /*returns Disallow: /*transactions Disallow: /* buat-akun Larang: /*berulang Larang: /*buku alamat Larang: /*reward-points Larang: /*affiliate-forgot-password Disallow: /*create-affiliate-account Larang: /*affiliate-login Larang: /*affiliates Larang: /*?filter_tag = Larang: /*brands Larang: /*specials Larang: /*simpleregister Larang: /*simplecheckout Larang: *utm= Larang: /*&page Larang: /*?page*& Izinkan: /*?page Izinkan: /catalog/ view/javascript/ Izinkan: /catalog/view/theme/*/ Agen-pengguna: Yandex Larang: /*route=account/ Larang: /*route=affiliate/ Larang: /*route=checkout/ Larang: /*route= product/search Larang: /index.php?route=product/product*&manufacturer_id= Larang: /admin Larang: /catalog Larang: /system Larang: /*?sort= Larang: /*&sort= Larang: /*?order= Larang: /*&order= Larang: /*?limit= Larang: /*&limit= Larang: /*?filter_name= Larang: /*&filter_name= Larang: /*?filter_sub_category= Larang: /*&filter_sub_category= Larang: /*? filter_description= Larang: /*&filter_description= Larang: /*compa re-products Disallow: /*search Disallow: /*cart Disallow: /*checkout Disallow: /*login Disallow: /*logout Disallow: /*vouchers Disallow: /*wishlist Disallow: /*my-account Disallow: /*order -history Disallow: /*newsletter Disallow: /*return-add Disallow: /*forgot-password Disallow: /*downloads Disallow: /*returns Disallow: /*transactions Disallow: /*create-account Disallow: /*recurring Disallow: /*address-book Disallow: /*reward-points Disallow: /*affiliate-forgot-password Disallow: /*create-affiliate-account Disallow: /*affiliate-login Disallow: /*affiliates Disallow: /*?filter_tag= Disallow : /*brands Larang: /*specials Larang: /*simpleregister Larang: /*simplecheckout Larang: /*&page Larang: /*?page*& Izinkan: /*?page Izinkan: /catalog/view/javascript/ Izinkan: / katalog/view/theme/*/ Clean-Param: halaman / Clean-Param: utm_source&utm_medium&utm_campaign / Peta Situs: http://site.com/sitemap.xml #ganti dengan alamat peta situs Anda

ROBOTS.TXT untuk Joomla!

Tidak ada alat bawaan untuk mengatur robots.txt di panel admin Joomla, sehingga file hanya dapat diakses menggunakan FTP.

Contoh di bawah ini dapat digunakan sebagai starter robots.txt untuk situs Joomla dengan SEF diaktifkan, tetapi tidak universal dan perlu disesuaikan tergantung pada situsnya.

Penjelasan:

arahan Izinkan berisi jalur ke file gaya, skrip, gambar: untuk pengindeksan situs yang benar, perlu tersedia untuk robot;
memecah menjadi aturan untuk agen yang berbeda adalah karena fakta bahwa Google tidak mendukung arahan Clean-param;

Agen-pengguna: Yandex Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Larang: /layouts/ Larang: /libraries/ Larang: /logs/ Larang: /log/ Larang: /tmp/ Larang: /xmlrpc/ Larang: /plugins/ Larang: /modules/ Larang: /component/ Larang: /search* Larang: /*mailto/ Izinkan: /*.css?*$ Izinkan: /*.less?*$ Izinkan: /*.js?*$ Izinkan: /*.jpg?*$ Izinkan: /*.png?* $ Allow: /*.gif?*$ Allow: /templates/*.css Allow: /templates/*.less Allow: /templates/*.js Allow: /components/*.css Allow: /components/*.less Izinkan: /media/*.js Izinkan: /media/*.css Izinkan: /media/*.less Izinkan: /index.php?*view=sitemap* #open sitemap Clean-param: searchword / Clean-param: limit&limitstart / Clean-param: kata kunci / User-agent: * Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: / instalasi ion/ Larang: /bahasa/ Larang: /layouts/ Larang: /libraries/ Larang: /logs/ Larang: /log/ Larang: /tmp/ Larang: /xmlrpc/ Larang: /plugins/ Larang: /modules/ Larang: / component/ Disallow: /search* Disallow: /*mailto/ Disallow: /*searchword Disallow: /*keyword Allow: /*.css?*$ Allow: /*.less?*$ Allow: /*.js?*$ Izinkan: /*.jpg?*$ Izinkan: /*.png?*$ Izinkan: /*.gif?*$ Izinkan: /templates/*.css Izinkan: /template/*.less Izinkan: /template/*. js Izinkan: /components/*.css Izinkan: /components/*.less Izinkan: /media/*.js Izinkan: /media/*.css Izinkan: /media/*.less Izinkan: /index.php?*view =sitemap* #buka peta situs Peta Situs: http://your_sitemap_address

Daftar agen utama

bot	Fungsi

Googlebot	Robot pengindeksan utama Google
Berita Googlebot	berita Google
Gambar Googlebot	Gambar Google
Video Googlebot	video
Mitra Media-Google
mitra media	Google Adsense, Google Mobile Adsense
AdsBot-Google	pemeriksaan kualitas halaman arahan
AdsBot-Google-Mobile-Apps	Robot Google untuk Aplikasi

YandexBot	Robot pengindeksan utama Yandex
YandexImages	Yandex.Gambar
YandexVideo	Yandex.Video
YandexMedia	data multimedia
YandexBlogs	robot pencari blog
Yandex Addurl	robot mengakses halaman ketika ditambahkan melalui formulir "Tambah URL"
YandexFavicons	robot yang mengindeks ikon situs (favicon)
YandexLangsung	Yandex.Langsung
YandexMetrika	Yandex.Metrica
Katalog Yandex	Yandex.Katalog
Berita Yandex	Yandex.Berita
YandexImageResizer	robot layanan seluler

bingbot	robot pengindeks utama Bing

Mencucup	robot pengindeks utama Yahoo!

Mail.Ru	robot pengindeks utama Mail.Ru

FAQ

File teks robots.txt bersifat publik, jadi perhatikan bahwa file ini tidak boleh digunakan sebagai sarana untuk menyembunyikan informasi rahasia.

Apakah ada perbedaan antara robots.txt untuk Yandex dan Google?

Tidak ada perbedaan mendasar dalam pemrosesan robots.txt oleh mesin pencari Yandex dan Google, tetapi sejumlah poin tetap harus disorot:

seperti yang disebutkan sebelumnya, aturan di robots.txt bersifat penasihat, yang secara aktif digunakan oleh Google.
Dalam dokumentasi robots.txt, Google menyatakan bahwa “..tidak dimaksudkan untuk mencegah halaman web muncul di hasil pencarian Google. “ dan “Jika file robots.txt mencegah Googlebot memproses halaman web, file tersebut masih dapat disajikan ke Google.” Untuk mengecualikan halaman dari pencarian Google, Anda perlu menggunakan tag meta robot.

Yandex juga mengecualikan halaman dari pencarian, dipandu oleh aturan robots.txt.
Yandex, tidak seperti Google, mendukung arahan Clean-param dan Crawl-delay.
Google AdsBots tidak mengikuti aturan untuk Agen-pengguna: *, mereka membutuhkan aturan terpisah.
Banyak sumber menunjukkan bahwa file skrip dan gaya (.js, .css) hanya boleh dibuka untuk pengindeksan oleh robot Google. Faktanya, ini tidak benar dan file-file ini juga harus dibuka untuk Yandex: pada 9 November 2015, Yandex mulai menggunakan js dan css saat mengindeks situs (postingan blog resmi).

Bagaimana cara memblokir situs agar tidak terindeks di robots.txt?

Untuk menutup situs di Robots.txt, salah satu aturan berikut harus digunakan:

Agen-pengguna: * Larang: / Agen-pengguna: * Larang: *

Dimungkinkan untuk menutup situs hanya untuk satu mesin pencari (atau beberapa), sambil meninggalkan sisa kemungkinan pengindeksan. Untuk melakukan ini, Anda perlu mengubah arahan User-agent dalam aturan: ganti * dengan nama agen yang aksesnya harus ditolak ().

Bagaimana cara membuka situs untuk pengindeksan di robots.txt?

Dalam kasus biasa, untuk membuka situs untuk pengindeksan di robots.txt, Anda tidak perlu melakukan tindakan apa pun, Anda hanya perlu memastikan bahwa semua direktori yang diperlukan terbuka di robots.txt. Misalnya, jika situs Anda sebelumnya disembunyikan dari pengindeksan, Anda harus menghapus aturan berikut dari robots.txt (tergantung pada yang digunakan):

larang: /
Larang: *

Harap dicatat bahwa pengindeksan dapat dinonaktifkan tidak hanya menggunakan file robots.txt, tetapi juga menggunakan tag meta robot.

Perlu juga dicatat bahwa tidak adanya file robots.txt di root situs berarti pengindeksan situs diperbolehkan.

Bagaimana cara menentukan mirror situs utama di robots.txt?

Saat ini, menentukan cermin utama menggunakan robots.txt tidak memungkinkan. Sebelumnya, Yandex PS menggunakan arahan Host, yang berisi indikasi cermin utama, tetapi sejak 20 Maret 2018, Yandex telah sepenuhnya meninggalkan penggunaannya. Sekarang menentukan cermin utama hanya mungkin dengan bantuan pengalihan 301 halaman.

Generator Penjualan

Waktu membaca: 18 menit

Kami akan mengirimkan materi kepada Anda:

Masalah yang dibahas dalam materi:

Apa peran file robots.txt dalam pengindeksan situs?
Cara menonaktifkan pengindeksan situs dan halaman individualnya menggunakan robots.txt
Direktif robots.txt apa yang digunakan untuk pengaturan pengindeksan situs?
Apa kesalahan paling umum yang dilakukan saat membuat file robots.txt?

Sumber daya web siap untuk bekerja: diisi dengan teks unik berkualitas tinggi, gambar asli, nyaman untuk menavigasi bagian, dan desainnya enak dipandang. Tetap hanya untuk menyajikan gagasan Anda kepada pengguna Internet. Tetapi mesin pencari harus menjadi yang pertama mengenal portal. Proses penanggalan disebut pengindeksan, dan salah satu peran utama di dalamnya dimainkan oleh robot file teks. Agar situs robots.txt berhasil diindeks, sejumlah persyaratan khusus harus dipenuhi.

Mesin sumber daya web (CMS) adalah salah satu faktor yang secara signifikan mempengaruhi kecepatan pengindeksan oleh spider pencarian. Mengapa penting untuk mengarahkan perayap hanya ke halaman penting yang seharusnya muncul di SERP?

Robot mesin pencari melihat melalui sejumlah file pada sumber daya tertentu, dan kemudian pergi ke situs berikutnya. Dengan tidak adanya batasan yang ditentukan, laba-laba pencarian dapat memulai dengan mengindeks file mesin, yang jumlahnya terkadang ribuan - robot tidak akan punya waktu untuk konten utama.
Atau itu akan mengindeks halaman yang sama sekali berbeda di mana Anda berencana untuk maju. Lebih buruk lagi, jika mesin pencari melihat duplikasi konten yang sangat mereka benci, ketika tautan yang berbeda mengarah ke teks atau gambar yang sama (atau hampir identik).

Oleh karena itu, melarang spider mesin pencari untuk melihat terlalu banyak adalah suatu keharusan. Inilah yang dimaksudkan untuk robots.txt - file teks biasa, yang namanya ditulis dalam huruf kecil tanpa menggunakan huruf kapital. Itu dibuat di editor teks apa pun (Notepad ++, SciTE, VEdit, dll.) Dan diedit di sini. File ini memungkinkan Anda untuk memengaruhi pengindeksan situs oleh Yandex dan Google.

Untuk seorang programmer yang belum memiliki pengalaman yang cukup, lebih baik membiasakan diri dengan contoh pengisian file yang benar. Anda harus memilih sumber daya web yang menarik baginya, dan di bilah alamat browser, ketik site.ru/robots.txt(di mana bagian pertama sebelum "/" adalah nama portal).

Penting untuk hanya melihat situs yang berjalan di mesin yang Anda minati, karena folder CMS yang dilarang untuk diindeks diberi nama yang berbeda dalam sistem manajemen yang berbeda. Oleh karena itu, mesin menjadi titik awal. Jika situs Anda diberdayakan oleh WordPress, Anda perlu mencari blog yang berjalan di mesin yang sama; untuk Joomla! akan memiliki robot idealnya sendiri, dll. Pada saat yang sama, disarankan untuk mengambil file dari portal yang menarik lalu lintas signifikan dari pencarian sebagai sampel.

Apa itu pengindeksan situs dengan robots.txt

Cari pengindeksan- indikator terpenting yang sangat bergantung pada keberhasilan promosi. Tampaknya situs itu dibuat secara ideal: permintaan pengguna diperhitungkan, konten ada di atas, navigasi nyaman, tetapi situs tidak dapat berteman dengan mesin pencari. Alasan harus dicari di sisi teknis, khususnya di alat yang dapat Anda gunakan untuk memengaruhi pengindeksan.

Ada dua di antaranya - Sitemap.xml dan robots.txt. File-file penting yang saling melengkapi dan sekaligus memecahkan masalah kutub. Peta situs mengundang laba-laba pencarian untuk "Selamat datang, harap indeks semua bagian ini" dengan memberikan bot URL setiap halaman yang akan diindeks dan waktu halaman. pembaruan terbaru. File robots.txt, di sisi lain, berfungsi sebagai tanda berhenti, mencegah laba-laba merayapi bagian mana pun dari situs.

File ini dan tag meta robot bernama serupa, yang memungkinkan pengaturan yang lebih baik, berisi instruksi yang jelas untuk perayap mesin telusur, yang menunjukkan larangan pengindeksan halaman tertentu atau seluruh bagian.

Batas yang ditetapkan dengan benar akan paling memengaruhi pengindeksan situs. Meskipun masih ada amatir yang percaya bahwa bot dapat mempelajari semua file secara mutlak. Namun dalam situasi ini, jumlah halaman yang dimasukkan ke dalam database mesin pencari tidak berarti pengindeksan berkualitas tinggi. Mengapa, misalnya, robot memerlukan bagian administratif dan teknis dari situs atau halaman cetak (mereka nyaman bagi pengguna, dan mesin pencari disajikan sebagai konten duplikat)? Ada banyak halaman dan file yang bot menghabiskan waktu, pada kenyataannya, untuk apa-apa.

Saat laba-laba mengunjungi situs Anda, ia segera mencari file robots.txt yang ditujukan untuknya. Karena tidak menemukan dokumen atau menemukannya dalam bentuk yang salah, bot mulai bertindak secara independen, mengindeks secara harfiah segala sesuatu dalam satu baris sesuai dengan algoritme yang hanya diketahui olehnya. Itu tidak harus dimulai dengan konten baru yang ingin Anda beri tahu pengguna terlebih dahulu. Paling-paling, pengindeksan hanya akan berlarut-larut, paling buruk, itu juga dapat mengakibatkan hukuman untuk duplikat.

Memiliki file teks robot yang tepat akan menghindari banyak masalah.

Ada tiga cara untuk mencegah pengindeksan bagian atau halaman sumber daya web, dari titik ke tingkat tinggi:

Tag noindex dan atributnya adalah elemen kode yang sama sekali berbeda yang melayani tujuan yang berbeda, tetapi sama-sama merupakan pembantu yang berharga untuk pengoptimal SEO. Pertanyaan tentang pemrosesan mereka oleh mesin pencari telah menjadi hampir filosofis, tetapi faktanya tetap: noindex memungkinkan Anda untuk menyembunyikan bagian teks dari robot (tidak dalam standar html, tetapi pasti berfungsi untuk Yandex), dan nofollow melarang mengikuti tautan dan melewati bobotnya ( termasuk dalam klasifikasi standar, berlaku untuk semua mesin pencari).
Tag meta robot pada halaman tertentu memengaruhi halaman tersebut. Di bawah ini kita akan melihat lebih dekat bagaimana menunjukkan di dalamnya larangan pengindeksan dan tautan berikut yang terletak di dokumen. Tag meta sepenuhnya valid, sistem memperhitungkan (atau mencoba memperhitungkan) data yang ditentukan. Selain itu, Google, memilih antara robot dalam bentuk file di direktori root situs dan tag meta halaman, memprioritaskan yang terakhir.
robots.txt - metode ini sepenuhnya valid, didukung oleh semua mesin pencari dan bot lain yang hidup di Web. Namun demikian, arahannya tidak selalu dianggap sebagai perintah untuk dieksekusi (disebutkan di atas tentang non-otoritas untuk Google). Aturan pengindeksan yang ditentukan dalam file berlaku untuk situs secara keseluruhan: halaman individual, direktori, bagian.

Menggunakan contoh, pertimbangkan larangan pengindeksan portal dan bagian-bagiannya.

Ada banyak alasan untuk menghentikan laba-laba mengindeks situs web. Ini masih dalam pengembangan, sedang dirancang ulang atau ditingkatkan, sumber dayanya adalah platform eksperimental, tidak ditujukan untuk pengguna.

Robots.txt dapat menutup situs dari pengindeksan untuk semua mesin pencari, untuk robot terpisah, atau melarang untuk semua kecuali satu.

2. Cara menonaktifkan pengindeksan situs robots.txt pada halaman individual

Jika sumber dayanya kecil, maka kecil kemungkinan Anda perlu menyembunyikan halaman (apa yang ada untuk disembunyikan di situs kartu nama), dan portal besar yang berisi sejumlah besar informasi layanan tidak dapat melakukannya tanpa larangan. Hal ini diperlukan untuk menutup dari robot:

panel administrasi;
direktori layanan;
mencari situs;
Wilayah Pribadi;
formulir pendaftaran;
formulir pemesanan;
perbandingan barang;
favorit;
keranjang;
captcha;
pop-up dan spanduk;
ID sesi.

Berita dan acara yang tidak relevan, acara kalender, promosi, penawaran khusus - inilah yang disebut halaman sampah yang paling tersembunyi. Juga lebih baik untuk menutup konten usang di situs informasi untuk mencegah peringkat negatif dari mesin pencari. Cobalah untuk menjaga pembaruan tetap teratur - maka Anda tidak perlu bermain petak umpet dengan mesin pencari.

Larangan robot untuk pengindeksan:

Di robots.txt, Anda dapat menentukan larangan lengkap atau selektif pada pengindeksan folder, file, skrip, tag utm, yang dapat berupa perintah untuk spider pencarian individu dan untuk robot dari semua sistem.

Larangan pengindeksan:

Tag meta robot berfungsi sebagai alternatif untuk file teks dengan nama yang sama. Diresepkan di Kode sumber sumber daya web (dalam file index.html), ditempatkan dalam wadah . Penting untuk mengklarifikasi siapa yang tidak dapat mengindeks situs. Jika larangan bersifat umum, robot; jika entri ditolak hanya untuk satu perayap, Anda harus menentukan namanya (Google - Googlebot, "Yandex" - Yandex).

Ada dua opsi untuk menulis tag meta.

Atribut "content" dapat memiliki nilai berikut:

none - larangan pengindeksan (termasuk noindex dan nofollow);
noindex - larangan pengindeksan konten;
nofollow - melarang tautan pengindeksan;
ikuti - izin untuk mengindeks tautan;
indeks - izinkan pengindeksan konten;
semua - izinkan konten dan tautan diindeks.

Untuk kasus yang berbeda, Anda perlu menggunakan kombinasi nilai. Misalnya, jika Anda menonaktifkan pengindeksan konten, Anda harus mengizinkan bot untuk mengindeks tautan: content="noindex, follow".

Dengan menutup website dari mesin pencari melalui meta tag, pemilik tidak perlu membuat robots.txt di root.

Harus diingat bahwa dalam masalah pengindeksan, banyak tergantung pada "kesopanan" laba-laba. Jika dia "berpendidikan", maka aturan yang ditentukan oleh master akan relevan. Namun secara umum, validitas arahan robot (baik file maupun meta tag) tidak berarti seratus persen mengikutinya. Bahkan untuk mesin pencari, tidak setiap larangan ketat, dan tidak perlu membicarakan berbagai macam pencuri konten. Mereka awalnya dikonfigurasi untuk menghindari semua larangan.

Selain itu, tidak semua crawler tertarik dengan konten. Untuk beberapa, hanya tautan yang penting, bagi yang lain - markup mikro, yang lain memeriksa salinan situs cermin, dan sebagainya. Pada saat yang sama, spider sistem tidak merayap di sekitar situs sama sekali, seperti virus, tetapi meminta halaman yang diperlukan dari jarak jauh. Oleh karena itu, paling sering mereka tidak menimbulkan masalah bagi pemilik sumber daya. Tetapi, jika kesalahan dibuat selama desain robot atau beberapa situasi non-standar eksternal terjadi, perayap dapat memuat portal yang diindeks secara signifikan.

Perintah yang digunakan:

1. "Agen-pengguna:"

Pedoman utama file robots.txt. Digunakan untuk spesifikasi. Nama bot dimasukkan, yang instruksi selanjutnya akan mengikuti. Sebagai contoh:

Agen pengguna: Googlebot- direktif dasar dalam formulir ini berarti bahwa semua perintah berikut hanya menyangkut robot pengindeksan Google;
Agen pengguna: Yandex- izin dan larangan yang ditentukan ditujukan untuk robot Yandex.

Rekaman Agen pengguna: * berarti merujuk ke semua mesin telusur lainnya (karakter khusus "*" berarti "teks apa pun"). Jika kita mempertimbangkan contoh di atas, maka tanda bintang akan menunjuk semua mesin pencari, kecuali untuk "Yandex". Karena Google sepenuhnya membuang daya tarik pribadi, puas dengan sebutan umum "teks apa pun".

Perintah paling umum untuk menonaktifkan pengindeksan. Mengacu pada robot di "User-agent:", maka programmer menunjukkan bahwa dia tidak mengizinkan bot untuk mengindeks bagian dari situs atau seluruh situs (dalam hal ini, jalur dari root ditunjukkan). Laba-laba pencarian memahami ini dengan memperluas perintah. Kami akan mencari tahu juga.

Agen pengguna: Yandex

Jika ada entri seperti itu di robots.txt, maka bot pencarian Yandex memahami bahwa ia tidak dapat mengindeks sumber daya web seperti itu: tidak ada klarifikasi setelah tanda larangan "/".

Agen pengguna: Yandex

Larang: /wp-admin

Dalam contoh ini, ada klarifikasi: larangan pengindeksan hanya berlaku untuk folder sistem wp-admin(situs ini didukung oleh WordPress). Robot Yandex melihat perintah dan tidak mengindeks folder yang ditentukan.

Agen pengguna: Yandex

Larang: /wp-content/themes

Arahan ini memberi tahu perayap bahwa ia dapat mengindeks semua konten " wp-konten", kecuali " tema", yang akan dilakukan robot.

Agen pengguna: Yandex

Larang: /index$

Simbol penting lainnya "$" muncul, yang memungkinkan fleksibilitas dalam larangan. Dalam hal ini, robot memahami bahwa tidak diperbolehkan untuk mengindeks halaman yang tautannya berisi urutan huruf " indeks". File terpisah dengan nama yang sama " index.php» Anda dapat mengindeks, dan robot memahami hal ini dengan jelas.

Anda dapat memasukkan larangan pengindeksan setiap halaman sumber daya, tautannya berisi karakter tertentu. Sebagai contoh:

Agen pengguna: Yandex

Robot Yandex membaca perintah dengan cara ini: jangan mengindeks semua halaman dengan URL yang berisi "&" di antara karakter lain.

Agen pengguna: Yandex

Dalam hal ini, robot memahami bahwa halaman tidak dapat diindeks hanya jika alamatnya diakhiri dengan "&".

Mengapa tidak mungkin untuk mengindeks file sistem, arsip, data pribadi pengguna, kami pikir itu jelas - ini bukan topik untuk diskusi. Sama sekali tidak perlu bot pencarian membuang waktu memeriksa data yang tidak dibutuhkan siapa pun. Tetapi mengenai larangan pengindeksan halaman, banyak orang mengajukan pertanyaan: apa alasan kemanfaatan arahan larangan? Pengembang berpengalaman dapat memberikan selusin alasan berbeda untuk pengindeksan tabu, tetapi yang utama adalah kebutuhan untuk menyingkirkan halaman duplikat dalam pencarian. Jika ada, secara dramatis mempengaruhi peringkat, relevansi dan aspek penting lainnya. Oleh karena itu, pengoptimalan SEO internal tidak terpikirkan tanpa robots.txt, di mana cukup mudah untuk menangani duplikat: Anda hanya perlu menggunakan arahan "Larang:" dan karakter khusus dengan benar.

3. "Izinkan:"

File robot ajaib memungkinkan Anda tidak hanya menyembunyikan hal-hal yang tidak perlu dari mesin pencari, tetapi juga membuka situs untuk pengindeksan. robots.txt yang berisi perintah " mengizinkan:”, memberi tahu spider mesin pencari elemen mana dari sumber daya web yang harus ditambahkan ke database. Klarifikasi yang sama seperti pada perintah sebelumnya datang untuk menyelamatkan, hanya sekarang mereka memperluas jangkauan izin untuk perayap.

Mari kita ambil salah satu contoh yang diberikan di paragraf sebelumnya dan lihat bagaimana situasinya berubah:

Agen pengguna: Yandex

Izinkan: /wp-admin

Jika "Larang:" berarti larangan, maka sekarang isi folder sistem wp-admin menjadi milik Yandex di dasar hukum dan mungkin muncul di hasil pencarian.

Namun dalam praktiknya, perintah ini jarang digunakan. Ada penjelasan yang sangat logis untuk ini: tidak adanya larangan, yang ditunjukkan oleh "Larang:", memungkinkan spider pencarian untuk mempertimbangkan seluruh situs sebagai diizinkan untuk pengindeksan. Arahan terpisah tidak diperlukan untuk ini. Jika ada larangan, konten yang tidak termasuk di dalamnya juga diindeks oleh robot secara default.

Dua perintah yang lebih penting untuk spider pencarian. " tuan rumah:"- arahan target untuk mesin pencari domestik. Yandex dipandu olehnya ketika menentukan cermin utama sumber daya web yang alamatnya (dengan atau tanpa www) akan berpartisipasi dalam pencarian.

Pertimbangkan contoh PR-CY.ru:

Agen pengguna: Yandex

Direktif digunakan untuk menghindari duplikasi konten sumber daya.

Memerintah " peta situs:» membantu robot bergerak dengan benar ke peta situs - file khusus yang mewakili struktur hierarki halaman, jenis konten, informasi tentang frekuensi pembaruan, dll. File berfungsi sebagai navigator untuk spider pencarian peta situs.xml(pada mesin wordpress) peta situs.xml.gz), yang harus mereka dapatkan secepat mungkin. Kemudian pengindeksan akan mempercepat tidak hanya peta situs, tetapi juga semua halaman lain yang tidak akan melambat untuk muncul di hasil pencarian.

Contoh hipotetis:

Perintah yang ditunjukkan dalam file teks robot dan diterima oleh Yandex:

Pengarahan	apa yang dia lakukan
	Nama spider pencarian yang aturannya tercantum dalam file yang ditulis.
	Menunjukkan larangan robot untuk mengindeks situs, bagiannya, atau halaman individualnya.
	Menentukan jalur ke peta situs yang dihosting di sumber daya web.
	Berisi informasi berikut untuk spider pencarian: URL halaman menyertakan parameter yang tidak dapat diindeks (seperti tag UTM).
	Memberikan izin untuk mengindeks bagian dan halaman sumber daya web.
	Memungkinkan Anda untuk menunda pemindaian. Menunjukkan waktu minimum (dalam detik) untuk perayap di antara pemuatan halaman: setelah memeriksa satu, laba-laba menunggu jumlah waktu yang ditentukan sebelum meminta halaman berikutnya dari daftar.

* Arahan yang diperlukan.

Perintah Disallow, Sitemap, dan Clean-param adalah yang paling sering diminta. Mari kita lihat sebuah contoh:

Agen-pengguna: * #menunjukkan robot-robot yang menjadi tujuan perintah berikut.
Larang: /bin/ # Mencegah pengindeks merayapi tautan dari Keranjang Belanja.
Larang: /search/ # larang pengindeksan halaman pencarian di situs.
Larang: /admin/ # larang pencarian di panel admin.
Peta Situs: http://example.com/sitemap # menunjukkan jalur ke peta situs untuk perayap.
Clean-param: ref /some_dir/get_book.pl

Ingatlah bahwa interpretasi arahan di atas relevan untuk Yandex - spider mesin pencari lain dapat membaca perintah secara berbeda.

Basis teoretis dibuat - sekarang saatnya untuk membuat robot file teks yang ideal (baik, atau sangat dekat dengannya). Jika situs berjalan pada mesin (Joomla!, WordPress, dll.), situs tersebut dilengkapi dengan banyak objek, yang tanpanya operasi normal tidak mungkin dilakukan. Tetapi tidak ada komponen informatif dalam file tersebut. Di sebagian besar CMS, penyimpanan konten adalah database, tetapi robot tidak dapat mengaksesnya. Dan mereka terus mencari konten di file mesin. Dengan demikian, waktu yang dialokasikan untuk pengindeksan terbuang sia-sia.

Sangat penting Berusaha untuk konten yang unik sumber daya web Anda , hati-hati memantau terjadinya duplikat. Bahkan pengulangan sebagian dari konten informasi situs tidak memiliki efek terbaik pada evaluasinya oleh mesin pencari. Jika konten yang sama dapat ditemukan di URL yang berbeda, ini juga dianggap duplikat.

Dua mesin pencari utama, Yandex dan Google, pasti akan mengungkapkan duplikasi selama perayapan dan secara artifisial menurunkan posisi sumber daya web dalam hasil pencarian.

Jangan lupa alat yang hebat untuk membantu Anda menangani duplikasi - tag meta kanonik. Dengan menulis URL yang berbeda di dalamnya, webmaster dengan demikian menunjukkan kepada laba-laba pencarian halaman yang disukai untuk pengindeksan, yang akan menjadi halaman kanonik.

Misalnya, halaman dengan pagination https://ktonanovenkogo.ru/page/2 berisi tag meta Canonical yang menunjuk ke https://ktonanovenkogo.ru , yang menghilangkan masalah dengan header duplikat.

Jadi, kami mengumpulkan semua pengetahuan teoretis yang diterima dan melanjutkan ke implementasi praktisnya di robots.txt untuk sumber daya web Anda, yang secara spesifik harus diperhitungkan. Apa yang diperlukan untuk file penting ini:

editor teks (Notepad atau lainnya) untuk menulis dan mengedit robot;
penguji yang akan membantu menemukan kesalahan dalam dokumen yang dibuat dan memeriksa kebenaran larangan pengindeksan (misalnya, Yandex.Webmaster);
Klien FTP yang menyederhanakan pengunggahan file yang sudah selesai dan diverifikasi ke akar sumber daya web (jika situs berjalan di WordPress, maka robot paling sering disimpan di folder sistem Public_html).

Hal pertama yang dilakukan perayap pencarian adalah meminta file yang dibuat khusus untuknya dan terletak di URL "/robots.txt".

Sumber daya web dapat berisi satu file "/ robots.txt". Tidak perlu meletakkannya di subdirektori khusus di mana laba-laba tidak akan mencari dokumen. Jika Anda ingin membuat robot di subdirektori, Anda harus ingat bahwa Anda masih perlu mengumpulkannya ke dalam satu file di folder root. Menggunakan tag meta "Robot" lebih tepat.

URL peka terhadap huruf besar/kecil - ingat bahwa "/robots.txt" tidak menggunakan huruf besar.

Sekarang Anda harus bersabar dan menunggu laba-laba pencarian, yang pertama-tama akan mempelajari robots.txt yang Anda buat dengan benar, dan mulai merayapi portal web Anda.

Pengaturan robots.txt yang benar untuk mengindeks situs di mesin yang berbeda

Jika Anda memiliki sumber daya komersial, maka pembuatan file robot harus dipercayakan kepada spesialis SEO yang berpengalaman. Ini sangat penting jika proyeknya kompleks. Bagi mereka yang tidak siap menerima apa yang telah dikatakan untuk aksioma, izinkan kami menjelaskan: file teks penting ini memiliki dampak serius pada pengindeksan sumber daya oleh mesin pencari, kecepatan pemrosesan situs oleh bot tergantung pada kebenarannya , dan konten robots memiliki kekhasan tersendiri. Pengembang perlu mempertimbangkan jenis situs (blog, toko online, dll.), mesin, fitur struktural, dan aspek penting lainnya yang mungkin tidak dapat dilakukan oleh master pemula.

Pada saat yang sama, Anda perlu membuat keputusan paling penting: apa yang harus disembunyikan dari perayapan, apa yang harus dibiarkan terlihat oleh perayap sehingga halaman muncul dalam pencarian. Akan sangat sulit bagi SEO yang tidak berpengalaman untuk mengatasi volume pekerjaan seperti itu.

Agen pengguna:* # aturan umum untuk robot, kecuali untuk "Yandex" dan Google,

Larang: /cgi-bin # folder hosting
melarang: /? # semua parameter kueri di main
Larang: /wp- # semua file WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/ # jika ada subdirektori /wp/ tempat CMS diinstal (jika tidak, # aturan dapat dihapus)
Larang: *?s= # pencarian
Larang: *&s= # pencarian
Larang: /search/ # search
Larang: /penulis/ # pengarsip
Larang: /pengguna/ # pengarsip
Larang: */trackback # trackback, pemberitahuan di komentar tentang # tautan terbuka ke sebuah artikel
Larang: */feed # semua feed
Larang: */rss # rssfeed
Larang: */sematkan # semua penyematan
Disallow: */wlwmanifest.xml # File xml manifest Windows Live Writer (bisa dihapus jika tidak digunakan)
Larang: /xmlrpc.php # file API WordPress
Larang: *utm*= # tautan dengan tag utm
Larang: *openstat= # tautan yang ditandaiopenstat
Izinkan: */upload # buka folder dengan file unggahan
Peta Situs: http://site.ru/sitemap.xml # alamat peta situs

Agen-pengguna: GoogleBot& # aturan untuk Google

Larang: /cgi-bin

Larang: /wp-
Larang: /wp/
Larang: *?s=
Larang: *&s=
Larang: /cari/
Larang: /penulis/
Larang: /pengguna/
Larang: */trackback
Larang: */feed
Larang: */rss
Larang: */sematkan
Larang: */wlwmanifest.xml
Larang: /xmlrpc.php
Larang: *utm*=
Larang: *openstat=
Allow: */uploadsAllow: /*/*.js # buka skrip js di dalam /wp- (/*/ - untuk prioritas)
Izinkan: /*/*.css # buka file css di dalam /wp- (/*/ - untuk prioritas)
Izinkan: /wp-*.png # gambar di plugin, folder cache, dll.
Izinkan: /wp-*.jpg # gambar di plugin, folder cache, dll.
Izinkan: /wp-*.jpeg # gambar di plugin, folder cache, dll.
Izinkan: /wp-*.gif # gambar di plugin, folder cache, dll.
Izinkan: /wp-admin/admin-ajax.php # digunakan oleh plugin untuk tidak memblokir JS dan CSS

Agen pengguna: Yandex # aturan untuk Yandex

Larang: /cgi-bin

Larang: /wp-
Larang: /wp/
Larang: *?s=
Larang: *&s=
Larang: /cari/
Larang: /penulis/
Larang: /pengguna/
Larang: */trackback
Larang: */feed
Larang: */rss
Larang: */sematkan
Larang: */wlwmanifest.xml
Larang: /xmlrpc.php
Izinkan: */upload
Izinkan: /*/*.js
Izinkan: /*/*.css
Izinkan: /wp-*.png
Izinkan: /wp-*.jpg
Izinkan: /wp-*.jpeg
Izinkan: /wp-*.gif
Izinkan: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Yandex merekomendasikan untuk tidak menutup # dari pengindeksan, tetapi menghapus parameter tag, # Google tidak mendukung aturan seperti itu
Clean-Param: openstat # serupa

Agen pengguna: *
Larang: /administrator/
Larang: /cache/
Larang: /termasuk/
Larang: /instalasi/
Larang: /bahasa/
Larang: /libraries/
Larang: /media/
Larang: /modul/
Larang: /plugins/
Larang: /template/
Larang: /tmp/
Larang: /xmlrpc/
Peta Situs: http://path peta situs XML Anda

Agen pengguna: *
Larang: /*index.php$
Larang: /bitrix/
Larang: /auth/
Larang: /pribadi/
Larang: /upload/
Larang: /cari/
Larang: /*/cari/
Larang: /*/slide_show/
Larang: /*/galeri/*pesanan=*
Larang: /*?print=
Larang: /*&print=
Larang: /*daftar=
Larang: /*forgot_password=
Larang: /*change_password=
Larang: /*login=
Larang: /*logout=
Larang: /*auth=
Larang: /*?action=
Larang: /*action=ADD_TO_COMPARE_LIST
Larang: /*action=DELETE_FROM_COMPARE_LIST
Larang: /*action=ADD2BASKET
Larang: /*action=BUY
Larang: /*bitrix_*=
Larang: /*backurl=*
Larang: /*BACKURL=*
Larang: /*back_url=*
Larang: /*BACK_URL=*
Larang: /*back_url_admin=*
Larang: /*print_course=Y
Larang: /*COURSE_ID=
Larang: /*?COURSE_ID=
Larang: /*?PAGEN
Larang: /*PAGEN_1=
Larang: /*PAGEN_2=
Larang: /*PAGEN_3=
Larang: /*PAGEN_4=
Larang: /*PAGEN_5=
Larang: /*PAGEN_6=
Larang: /*PAGEN_7=

Larang: /*PAGE_NAME=cari
Larang: /*PAGE_NAME=user_post
Larang: /*PAGE_NAME=detail_slide_show
Larang: /*SHOWALL
Larang: /*show_all=
Peta Situs: http://path peta situs XML Anda

Agen pengguna: *
Larang: /assets/cache/
Larang: /assets/docs/
Larang: /aset/ekspor/
Larang: /assets/import/
Larang: /assets/modules/
Larang: /assets/plugins/
Larang: /assets/snippets/
Larang: /instal/
Larang: /manajer/
Peta Situs: http://site.ru/sitemap.xml

5. Robots.txt, contoh untuk Drupal

Agen pengguna: *
Larang: /database/
Larang: /termasuk/
Larang: /misc/
Larang: /modul/
Larang: /situs/
Larang: /tema/
Larang: /scripts/
Larang: /updates/
Larang: /profil/
Larang: /profil
Larang: /profil/*
Larang: /xmlrpc.php
Larang: /cron.php
Larang: /update.php
Larang: /install.php
Larang: /index.php
Larang: /admin/
Larang: /komentar/balas/
Larang: /kontak/
Larang: /logout/
Larang: /cari/
Larang: /pengguna/daftar/
Larang: /pengguna/kata sandi/
Larang: *daftar*
Larang: *login*
Larang: /peringkat teratas-
Larang: /messages/
Larang: /buku/ekspor/
Larang: /user2userpoints/
Larang: /myuserpoints/
Larang: /tagadelic/
Larang: /rujukan/
Larang: /agregator/
Larang: /file/pin/
Larang: /suara Anda
Larang: /komentar/terbaru
Larang: /*/edit/
Larang: /*/hapus/
Larang: /*/ekspor/html/
Larang: /taxonomy/term/*/0$
Larang: /*/edit$
Larang: /*/garis besar$
Larang: /*/revisi$
Larang: /*/kontak$
Larang: /*downloadpipe
Larang: /node$
Larang: /node/*/track$

Larang: /*?page=0
Larang: /*bagian
Larang: /* pesan
Larang: /*?sort*
Larang: /*&sort*
Larang: /*votesupdown
Larang: /*kalender
Larang: /*index.php
Izinkan: /*?page=

Peta Situs: http://path ke peta situs XML Anda

PERHATIAN! Sistem manajemen konten situs terus diperbarui, sehingga file robots juga dapat berubah: halaman atau grup file tambahan mungkin ditutup, atau, sebaliknya, dibuka untuk pengindeksan. Itu tergantung pada tujuan sumber daya web dan mesin saat ini berubah.

7 kesalahan umum saat mengindeks situs menggunakan robots.txt

Kesalahan yang dibuat selama pembuatan file menyebabkan robots.txt tidak berfungsi dengan benar atau bahkan menyebabkan file tidak dapat berfungsi.

Kesalahan apa yang mungkin terjadi:

Logis (aturan yang ditandai bertabrakan). Anda dapat mengidentifikasi jenis kesalahan ini selama pengujian di Yandex.Webmaster dan GoogleRobotsTestingTool.
Sintaksis (direktif ditulis dengan kesalahan).

Lebih umum daripada yang lain adalah:

catatan tidak peka huruf besar/kecil;
huruf kapital yang digunakan;
semua aturan terdaftar dalam satu baris;
aturan tidak dipisahkan oleh garis kosong;
menentukan perayap dalam arahan;
setiap file dari folder yang perlu ditutup terdaftar secara terpisah;
arahan Disallow wajib tidak ada.

Pertimbangkan kesalahan umum, konsekuensinya dan, yang paling penting, langkah-langkah untuk mencegahnya di sumber daya web Anda.

Lokasi file. URL file harus dalam bentuk berikut: http://site.ru/robots.txt (bukan site.ru, alamat situs Anda terdaftar). File robots.txt secara eksklusif berbasis di folder root sumber daya - jika tidak, spider pencarian tidak akan melihatnya. Tanpa dilarang, mereka akan merayapi seluruh situs dan bahkan file dan folder yang ingin Anda sembunyikan dari hasil pencarian.
Hal - hal sensitif. Tidak ada huruf kapital. http://site.ru/Robots.txt salah. Dalam hal ini, robot mesin pencari akan menerima 404 (halaman kesalahan) atau 301 (pengalihan) sebagai respons server. Perayapan akan berlangsung tanpa memperhitungkan arahan yang ditunjukkan dalam robot. Jika semuanya dilakukan dengan benar, respons server adalah kode 200, di mana pemilik sumber daya akan dapat mengontrol perayap pencarian. Satu-satunya pilihan yang benar adalah "robots.txt".
Membuka di halaman browser. Laba-laba pencarian hanya akan dapat membaca dan menggunakan arahan file robots.txt dengan benar jika dibuka di halaman browser. Penting untuk memperhatikan sisi server mesin. Terkadang file jenis ini ditawarkan untuk diunduh. Maka Anda harus mengatur tampilan - jika tidak, robot akan merayapi situs sesuka mereka.
Larangan dan kesalahan izin."Disallow" - arahan untuk melarang pemindaian situs atau bagiannya. Misalnya, Anda perlu mencegah robot mengindeks halaman dengan hasil pencarian di situs. Dalam hal ini, file robots.txt harus berisi baris: "Disallow: /search/". Perayap memahami bahwa semua laman tempat terjadinya "pencarian" dilarang untuk dirayapi. Dengan larangan total pada pengindeksan, Disallow: / ditulis. Tetapi arahan yang memungkinkan "Izinkan" tidak diperlukan dalam kasus ini. Meskipun tidak jarang perintah ditulis seperti ini: "Izinkan:", dengan asumsi bahwa robot akan menganggap ini sebagai izin untuk mengindeks "tidak ada". Anda dapat mengizinkan seluruh situs untuk diindeks melalui arahan "Izinkan: /". Tidak perlu membingungkan perintah. Hal ini menyebabkan kesalahan perayapan oleh laba-laba, yang pada akhirnya menambahkan halaman yang sama sekali bukan halaman yang harus dipromosikan.
pertandingan direktif. Disallow: dan Allow: untuk halaman yang sama ditemukan di robots, yang menyebabkan crawler memprioritaskan perintah izinkan. Misalnya, awalnya partisi dibuka untuk dirayapi oleh laba-laba. Kemudian, untuk beberapa alasan, diputuskan untuk menyembunyikannya dari index. Secara alami, larangan ditambahkan ke file robots.txt, tetapi webmaster lupa untuk menghapus izin. Untuk mesin pencari, larangan tidak begitu penting: mereka lebih suka mengindeks halaman melewati perintah yang mengecualikan satu sama lain.
Arahan tuan rumah:. Diakui hanya oleh laba-laba Yandex dan digunakan untuk menentukan cermin utama. Perintah yang berguna, tetapi, sayangnya, tampaknya salah atau tidak diketahui oleh semua mesin pencari lainnya. Saat melibatkannya di robot Anda, optimal untuk menentukan sebagai Agen-pengguna: semua orang dan robot Yandex, di mana Anda dapat mendaftarkan perintah Host secara pribadi:
Agen Pengguna: Yandex
Tuan rumah: site.ru

Arahan yang ditentukan untuk semua perayap akan dianggap salah oleh mereka.
Arahan peta situs:. Dengan bantuan peta situs, bot mencari tahu halaman apa yang ada di sumber daya web. Kesalahan yang sangat umum adalah pengembang tidak memperhatikan lokasi file sitemap.xml, meskipun menentukan daftar URL yang disertakan dalam peta. Dengan menempatkan file di luar folder root, pengembang sendiri membahayakan situs: perayap salah menentukan jumlah halaman, akibatnya, bagian penting dari sumber daya web tidak termasuk dalam hasil pencarian.

Misalnya, dengan menempatkan file Peta Situs dalam direktori di URL http://primer.ru/catalog/sitemap.xml , Anda dapat menyertakan URL apa pun yang dimulai dengan http://primer.ru/catalog/ ... Dan URL seperti, katakanlah, http://primer.ru/images/ ... tidak boleh dimasukkan dalam daftar.

Meringkaskan. Jika pemilik situs ingin memengaruhi proses pengindeksan sumber daya web oleh bot pencarian, file robots.txt sangat penting. Penting untuk hati-hati memeriksa dokumen yang dibuat untuk kesalahan logis dan sintaksis, sehingga pada akhirnya arahan berfungsi untuk keberhasilan situs Anda secara keseluruhan, memastikan pengindeksan berkualitas tinggi dan cepat.

Bagaimana menghindari kesalahan dengan membuat struktur robots.txt yang benar untuk pengindeksan situs

Struktur robots.txt jelas dan sederhana, sangat mungkin untuk menulis file sendiri. Anda hanya perlu hati-hati memantau sintaks yang sangat penting untuk robot. Bot pencarian mengikuti arahan dokumen secara sukarela, tetapi mesin pencari menafsirkan sintaks secara berbeda.

Daftar aturan wajib berikut akan membantu menghilangkan kesalahan paling umum saat membuat robots.txt. Untuk menulis dokumen yang benar, Anda harus ingat bahwa:

setiap arahan dimulai pada baris baru;
dalam satu baris - tidak lebih dari satu perintah;
spasi tidak dapat ditempatkan di awal baris;
parameter perintah harus dalam satu baris;
parameter direktif tidak perlu dikutip;
parameter perintah tidak memerlukan titik koma di akhir;
direktif di robots.txt ditentukan dalam format: [nama_perintah]:[spasi opsional][nilai][spasi opsional];
setelah tanda pagar # komentar diperbolehkan di robots.txt;
string kosong dapat diartikan sebagai akhir dari perintah User-agent;
arahan pelarangan dengan nilai kosong - "Disallow:" mirip dengan arahan "Allow: /" yang memungkinkan pemindaian seluruh situs;
Direktif "Allow", "Disallow" tidak boleh berisi lebih dari satu parameter. Setiap parameter baru ditulis pada baris baru;
hanya huruf kecil yang digunakan dalam nama file robots.txt. Robots.txt atau ROBOTS.TXT - ejaan yang salah;
Standar robots.txt tidak mengatur sensitivitas huruf besar/kecil, tetapi file dan folder sering kali sensitif dalam hal ini. Oleh karena itu, meskipun diperbolehkan menggunakan huruf kapital atas nama perintah dan parameter, ini dianggap bentuk yang buruk. Lebih baik tidak terbawa oleh huruf besar;
ketika parameter perintah adalah folder, garis miring "/" diperlukan sebelum nama, misalnya: Disallow: /category;
jika berat file robots.txt lebih dari 32 KB, bot pencarian menganggapnya setara dengan "Disallow:" dan menganggapnya sepenuhnya mengizinkan pengindeksan;
tidak dapat diaksesnya robots.txt (karena berbagai alasan) dapat dianggap oleh perayap sebagai tidak adanya larangan perayapan;
robots.txt kosong dianggap memungkinkan pengindeksan situs secara keseluruhan;
jika beberapa perintah "User-agent" terdaftar tanpa baris kosong di antaranya, search spider mungkin memperlakukan direktif pertama sebagai satu-satunya, mengabaikan semua direktif "User-agent" berikutnya;
robots.txt tidak mengizinkan penggunaan simbol alfabet nasional apa pun.

Aturan di atas tidak relevan untuk semua mesin pencari, karena mereka menafsirkan sintaks robots.txt secara berbeda. Misalnya, "Yandex" memilih entri dengan kehadiran di baris "Agen pengguna", jadi tidak masalah jika ada baris kosong di antara arahan "Agen pengguna" yang berbeda.

Secara umum, robot seharusnya hanya berisi apa yang benar-benar dibutuhkan untuk pengindeksan yang tepat. Tidak perlu mencoba merangkul besarnya dan memasukkan data maksimum ke dalam dokumen. Robots.txt terbaik adalah file yang bermakna, jumlah baris tidak masalah.

Robot dokumen teks perlu diperiksa untuk struktur yang benar dan sintaks yang benar, yang akan membantu layanan yang disajikan di Web. Untuk melakukan ini, Anda perlu mengunggah robots.txt ke folder akar situs Anda, jika tidak, layanan mungkin melaporkan bahwa ia tidak dapat memuat dokumen yang diperlukan. Sebelum robots.txt disarankan untuk memeriksa ketersediaan di alamat file (your_site.ru/robots.txt).

Mesin pencari terbesar Yandex dan Google menawarkan layanan analisis situs web mereka kepada webmaster. Salah satu aspek pekerjaan analitik adalah pemeriksaan robot:

Anda dapat memeriksa file di Yandex.Webmaster di http://webmaster.yandex.ru/robots.xml .
Di Google, alat verifikasi berada di https://www.google.com/webmasters/tools/siteoverview?hl=ru.

Ada banyak validator robots.txt online di Internet, Anda dapat memilih salah satu yang Anda suka.

Array ( => 24 [~ID] => 24 => 10.10.2019 18:52:28 [~TIMESTAMP_X] => 10.10.2019 18:52:28 => 1 [~MODIFIED_BY] => 1 => 10.10. 2019 18:51:03 [~DATE_CREATE] => 10/10/2019 18:51:03 => 1 [~CREATED_BY] => 1 => 6 [~IBLOCK_ID] => 6 => [~IBLOCK_SECTION_ID] => => Y [~ACTIVE] => Y => Y [~GLOBAL_ACTIVE] => Y => 500 [~SORT] => 500 => Artikel oleh Pavel Bobylev [~NAME] => Artikel oleh Pavel Bobylev => 11744 [ ~GAMBAR] = > 11744 => 13 [~LEFT_MARGIN] => 13 => 14 [~RIGHT_MARGIN] => 14 => 1 [~DEPTH_LEVEL] => 1 => Pavel Bobylev [~DESKRIPSI] => Pavel Bobylev => teks [~DESCRIPTION_TYPE ] => teks => Artikel oleh Pavel Bobylev Pavel Bobylev [~SEARCHABLE_CONTENT] => Artikel oleh Pavel Bobylev Pavel Bobylev => stati-pavla-bobyleva [~CODE] => stati-pavla-bobyleva => [~ XML_ID] => => [~TMP_ID] => => [~DETAIL_PICTURE] => => [~SOCNET_GROUP_ID] => => /blog/index.php?ID=6 [~LIST_PAGE_URL] => /blog/index .php?ID=6 => /blog/list.php?SECTION_ID=24 [~SECTION_PAGE_URL] => /b log/list.php?SECTION_ID=24 => blog [~IBLOCK_TYPE_ID] => blog => blog [~IBLOCK_CODE] => blog => [~IBLOCK_EXTERNAL_ID] => => [~EXTERNAL_ID] =>)