Contoh robot txt untuk Yandex. Rekomendasi untuk mengonfigurasi file txt robot. Arahan "Host:" dan "Sitemap:"

Navigasi cepat di halaman ini:

Realitas modern adalah bahwa di Runet, tidak ada situs yang menghargai diri sendiri yang dapat melakukannya tanpa file bernama robots.txt - bahkan jika Anda tidak melarang pengindeksan (walaupun hampir setiap situs memiliki halaman teknis dan konten duplikat yang memerlukan penutupan dari pengindeksan), maka minimal, sangat penting untuk mendaftarkan arahan dengan www dan tanpa www untuk Yandex - untuk inilah aturan penulisan robots.txt, yang akan dibahas di bawah, berfungsi.

Apa itu robots.txt?

File dengan nama ini mengambil sejarahnya dari tahun 1994, ketika konsorsium W3C memutuskan untuk memperkenalkan standar sedemikian rupa sehingga situs dapat menyediakan mesin pencari dengan instruksi pengindeksan.

File dengan nama ini harus disimpan di direktori root situs, penempatannya di folder lain tidak diperbolehkan.

File melakukan fungsi-fungsi berikut:

  1. melarang halaman atau grup halaman apa pun untuk diindeks
  2. memungkinkan setiap halaman atau kelompok halaman untuk diindeks
  3. memberi tahu robot Yandex cermin situs mana yang utama (dengan www atau tanpa www)
  4. menunjukkan lokasi file peta situs

Keempat poin tersebut sangat penting untuk pengoptimalan mesin telusur situs. Larangan pengindeksan memungkinkan Anda memblokir halaman dari pengindeksan yang berisi konten duplikat - misalnya, halaman tag, arsip, hasil pencarian, halaman dengan versi cetak, dan sebagainya. Kehadiran konten duplikat (ketika teks yang sama, meskipun dalam jumlah beberapa kalimat, ada di dua halaman atau lebih) merupakan kerugian bagi situs di peringkat mesin pencari, jadi duplikat harus sesedikit mungkin.

Arahan allow tidak memiliki arti independen, karena secara default semua halaman sudah tersedia untuk pengindeksan. Ini berfungsi bersama dengan larangan - ketika, misalnya, beberapa bagian ditutup sepenuhnya dari mesin telusur, tetapi Anda ingin membuka satu atau satu halaman di dalamnya.

Menunjuk ke mirror utama situs juga merupakan salah satu elemen terpenting dalam pengoptimalan: mesin telusur menganggap situs www.yoursite.ru dan yoursite.ru sebagai dua sumber daya yang berbeda, kecuali jika Anda langsung memberi tahu sebaliknya. Hasilnya adalah penggandaan konten - munculnya duplikat, penurunan kekuatan tautan eksternal (tautan eksternal dapat ditempatkan baik dengan www maupun tanpa www) dan akibatnya dapat menurunkan peringkat dalam hasil pencarian.

Untuk Google, mirror utama ditulis di alat Webmaster (http://www.google.ru/webmasters/), tetapi untuk Yandex, instruksi ini hanya dapat ditulis di robots.txt yang sama.

Menunjuk ke file xml dengan peta situs (misalnya, peta situs.xml) memungkinkan mesin telusur menemukan file ini.

Aturan agen pengguna

User-agent dalam hal ini adalah mesin pencari. Saat menulis instruksi, Anda harus menentukan apakah instruksi tersebut akan bekerja di semua mesin telusur (kemudian diberi tanda bintang - *) atau apakah instruksi tersebut dirancang untuk beberapa mesin telusur tertentu - misalnya, Yandex atau Google.

Untuk menyetel User-agent dengan referensi ke semua robot, tulis baris berikut di file Anda:

Agen pengguna: *

Untuk Yandex:

Agen pengguna: Yandex

Untuk Google:

Agen pengguna: GoogleBot

Aturan untuk menentukan larang dan izinkan

Pertama, perlu diperhatikan bahwa file robots.txt harus berisi setidaknya satu perintah disallow agar valid. Sekarang mempertimbangkan penerapan arahan ini pada contoh spesifik.

Dengan kode ini, Anda mengizinkan pengindeksan semua halaman situs:

Agen-pengguna: * Larang:

Dan dengan kode ini, sebaliknya, semua halaman akan ditutup:

Agen-pengguna: * Larang: /

Untuk melarang pengindeksan direktori tertentu yang disebut folder, tentukan:

Agen-pengguna: * Disallow: /folder

Anda juga dapat menggunakan tanda bintang untuk mengganti nama yang berubah-ubah:

Agen-pengguna: * Larang: *.php

Penting: tanda bintang menggantikan seluruh nama file, yaitu, Anda tidak dapat menentukan file*.php, hanya *.php yang diizinkan (tetapi semua halaman dengan ekstensi .php akan dilarang, untuk menghindarinya - Anda dapat menentukan halaman tertentu alamat).

Arahan allow, seperti yang disebutkan di atas, digunakan untuk membuat pengecualian dalam disallow (jika tidak, tidak masuk akal, karena halaman sudah terbuka secara default).

Misalnya, kami akan melarang pengindeksan halaman di folder arsip, tetapi biarkan halaman index.html dari direktori ini terbuka:

Izinkan: /archive/index.html Larang: /archive/

Tentukan host dan peta situs

Host adalah mirror utama situs (yaitu, nama domain plus www atau nama domain tanpa awalan ini). Tuan rumah ditentukan hanya untuk robot Yandex (setidaknya harus ada satu perintah larangan).

Untuk menentukan host robots.txt harus berisi entri berikut:

Agen pengguna: Yandex Disallow: Host: www.yoursite.ru

Sedangkan untuk peta situs, di robots.txt, peta situs ditunjukkan hanya dengan menulis jalur lengkap ke file terkait, yang menunjukkan nama domain:

Peta Situs: http://yoursite.ru/sitemap.xml

Cara membuat peta situs untuk WordPress ditulis.

Contoh robots.txt WordPress

Untuk wordpress, instruksi harus ditentukan sedemikian rupa untuk menutup semua direktori teknis (wp-admin, wp-include, dll.) untuk pengindeksan, serta duplikat halaman yang dibuat oleh tag, file rss, komentar, pencarian.

Sebagai contoh robots.txt untuk wordpress, Anda dapat mengambil file dari situs kami:

Agen pengguna: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Larang: */feed Larang: */komentar/ Larang: /?feed= Larang: /?s= Larang: */halaman/* Larang: */komentar Larang: */tag/* Larang: */ attachment/* Allow: /wp-content/uploads/ Host: www..php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: * /feed Larang: */komentar/ Larang: /?feed= Larang: /?s= Larang: */halaman/* Larang: */komentar Larang: */tag/* Larang: */lampiran/* Izinkan: /wp -content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/ *Dis llow: */lampiran/* Izinkan: /wp-content/uploads/ Peta Situs: https://www..xml

Anda dapat mengunduh file robots.txt dari situs web kami di .

Jika setelah membaca artikel ini Anda masih memiliki pertanyaan - tanyakan di komentar!

1) Apa itu robot pencari?
2) Apa itu robots.txt?
3) Bagaimana cara membuat robots.txt?
4) Apa dan mengapa dapat ditulis ke file ini?
5) Contoh nama robot
6) Contoh robots.txt yang sudah jadi
7) Bagaimana saya bisa memeriksa apakah file saya berfungsi?

1. Apa itu robot pencari?

Robot (Perayap bahasa Inggris) menyimpan daftar URL yang dapat diindeks dan secara teratur mengunduh dokumen yang cocok dengannya. Jika robot menemukan tautan baru saat menguraikan dokumen, robot akan menambahkannya ke daftarnya. Dengan demikian, setiap dokumen atau situs yang memiliki tautan dapat ditemukan oleh robot, dan oleh karena itu pencarian Yandex.

2. Apa itu robots.txt?

Robot pencari mencari situs pertama-tama file robots.txt. Jika Anda memiliki direktori, konten, dll. di situs Anda yang, misalnya, ingin Anda sembunyikan dari pengindeksan (mesin pencari tidak memberikan informasi tentangnya. Misalnya: panel admin, panel halaman lain), maka Anda harus hati-hati pelajari instruksi untuk bekerja dengan file ini.

robots.txt- ini file teks(.txt), yang terletak di root (direktori root) situs Anda. Ini berisi instruksi untuk robot pencarian. Petunjuk ini mungkin melarang pengindeksan bagian atau halaman tertentu di situs, menunjuk ke "pencerminan" domain yang benar, merekomendasikan robot pencari untuk mengamati interval waktu tertentu antara mengunduh dokumen dari server, dll.

3. Bagaimana cara membuat robots.txt?

Membuat robots.txt sangat mudah. Kami masuk ke editor teks biasa (atau klik kanan - buat - dokumen teks), misalnya, Notepad (Notepad). Selanjutnya, buat file teks dan ganti namanya menjadi robots.txt .

4. Apa dan mengapa file robots.txt dapat ditulis?

Sebelum Anda menentukan perintah ke mesin pencari, Anda perlu memutuskan Bot mana yang akan dituju. Untuk ini ada perintah Agen pengguna
Di bawah ini adalah contohnya:

User-agent: * # perintah yang ditulis setelah baris ini akan ditujukan ke semua robot pencarian
Agen pengguna: YandexBot # panggilan ke robot pengindeks Yandex utama
Agen-pengguna: Googlebot # panggilan ke robot pengindeksan Google utama

Mengizinkan dan menonaktifkan pengindeksan
Ada dua perintah yang sesuai untuk mengaktifkan dan menonaktifkan pengindeksan - mengizinkan(mungkin) dan Melarang(itu dilarang).

Agen pengguna: *
Larang: /adminka/ # melarang semua robot mengindeks direktori adminka, yang seharusnya berisi panel admin

Agen pengguna: YandexBot # perintah di bawah ini akan diarahkan ke Yandex
Larang: / # melarang pengindeksan seluruh situs oleh robot Yandex

Agen pengguna: Googlebot # perintah di bawah ini akan memanggil Google
Izinkan: /images # izinkan pengindeksan semua konten direktori gambar
Larang: / # dan larang yang lainnya

Urutan tidak masalah

Agen pengguna: *
Izinkan: /gambar
larang: /

Agen pengguna: *
larang: /
Izinkan: /gambar
# baik di sana maupun di sana diizinkan untuk mengindeks file
# dimulai dengan "/gambar"

Petunjuk Peta Situs
Perintah ini menentukan alamat peta situs Anda:

Peta Situs: http://yoursite.ru/structure/my_sitemaps.xml # Menentukan alamat peta situs

Petunjuk Tuan Rumah
Perintah ini disisipkan di AKHIR file Anda dan menandai mirror utama
1) ditulis PADA AKHIR file Anda
2) diindikasikan hanya sekali. jika tidak, hanya baris pertama yang diterima
3) ditentukan setelah Izinkan atau Larang

Tuan rumah: www.yoursite.ru # cermin situs Anda

#Jika www.yoursite.ru adalah mirror situs utama, maka
#robots.txt untuk semua situs mirror terlihat seperti ini
Agen pengguna: *
Larang: /gambar
Larang: / sertakan
Tuan rumah: www.yoursite.ru

# Google mengabaikan Host secara default, Anda perlu melakukan ini
User-Agent: * # mengindeks semuanya
Larang: /admin/ # nonaktifkan indeks admin
Tuan rumah: www.mainsite.ru # tentukan cermin utama
User-Agent: Googlebot # perintah untuk Google sekarang
Larang: /admin/ # larang untuk Google

5. Contoh nama robot

Robot Yandex
Yandex memiliki beberapa jenis robot yang menyelesaikan berbagai tugas: satu bertanggung jawab untuk mengindeks gambar, yang lain untuk mengindeks data rss untuk mengumpulkan data blog, dan lainnya untuk data multimedia. Utama - YandexBot, itu mengindeks situs untuk menyusun database umum untuk situs tersebut (tajuk, tautan, teks, dll.). Ada juga robot untuk pengindeksan cepat (pengindeksan berita, dll.).

YandexBot-- robot pengindeks utama;
YandexMedia-- robot yang mengindeks data multimedia;
Gambar Yandex-- Pengindeks Yandex.Pictures;
Katalog Yandex-- "mengetuk" Yandex.Catalog, digunakan untuk penghapusan sementara dari publikasi situs yang tidak dapat diakses di Katalog;
YandexDirect-- Robot Yandex.Direct, menafsirkan robots.txt dengan cara khusus;
YandexBlogs-- robot pencari blog yang mengindeks kiriman dan komentar;
Berita Yandex-- Robot Yandex.Berita;
Pemeriksa YandexPage-- validator mikrodata;
YandexMetrika-- Robot Yandex.Metrica;
Pasar Yandex-- Robot Yandex.Market;
YandexCalendar-- Robot Yandex.Kalender.

6. Contoh robots.txt yang sudah jadi

Sebenarnya sampai pada contoh file yang sudah jadi. Saya harap setelah contoh di atas semuanya akan menjadi jelas bagi Anda.

Agen pengguna: *
Larang: /admin/
Larang: /cache/
Larang: /komponen/

Agen pengguna: Yandex
Larang: /admin/
Larang: /cache/
Larang: /komponen/
Larang: /gambar/
Larang: /termasuk/

Peta situs: http://yoursite.ru/structure/my_sitemaps.xml

Ini adalah file teks (dokumen dalam format .txt) yang berisi instruksi yang jelas untuk mengindeks situs tertentu. Dengan kata lain, file ini memberi tahu mesin telusur halaman mana dari sumber daya web yang perlu diindeks, dan mana yang tidak boleh diindeks.

Tampaknya, mengapa melarang pengindeksan beberapa konten situs? Katakanlah, biarkan robot pencari mengindeks semuanya tanpa pandang bulu, dipandu oleh prinsip: semakin banyak halaman, semakin baik! Hanya seorang amatir dari CEO yang bisa berdebat seperti itu.

Tidak semua konten yang terdiri dari situs dibutuhkan oleh robot pencari. Ada file sistem, ada halaman duplikat, ada heading kata kunci dan masih banyak hal lain yang tidak perlu diindeks sama sekali. Jika tidak, situasi berikut tidak dikecualikan.

Robot pencari, setelah datang ke situs Anda, pertama-tama mencoba menemukan robots.txt yang terkenal kejam. Jika file ini tidak ditemukan olehnya atau ditemukan, tetapi pada saat yang sama dikompilasi secara tidak benar (tanpa larangan yang diperlukan), "utusan" mesin pencari mulai mempelajari situs tersebut atas kebijaksanaannya sendiri.

Dalam proses studi semacam itu, ia mengindeks segalanya dan jauh dari fakta bahwa ia dimulai dari halaman-halaman yang harus dicari terlebih dahulu (artikel baru, ulasan, laporan foto, dll.). Secara alami, dalam hal ini, pengindeksan situs baru mungkin agak tertunda.

Untuk menghindari nasib yang tidak menyenangkan seperti itu, webmaster harus berhati-hati dalam membuat file robots.txt yang tepat pada waktunya.

"User-agent:" adalah direktif robots.txt utama

Dalam praktiknya, arahan (perintah) ditulis dalam robots.txt menggunakan istilah khusus, yang utama di antaranya dapat dianggap sebagai arahan " Agen pengguna: ". Yang terakhir digunakan untuk menentukan robot pencari, yang akan diberikan instruksi tertentu di masa mendatang. Sebagai contoh:

  • Agen pengguna: Googlebot- semua perintah yang mengikuti arahan dasar ini hanya akan berhubungan dengan mesin pencari Google (robot pengindeksannya);
  • Agen pengguna: Yandex- penerima dalam hal ini adalah mesin pencari domestik Yandex.

Di file robots.txt, Anda dapat merujuk ke gabungan semua mesin telusur lainnya. Perintah dalam hal ini akan terlihat seperti ini: Agen pengguna: *. Di bawah simbol khusus "*", biasanya dipahami "teks apa pun". Dalam kasus kami - yang lain, kecuali Yandex, mesin pencari. Omong-omong, Google juga menganggap arahan ini secara pribadi, jika Anda tidak menghubunginya secara pribadi.

Perintah "Larang:" - larangan pengindeksan di robots.txt

Setelah direktif "User-agent:" utama ditujukan ke mesin telusur, perintah khusus dapat mengikuti. Di antara mereka, yang paling umum dapat dianggap sebagai arahan " Melarang: ". Dengan perintah ini, robot pencari dapat dilarang mengindeks seluruh sumber daya web atau sebagian darinya. Itu semua tergantung pada ekstensi apa yang akan dimiliki oleh arahan yang diberikan. Pertimbangkan contoh:

Agen pengguna: Yandex Larang: /

Entri semacam ini dalam file robots.txt berarti bahwa robot pencarian Yandex sama sekali tidak diizinkan untuk mengindeks situs ini, karena tanda larangan "/" berdiri dalam isolasi yang sangat baik dan tidak disertai dengan klarifikasi apa pun.

Agen pengguna: Yandex Larang: /wp-admin

Seperti yang Anda lihat, kali ini ada klarifikasi dan menyangkut folder sistem wp-admin di dalam . Artinya, robot pengindeks yang menggunakan perintah ini (jalur yang ditentukan di dalamnya) akan menolak untuk mengindeks seluruh folder ini.

Agen pengguna: Yandex Larang: /wp-content/themes

Indikasi robot Yandex seperti itu menyiratkan masuknya ke dalam kategori besar " wp-content ', yang dapat mengindeks semua konten kecuali ' tema ».

Mari jelajahi fitur "terlarang" dari dokumen teks robots.txt lebih lanjut:

Agen pengguna: Yandex Disallow: /index$

Dalam perintah ini, sebagai berikut dari contoh, tanda khusus lain "$" digunakan. Penggunaannya memberi tahu robot bahwa tidak mungkin untuk mengindeks halaman-halaman di tautan yang memiliki urutan huruf " indeks ". Saat mengindeks berkas terpisah situs dengan nama yang sama index.php » Robot tidak dilarang. Oleh karena itu, simbol "$" digunakan saat pendekatan selektif terhadap larangan pengindeksan diperlukan.

Juga di file robots.txt, Anda dapat menonaktifkan pengindeksan setiap halaman sumber daya di mana karakter tertentu muncul. Ini mungkin terlihat seperti ini:

Agen pengguna: Yandex Larang: *&*

Perintah ini menginstruksikan robot pencarian Yandex untuk tidak mengindeks semua halaman situs web yang URL-nya berisi simbol "&". Selain itu, tanda di tautan ini harus berada di antara karakter lain. Namun, mungkin ada situasi lain:

Agen pengguna: Yandex Larang: *&

Di sini larangan pengindeksan berlaku untuk semua halaman yang tautannya diakhiri dengan "&".

Jika dengan larangan pengindeksan file sistem seharusnya tidak ada pertanyaan di situs, maka masalah seperti itu mungkin muncul terkait larangan pengindeksan setiap halaman sumber daya. Seperti, mengapa ini pada prinsipnya perlu? Seorang webmaster berpengalaman mungkin memiliki banyak pertimbangan dalam hal ini, tetapi yang utama adalah kebutuhan untuk menghilangkan halaman duplikat dalam pencarian. Dengan perintah "Larang:" dan grup karakter spesial, dibahas di atas, cukup mudah untuk menangani halaman yang "tidak diinginkan".

Perintah "Izinkan:" - izin pengindeksan di robots.txt

Antipode dari arahan sebelumnya dapat dianggap sebagai perintah " mengizinkan: ". Menggunakan elemen klarifikasi yang sama, tetapi dengan menggunakan perintah ini di file robots.txt, Anda dapat mengizinkan robot pengindeks untuk menambahkan elemen situs yang Anda perlukan ke basis pencarian. Berikut contoh lain untuk membuktikannya:

Agen pengguna: Yandex Izinkan: /wp-admin

Untuk beberapa alasan, webmaster berubah pikiran dan melakukan penyesuaian yang sesuai pada robots.txt. Alhasil, mulai sekarang isi folder tersebut wp-admin secara resmi diizinkan untuk pengindeksan oleh Yandex.

Terlepas dari kenyataan bahwa perintah "Izinkan:" ada, dalam praktiknya tidak terlalu sering digunakan. Pada umumnya, tidak diperlukan, karena diterapkan secara otomatis. Cukup bagi pemilik situs untuk menggunakan arahan "Larang:", yang melarang satu atau beberapa kontennya untuk diindeks. Setelah itu, semua konten lain dari sumber daya yang tidak dilarang dalam file robots.txt dianggap oleh robot pencari sebagai konten yang dapat dan harus diindeks. Semuanya seperti dalam yurisprudensi: "Segala sesuatu yang tidak dilarang oleh undang-undang diperbolehkan."

Arahan "Host:" dan "Sitemap:"

Perintah-perintah “ tuan rumah: " dan " peta situs: ". Adapun yang pertama, ini ditujukan khusus untuk Yandex, yang menunjukkan situs mirror mana (dengan atau tanpa www) yang harus dianggap sebagai yang utama. Contoh situs mungkin terlihat seperti ini:

Agen pengguna: Yandex Host: site

Agen pengguna: Yandex Host: www.site

Menggunakan perintah ini juga menghindari duplikasi konten situs yang tidak perlu.

Pada gilirannya, arahan peta situs: ” menunjukkan kepada robot pengindeks jalur yang benar ke apa yang disebut Peta Situs - file peta situs.xml dan sitemap.xml.gz (dalam kasus CMS WordPress). Contoh hipotetis mungkin:

Agen pengguna: * Peta Situs: http://site/sitemap.xml Peta Situs: http://site/sitemap.xml.gz

Meresepkan perintah ini di file robots.txt akan membantu robot pencari untuk mengindeks Peta Situs lebih cepat. Ini, pada gilirannya, juga akan mempercepat proses memasukkan halaman sumber daya web ke dalam hasil pencarian.

File robots.txt sudah siap - apa selanjutnya?

Misalkan Anda, sebagai webmaster pemula, telah menguasai semua informasi yang kami berikan di atas. Apa yang harus dilakukan setelahnya? Membuat Dokumen Teks robots.txt untuk situs Anda. Untuk ini, Anda perlu:

  • mengambil keuntungan editor teks(misalnya, Notepad) untuk menyusun robots.txt yang Anda perlukan;
  • periksa kebenaran dokumen yang dibuat, misalnya menggunakan layanan Yandex ini;
  • menggunakan klien FTP, unggah file yang sudah selesai ke folder root situs Anda (dalam situasi dengan WordPress, kita biasanya berbicara tentang folder sistem Public_html).

Ya, hampir lupa. Seorang webmaster pemula, tidak diragukan lagi, sebelum bereksperimen sendiri, ingin melihat terlebih dahulu contoh yang sudah jadi berkas yang diberikan dalam kinerja orang lain. Tidak ada yang lebih mudah. Untuk melakukan ini, cukup masukkan di bilah alamat browser site.ru/robots.txt . Alih-alih "site.ru" - nama sumber daya yang Anda minati. Hanya dan semuanya.

Selamat bereksperimen dan terima kasih telah membaca!

Halo! Ada saat dalam hidup saya ketika saya sama sekali tidak tahu apa-apa tentang membuat situs web, dan terlebih lagi tidak tahu tentang keberadaan file robots.txt.

Ketika minat sederhana tumbuh menjadi hobi yang serius, ada kekuatan dan keinginan untuk mempelajari semua seluk-beluknya. Di forum Anda dapat menemukan banyak topik yang terkait dengan file ini, mengapa? Sederhana saja: robots.txt mengatur akses mesin pencari ke situs, mengelola pengindeksan dan ini sangat penting!

Robots.txt adalah file teks yang dirancang untuk membatasi akses robot pencari ke bagian dan halaman situs yang perlu dikecualikan dari perayapan dan hasil pencarian.

Mengapa menyembunyikan konten situs tertentu? Kecil kemungkinan Anda akan senang jika robot pencari mengindeks file administrasi situs, yang mungkin menyimpan kata sandi atau informasi rahasia lainnya.

Ada arahan berbeda untuk mengatur akses:

  • User-agent - agen pengguna yang aturan aksesnya ditentukan,
  • Larang - menolak akses ke URL,
  • Izinkan - izinkan akses ke URL,
  • Peta Situs - menunjukkan jalur ke ,
  • Perayapan-penundaan - menyetel interval perayapan URL (khusus Yandex),
  • Clean-param - abaikan parameter URL dinamis (khusus Yandex),
  • Host - menunjukkan mirror situs utama (khusus Yandex).

Harap diperhatikan bahwa sejak 20 Maret 2018, Yandex secara resmi berhenti mendukung arahan Host. Itu dapat dihapus dari robots.txt, dan jika dibiarkan, robot akan mengabaikannya.

File tersebut harus berada di direktori root situs. Jika situs memiliki subdomain, maka setiap subdomain memiliki robots.txt sendiri.

Selalu ingat keselamatan. File ini dapat dilihat oleh siapa saja, jadi tidak perlu menentukan jalur eksplisit ke sumber daya administratif (panel kontrol, dll.) Di dalamnya. Seperti kata pepatah, semakin sedikit Anda tahu, semakin baik Anda tidur. Oleh karena itu, jika tidak ada tautan ke halaman tersebut dan Anda tidak ingin mengindeksnya, maka Anda tidak perlu mendaftarkannya di robot, toh tidak ada yang akan menemukannya, bahkan robot laba-laba.

Saat merayapi situs, robot pencari pertama-tama memeriksa keberadaan file robots.txt di situs tersebut dan kemudian mengikuti arahannya saat merayapi laman.

Saya ingin segera mencatat bahwa mesin pencari memperlakukan file ini secara berbeda. Misalnya, Yandex tanpa syarat mengikuti aturannya dan mengecualikan halaman terlarang dari pengindeksan, sementara Google menganggap file ini sebagai rekomendasi dan tidak lebih.

Untuk menonaktifkan pengindeksan halaman, Anda dapat menggunakan cara lain:

  • redirect atau ke direktori menggunakan file .htaccess,
  • meta tag noindex (jangan bingung dengan tag untuk mencegah pengindeksan bagian dari teks),
  • atribut untuk link, serta menghapus link ke halaman ekstra.

Pada saat yang sama, Google dapat berhasil menambah halaman hasil pencarian yang dilarang untuk diindeks, terlepas dari semua batasannya. Argumen utamanya adalah jika halaman tersebut ditautkan, maka halaman tersebut dapat muncul di hasil pencarian. Dalam hal ini, disarankan untuk tidak menautkan ke halaman seperti itu, tetapi permisi, file robots.txt hanya dirancang untuk mengecualikan halaman tersebut dari hasil pencarian ... Menurut pendapat saya, tidak ada logika 🙄

Menghapus halaman dari pencarian

Jika halaman yang dilarang masih diindeks, maka Anda perlu menggunakan Pencarian Google Konsol dan Alat Penghapus URL yang dipaketkan:

Alat serupa tersedia di Yandex Webmaster. Baca lebih lanjut tentang menghapus halaman dari indeks mesin pencari di artikel terpisah.

Periksa robots.txt

Melanjutkan tema dengan Google, Anda dapat menggunakan alat Search Console lain dan memeriksa file robots.txt untuk melihat apakah itu ditulis dengan benar untuk mencegah halaman tertentu diindeks:

Untuk melakukan ini, cukup masukkan URL yang perlu Anda periksa di bidang teks dan klik tombol Periksa - sebagai hasil pemeriksaan, akan diketahui apakah halaman ini dilarang untuk diindeks atau apakah kontennya tersedia untuk dicari robot.

Yandex juga memiliki alat serupa yang terletak di Webmaster, pemeriksaan dilakukan dengan cara yang serupa:

Jika Anda tidak tahu cara menyusun file dengan benar, buat saja dokumen teks kosong dengan namanya robots.txt, dan saat Anda mempelajari fitur CMS dan struktur situs, lengkapi dengan arahan yang diperlukan.

Baca tentang kompilasi file yang benar di tautan. Sampai ketemu lagi!

Isi semua bidang yang wajib diisi secara berurutan. Saat Anda memandu, Anda akan melihat Robots.txt Anda diisi dengan arahan. Semua arahan dari file Robots.txt dijelaskan secara rinci di bawah ini.

Menandai, salinan dan rekatkan teks ke editor teks. Simpan file sebagai "robots.txt" di direktori root situs Anda.

Deskripsi format file robots.txt

File robots.txt terdiri dari entri, yang masing-masing terdiri dari dua bidang: satu baris dengan nama aplikasi klien (agen pengguna), dan satu atau lebih baris yang dimulai dengan Disallow directive:

Direktif ":" artinya

Robots.txt harus dibuat dalam format teks Unix. Sebagian besar editor teks yang baik sudah mengetahui cara mengonversi karakter terjemahan string jendela di Unix. Atau klien FTP Anda harus dapat melakukannya. Untuk editing, jangan coba-coba menggunakan editor HTML, apalagi yang tidak punya modus teks tampilan kode.

Pengarahan Agen pengguna:

Untuk Rambler: Agen-pengguna: StackRambler Untuk Yandex: Agen-pengguna: Yandex Untuk Google: Agen-Pengguna: googlebot

Anda dapat membuat instruksi untuk semua robot:

Agen pengguna: *

Pengarahan Melarang:

Bagian kedua dari entri terdiri dari baris Disallow. Garis-garis ini adalah arahan (instruksi, perintah) untuk robot ini. Setiap grup yang dimasukkan oleh string User-agent harus memiliki setidaknya satu pernyataan Disallow. Tidak ada batasan untuk jumlah instruksi Disallow Mereka memberi tahu robot file dan/atau direktori mana yang tidak boleh diindeks oleh robot. Anda dapat menonaktifkan pengindeksan file atau direktori.

Arahan berikut menonaktifkan pengindeksan direktori /cgi-bin/:

Larang: /cgi-bin/ Perhatikan / di akhir nama direktori! Untuk melarang mengunjungi direktori "/dir" , instruksinya akan terlihat seperti: "Disallow: /dir/" . Dan baris "Larang: /dir" melarang mengunjungi semua halaman server, yang nama lengkapnya (dari root server) dimulai dengan "/dir". Misalnya: "/dir.html", "/dir/index.html", "/directory.html".

Arahan yang ditulis sebagai berikut melarang pengindeksan file index.htm yang terletak di root:

Larang: /index.htm

Pengarahan mengizinkan hanya mengerti Yandex.

Agen pengguna: Yandex Izinkan: /cgi-bin Disallow: / # melarang mengunduh semuanya kecuali halaman yang dimulai dengan "/cgi-bin" Untuk mesin pencari lainnya, Anda harus mencantumkan semua dokumen tertutup. Pertimbangkan struktur situs sehingga dokumen yang ditutup untuk pengindeksan dikumpulkan, jika memungkinkan, di satu tempat.

Jika direktif Disallow kosong, berarti robot dapat mengindeks SEMUA file. Setidaknya satu arahan Disallow harus ada untuk setiap kolom User-agent agar robots.txt dianggap valid. Robots.txt yang benar-benar kosong artinya sama seperti tidak ada sama sekali.

Robot Rambler memahami * sebagai karakter apa pun, jadi instruksi Disallow: * berarti larangan mengindeks seluruh situs.

Arahan Izinkan, Larang tanpa parameter. Tidak adanya parameter untuk arahan Allow , Disallow diartikan sebagai berikut: User-agent: Yandex Disallow: # sama dengan Allow: / User-agent: Yandex Allow: # sama dengan Disallow: /

Menggunakan karakter khusus "*" dan "$".
Saat menentukan jalur arahan Allow-Disallow, Anda dapat menggunakan karakter khusus "*" dan "$", sehingga menyetel tertentu ekspresi reguler. Karakter khusus "*" berarti urutan karakter apa saja (termasuk yang kosong). Contoh:

Agen pengguna: Yandex Larang: /cgi-bin/*.aspx # larang "/cgi-bin/example.aspx" dan "/cgi-bin/private/test.aspx" Larang: /*private # larang tidak hanya " /pribadi", tetapi juga "/cgi-bin/pribadi" Karakter khusus "$".
Secara default, "*" ditambahkan di akhir setiap aturan yang dijelaskan di robots.txt, misalnya: User-agent: Yandex Disallow: /cgi-bin* # memblokir akses ke halaman yang diawali dengan "/cgi-bin" Disallow: /cgi- bin # sama untuk membatalkan "*" di akhir aturan, Anda dapat menggunakan karakter khusus "$", misalnya: User-agent: Yandex Disallow: /example$ # banned "/example", tetapi tidak melarang "/example.html" User -agent: Yandex Disallow: /example # menonaktifkan "/example" dan "/example.html" User-agent: Yandex Disallow: /example$ # hanya menonaktifkan "/example" Disallow: /example*$ # sama seperti cara "Disallow: /example" melarang keduanya /example.html dan /example

Pengarahan Tuan rumah.

Jika situs Anda memiliki pencerminan, robot pencerminan khusus akan mendeteksinya dan membentuk grup pencerminan untuk situs Anda. Hanya cermin utama yang akan berpartisipasi dalam pencarian. Anda dapat menentukannya menggunakan robots.txt menggunakan arahan "Host", dengan menentukan nama mirror utama sebagai parameternya. Arahan "Host" tidak menjamin pemilihan mirror utama yang ditentukan, namun, algoritme memperhitungkannya dengan prioritas tinggi saat membuat keputusan. Contoh: #Jika www.glavnoye-zerkalo.ru adalah pencerminan situs utama, maka robots.txt untuk #www.neglavnoye-zerkalo.ru akan terlihat seperti ini User-Agent: * Disallow: /forum Disallow: /cgi-bin Host: www.glavnoye -zerkalo.ru Untuk kompatibilitas dengan robot yang tidak sepenuhnya mengikuti standar saat memproses robots.txt, arahan "Host" harus ditambahkan ke grup yang dimulai dengan entri "Agen-Pengguna", segera setelah "Larang " ("Izinkan") arahan . Argumen untuk arahan "Host" adalah nama domain dengan nomor port (80 secara default) yang dipisahkan oleh titik dua. Parameter direktif Host harus terdiri dari satu nama host yang valid (yaitu, yang sesuai dengan RFC 952 dan bukan alamat IP) dan nomor port yang valid. Baris "Host:" yang salah disusun akan diabaikan.

Contoh arahan Host yang diabaikan:

Tuan rumah: www.myhost-.ru Tuan rumah: www.-myhost.ru Tuan rumah: www.myhost.ru:100000 Tuan rumah: www.my_host.ru Tuan rumah: .my-host.ru:8000 Tuan rumah: my-host.ru. Host: my..host.ru Host: www.myhost.ru/ Host: www.myhost.ru:8080/ Host: 213.180.194.129 Host: www.firsthost.ru,www.secondhost.ru # dalam satu baris - satu domain! Tuan rumah: www.firsthost.ru www.secondhost.ru # satu baris - satu domain!! Host: crew-link.rf # perlu menggunakan punycode

Pengarahan Penundaan perayapan

Menyetel batas waktu dalam hitungan detik saat crawler mendownload halaman dari server Anda (Crawl-delay).

Jika server penuh muatan dan tidak memiliki waktu untuk memproses permintaan unduhan, gunakan arahan "Crawl-delay". Ini memungkinkan Anda menyetel periode waktu minimum (dalam detik) untuk robot pencarian antara akhir pengunduhan satu halaman dan awal pengunduhan halaman berikutnya. Untuk kompatibilitas dengan robot yang tidak sepenuhnya mengikuti standar saat memproses robots.txt, perintah "Crawl-delay" harus ditambahkan ke dalam grup yang dimulai dengan entri "User-Agent", segera setelah "Disallow" ("Allow" ) arahan.

Crawler Yandex mendukung nilai Crawl-Delay fraksional, misalnya, 0,5. Ini tidak menjamin bahwa perayap akan mengunjungi situs Anda setiap setengah detik, tetapi ini memberi robot lebih banyak kebebasan dan memungkinkan Anda merayapi situs lebih cepat.

User-agent: Yandex Crawl-delay: 2 # menyetel batas waktu menjadi 2 detik User-agent: * Disallow: /search Crawl-delay: 4.5 # menyetel batas waktu menjadi 4,5 detik

Pengarahan Bersih param

Arahan untuk mengecualikan parameter dari bilah alamat. itu. permintaan yang mengandung parameter seperti itu dan tidak mengandung - akan dianggap identik.

Baris kosong dan komentar

Baris kosong diperbolehkan di antara kelompok pernyataan yang dimasukkan oleh User-agent .

Pernyataan Disallow hanya dihormati jika berada di bawah garis User-agent mana pun - yaitu, jika ada garis User-agent di atasnya.

Teks apa pun dari tanda pagar "#" hingga akhir baris dianggap sebagai komentar dan diabaikan.

Contoh:

File sederhana berikut robots.txt melarang semua robot mengindeks semua halaman situs, kecuali robot Rambler, yang sebaliknya, diizinkan untuk mengindeks semua halaman situs.

# Petunjuk untuk semua robot User-agent: * Disallow: / # Petunjuk untuk robot Rambler User-agent: StackRambler Disallow:

Kesalahan Umum:

Sintaks terbalik: User-agent: / Disallow: StackRambler Dan seharusnya seperti ini: User-agent: StackRambler Disallow: / Beberapa direktif Disallow dalam satu baris: Disallow: /css/ /cgi-bin/ /images/ Perbaiki seperti ini: Larang: / css/ Larang: /cgi-bin/ Larang: /images/
    Catatan:
  1. Baris baru kosong tidak diperbolehkan antara arahan "User-agent" dan "Disallow" ("Allow"), serta antara arahan "Disallow" ("Allow") itu sendiri.
  2. Standar merekomendasikan untuk memasukkan baris baru kosong sebelum setiap arahan "Agen-pengguna".