Példa robots txt a Yandexhez. Javaslatok a robots txt fájl beállításához. „Host:” és „Webhelytérkép:” direktívák

Gyors navigáció ezen az oldalon:

A modern valóság az, hogy a RuNetben egyetlen önmagát tisztelő webhely sem nélkülözheti a robots.txt nevű fájlt - még akkor is, ha nincs semmi tiltása az indexelésben (bár szinte minden webhelyen vannak olyan technikai oldalak és duplikált tartalom, amelyeket be kell zárni az indexelésből ), akkor Minimum mindenképpen érdemes www-vel és www nélkül direktívát regisztrálni a Yandex számára - erre szolgálnak a robots.txt írási szabályai, amelyekről alább lesz szó.

Mi az a robots.txt?

Egy ilyen nevű fájl 1994-ből származik, amikor a W3C konzorcium úgy döntött, hogy bevezet egy ilyen szabványt, hogy a webhelyek indexelési utasításokkal láthassák el a keresőmotorokat.

Az ilyen nevű fájlt a webhely gyökérkönyvtárába kell menteni, és nem szabad más mappákba helyezni.

A fájl a következő funkciókat látja el:

tiltja az oldalak vagy oldalcsoportok indexelését
lehetővé teszi bármely oldal vagy oldalcsoport indexelését
jelzi a Yandex robotnak, hogy melyik oldaltükör a fő (www-vel vagy www nélkül)
megmutatja a webhelytérkép fájl helyét

Mind a négy pont rendkívül fontos a számára keresőoptimalizálás telek. Az indexelés tiltása lehetővé teszi, hogy blokkolja az ismétlődő tartalmat tartalmazó oldalak indexelését – például címkeoldalak, archívumok, keresési eredmények, nyomtatható verziójú oldalak stb. Az ismétlődő tartalom jelenléte (amikor ugyanaz a szöveg, akár több mondatos méretben is két vagy több oldalon van jelen) az oldal mínuszát jelenti a keresőmotorok rangsorában, ezért a lehető legkevesebb duplikáció legyen.

Az enable direktívának nincs önálló jelentése, mivel alapértelmezés szerint már minden oldal elérhető indexeléshez. A tiltással együtt működik - ha például egy bizonyos kategória teljesen le van zárva a keresők elől, de szeretné megnyitni ezt vagy egy külön oldalt benne.

Az oldal főtükre mutatása szintén az optimalizálás egyik legfontosabb eleme: a keresőmotorok a www.yoursite.ru és a yoursite.ru oldalakat két különböző forrásként tekintik, hacsak Ön közvetlenül nem mondja nekik másként. Az eredmény a tartalom megduplázódása - ismétlődések megjelenése, a külső hivatkozások erősségének csökkenése (a külső hivatkozások www-vel és www nélkül is elhelyezhetők), és ennek eredményeként a keresési eredmények alacsonyabb helyezése lehet.

A Google esetében a főtükör regisztrálva van a Webmestereszközökben (http://www.google.ru/webmasters/), de a Yandex esetében ezek az utasítások csak ugyanabban a robots.tkht-ban regisztrálhatók.

Ha egy XML-fájlra mutat egy webhelytérképet (például sitemap.xml), lehetővé teszi a keresőmotorok számára, hogy észleljék ezt a fájlt.

A User-agent megadásának szabályai

A user-agent ebben az esetben a keresőmotor. Az utasítások írásakor jeleznie kell, hogy ezek az összes keresőmotorra vonatkoznak-e (ebben az esetben egy csillag van feltüntetve - *), vagy egy adott keresőmotorhoz - például Yandex vagy Google - szánják őket.

Az összes robotot jelző User-agent beállításához írja be a következő sort a fájlba:

User-agent: *

Yandex esetén:

Felhasználói ügynök: Yandex

A Google számára:

Felhasználói ügynök: GoogleBot

A tiltás és engedélyezés megadásának szabályai

Először is meg kell jegyezni, hogy a robots.txt fájlnak legalább egy disallow direktívát kell tartalmaznia ahhoz, hogy érvényes legyen. Most pedig nézzük meg ezeknek az irányelveknek az alkalmazását konkrét példákon keresztül.

Ezzel a kóddal engedélyezheti a webhely összes oldalának indexelését:

User-agent: * Disallow:

Ezzel a kóddal éppen ellenkezőleg, minden oldal be lesz zárva:

User-agent: * Disallow: /

Egy adott mappa nevű könyvtár indexelésének tiltásához adja meg:

User-agent: * Disallow: /mappa

Csillaggal is helyettesíthet egy tetszőleges nevet:

User-agent: * Disallow: *.php

Fontos: a csillag a teljes fájlnevet helyettesíti, azaz nem adhat meg fájl*.php-t, csak *.php-t (de minden .php kiterjesztésű oldal le lesz tiltva; ennek elkerülése érdekében megadhat egy konkrét oldalcímet) .

Az engedélyezési direktíva, amint azt fentebb leírtuk, kivételek létrehozására szolgál a disallow-ban (egyébként nincs értelme, mivel az oldalak alapértelmezés szerint már nyitva vannak).

Például megtiltjuk az archívumban lévő oldalak indexelését, de az index.html oldalt nyitva hagyjuk ebből a könyvtárból:

Engedélyezés: /archive/index.html Tiltás: /archive/

Adja meg a gazdagépet és a webhelytérképet

A gazdagép a webhely fő tükre (vagyis a domain név plusz www vagy az előtag nélküli domain név). A gazdagép csak a Yandex robot számára van megadva (ebben az esetben legalább egy disallow parancsnak kell lennie).

A gazdagép megadásához a robots.txt fájlnak tartalmaznia kell a következő bejegyzést:

Felhasználói ügynök: Yandex Disallow: Host: www.yoursite.ru

Ami a webhelytérképet illeti, a robots.txt fájlban a webhelytérképet úgy jelzi, hogy egyszerűen beírja a megfelelő fájl teljes elérési útját, feltüntetve a domain nevet:

Webhelytérkép: http://yoursite.ru/sitemap.xml

Arról van írva, hogyan lehet webhelytérképet készíteni a WordPress számára.

Példa a robots.txt fájlhoz a WordPresshez

A WordPress esetében az utasításokat úgy kell megadni, hogy az indexelésre bezárjanak minden technikai könyvtárat (wp-admin, wp-includes stb.), valamint a címkék, RSS-fájlok, megjegyzések és keresés által létrehozott oldalak duplikációját.

Példaként a robots.txt fájlra a wordpresshez, átveheti a fájlt a webhelyünkről:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */ melléklet/* Engedélyezés: /wp-content/uploads/ Host: www..php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: * /feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Engedélyezés: /wp -content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/ * Disallow: */attachment/* Engedélyezés: /wp-content/uploads/ Webhelytérkép: https://www..xml

A robots.txt fájlt letöltheti webhelyünkről a segítségével.

Ha a cikk elolvasása után még mindig kérdései vannak, tedd fel a megjegyzésekben!

1) Mi az a keresőrobot?
2) Mi az a robots.txt?
3) Hogyan lehet létrehozni a robots.txt fájlt?
4) Mit és miért lehet ebbe a fájlba írni?
5) Példák robotnevekre
6) Példa a kész robots.txt fájlra
7) Hogyan ellenőrizhetem, hogy a fájlom működik-e?

1. Mi az a keresőrobot?

Robot (angol bejáró) listát vezet azokról az URL-ekről, amelyeket indexelni tud, és rendszeresen letölti a hozzájuk tartozó dokumentumokat. Ha a robot egy dokumentum elemzése közben új hivatkozást talál, felveszi a listába. Így minden hivatkozással rendelkező dokumentumot vagy webhelyet megtalálhat egy robot, és így a Yandex keresése is.

2. Mi az a robots.txt?

A keresőrobotok először a robots.txt fájlt keresik a webhelyeken. Ha webhelyén vannak olyan könyvtárak, tartalmak stb., amelyeket például el szeretne rejteni az indexelés elől (ezekről a kereső nem adott információt. Például: adminisztrációs panel, egyéb oldalpanelek), akkor óvatosan kell tanulmányozza a fájl kezeléséhez szükséges utasításokat.

robots.txt- Ezt szöveges fájl(.txt), amely webhelye gyökérkönyvtárában (gyökérkönyvtárában) található. Utasításokat tartalmaz a keresőrobotokhoz. Ezek az utasítások megtilthatják a webhely bizonyos szakaszainak vagy oldalainak indexelését, jelezhetik a domain helyes „tükrözését”, javasolhatják, hogy a keresőrobot tartson be egy bizonyos időintervallumot a dokumentumok szerverről történő letöltése között stb.

3. Hogyan lehet létrehozni a robots.txt fájlt?

A robots.txt létrehozása nagyon egyszerű. Megyünk egy szokásos szövegszerkesztőhöz (vagy jobb egérgombbal - létrehozás - szöveges dokumentumhoz), például a Jegyzettömbhöz. Ezután hozzon létre egy szöveges fájlt, és nevezze át robots.txt fájlnak.

4. Mit és miért írhatunk a robots.txt fájlba?

Mielőtt parancsot adna meg egy keresőmotornak, el kell döntenie, hogy melyik botnak lesz címezve. Erre van egy parancs Felhasználói ügynök
Az alábbiakban példák találhatók:

User-agent: * # az e sor után írt parancs minden keresőrobotnak meg lesz címezve
Felhasználói ügynök: YandexBot # hozzáférés a fő Yandex indexelő robothoz
User-agent: Googlebot # hozzáférés a fő Google indexelő robothoz

Indexelés engedélyezése és letiltása
Az indexelés engedélyezéséhez és letiltásához két megfelelő parancs található: Engedélyezze(lehetséges) és Letiltás(tilos).

User-agent: *
Disallow: /adminka/ # megtiltja, hogy minden robot indexelje az adminka könyvtárat, amely állítólag tartalmazza az admin panelt

User-agent: YandexBot # az alábbi parancsot a Yandex címezi
Disallow: / # tiltjuk a teljes webhely indexelését a Yandex robot által

User-agent: Googlebot # az alábbi parancs meghívja a Google-t
Engedélyezés: /images # lehetővé teszi az image könyvtár minden tartalmának indexelését
Disallow: / # és minden más tiltott

A sorrend nem számít

User-agent: *
Engedélyezés: /images
Letiltás: /

User-agent: *
Letiltás: /
Engedélyezés: /images
# mindkettő indexelheti a fájlokat
# "/images" karakterrel kezdődik

Webhelytérkép-irányelv
Ez a parancs határozza meg a webhelytérkép címét:

Webhelytérkép: http://yoursite.ru/structure/my_sitemaps.xml # A webhelytérkép címét jelzi

Host direktíva
Ez a parancs a fájl VÉGÉRE kerül beillesztésre, és a fő tükröt jelöli
1) a fájl VÉGÉRE van írva
2) csak egyszer van feltüntetve. egyébként csak az első sor fogadható el
3) az Engedélyezés vagy a Tiltás után jelezve

Házigazda: www.yoursite.ru # webhelyének tükre

#Ha a www.yoursite.ru a webhely fő tükre, akkor
A #robots.txt az összes tükörwebhelyhez így néz ki
User-Agent: *
Disallow: /images
Disallow: /include
Házigazda: www.yoursite.ru

# alapértelmezés szerint a Google figyelmen kívül hagyja a gazdagépet, ezt meg kell tennie
User-Agent: * # index all
Disallow: /admin/ # disallow admin index
Host: www.mainsite.ru # jelzi a fő tükröt
User-Agent: A Googlebot # most parancsok a Google számára
Disallow: /admin/ # tiltás a Google számára

5. Példák robotnevekre

Yandex robotok
A Yandexnek többféle robotja van, amelyek különféle problémákat oldanak meg: az egyik a képek indexeléséért, mások az rss-adatok indexeléséért felelősek, hogy adatokat gyűjtsenek a blogokon, míg mások a multimédiás adatokért. A legfontosabb az YandexBot, indexeli az oldalt, hogy az oldalról általános adatbázist állítson össze (címsorok, linkek, szöveg stb.). Van egy robot is a gyors indexeléshez (hírindexelés stb.).

YandexBot-- fő indexelő robot;
YandexMedia-- multimédiás adatokat indexelő robot;
YandexImages-- Yandex.Images indexelő;
YandexCatalog-- a Yandex.Catalogue „megérintése”, a Katalógusban található elérhetetlen webhelyek közzétételéből való ideiglenes eltávolításra szolgál;
YandexDirect-- Yandex.Direct robot, speciális módon értelmezi a robots.txt fájlt;
YandexBlogs-- blogkereső robot, amely indexeli a bejegyzéseket és megjegyzéseket;
YandexNews-- Yandex.News robot;
YandexPagechecker-- mikro jelölés érvényesítő;
YandexMetrika-- Yandex.Metrica robot;
YandexMarket-- Yandex.Market robot;
YandexCalendar-- Yandex.Calendar robot.

6. Példa a kész robots.txt fájlra

Valójában egy kész fájl példájához érkeztünk. Remélem, a fenti példák után minden világos lesz számodra.

User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /komponensek/

Felhasználói ügynök: Yandex
Disallow: /admin/
Disallow: /cache/
Disallow: /komponensek/
Disallow: /images/
Disallow: /includes/

Webhelytérkép: http://yoursite.ru/structure/my_sitemaps.xml

Ez egy szöveges fájl (.txt formátumú dokumentum), amely egyértelmű utasításokat tartalmaz egy adott webhely indexeléséhez. Más szóval, ez a fájl jelzi a keresőmotoroknak, hogy egy webes erőforrás mely oldalait kell indexelni, és melyeket nem – hogy megtiltsa az indexelést.

Úgy tűnik, miért tiltják meg bizonyos webhelytartalom indexelését? Azt mondják, a keresőrobot indexeljen mindent válogatás nélkül, az elv szerint: minél több oldal, annál jobb! Csak egy amatőr vezérigazgató érvelhet így.

A keresőrobotoknak nem minden tartalomra van szükségük, amely egy webhelyet alkot. Vannak rendszerfájlok, vannak ismétlődő oldalak, vannak kategóriák kulcsszavakatés még sok minden van, amit nem feltétlenül kell indexelni. Ellenkező esetben a következő helyzet nem zárható ki.

Amikor egy keresőrobot megérkezik webhelyére, először megpróbálja megtalálni a hírhedt robots.txt fájlt. Ha ezt a fájlt nem észleli, vagy észleli, de rosszul van összeállítva (a szükséges tilalmak nélkül), a „messenger” keresőmotor saját belátása szerint elkezdi tanulmányozni az oldalt.

Az ilyen tanulmányozás során mindent indexel, és távolról sem tény, hogy azokkal az oldalakkal kezdi, amelyeket először be kell írni a keresésbe (új cikkek, ismertetők, fotóriportok stb.). Természetesen ebben az esetben az új webhely indexelése eltarthat egy ideig.

Az ilyen irigylésre méltó sors elkerülése érdekében a webmesternek gondoskodnia kell a létrehozásról helyes fájl robots.txt.

A „User-agent:” a robots.txt fő direktívája

A gyakorlatban az utasításokat (parancsokat) a robots.txt-ben speciális kifejezések segítségével írják le, amelyek közül a legfontosabb a „direktíva” Felhasználói ügynök: " Ez utóbbi a keresőrobot megadására szolgál, amely a jövőben bizonyos utasításokat kap. Például:

Felhasználói ügynök: Googlebot– minden parancs, amely ezt az alapvető irányelvet követi, kizárólag a Google keresőmotorjára (indexelő robotjára) vonatkozik;
Felhasználói ügynök: Yandex– a címzett jelen esetben a hazai Yandex kereső.

A robots.txt fájl az összes többi keresőmotor együttes megszólítására használható. A parancs ebben az esetben így fog kinézni: User-agent: *. A „*” speciális szimbólum általában „bármilyen szöveget” jelent. Esetünkben a Yandexen kívül minden más keresőmotor. A Google egyébként ezt a direktívát is személyesen fogadja, hacsak nem keresi meg személyesen.

„Disallow:” parancs – az indexelés tiltása a robots.txt fájlban

A keresőmotoroknak címzett fő „User-agent:” direktívát meghatározott parancsok követhetik. Közülük a legelterjedtebb az irányelv „ Letiltás: " Ezzel a paranccsal megakadályozhatja, hogy a keresőrobot indexelje a teljes webes erőforrást vagy annak egy részét. Minden attól függ, hogy milyen kiterjesztése lesz ennek az irányelvnek. Nézzünk példákat:

Felhasználói ügynök: Yandex Disallow: /

Ez a fajta bejegyzés a robots.txt fájlban azt jelenti, hogy a Yandex keresőrobotja egyáltalán nem indexelheti ezt az oldalt, mivel a „/” tiltó jel önmagában áll, és nem kíséri semmilyen magyarázat.

User-agent: Yandex Disallow: /wp-admin

Amint látja, ezúttal pontosítások vannak, és ezek a rendszermappára vonatkoznak wp-admin V . Vagyis az indexelő robot ezzel a paranccsal (a benne megadott elérési úttal) megtagadja az egész mappa indexelését.

Felhasználói ügynök: Yandex Disallow: /wp-content/themes

A Yandex robotnak szóló ilyen utasítás feltételezi annak felvételét egy nagy kategóriába " wp-tartalom ", amelyben minden tartalmat indexelhet, kivéve a " témákat ».

Fedezze fel a robots.txt szöveges dokumentum „tiltott” lehetőségeit tovább:

User-agent: Yandex Disallow: /index$

Ebben a parancsban, amint az a példából következik, egy másik speciális „$” jelet használunk. Használata azt mondja a robotnak, hogy nem tudja indexelni azokat az oldalakat, amelyek linkjei tartalmazzák a betűsorozatot. index " Ugyanakkor index külön fájl azonos nevű webhely" index.php » a robot nem tiltott. Így a „$” szimbólumot akkor használjuk, ha szelektív megközelítésre van szükség az indexelés tiltásához.

Ezenkívül a robots.txt fájlban letilthatja a bizonyos karaktereket tartalmazó egyedi erőforrásoldalak indexelését. Így nézhet ki:

Felhasználói ügynök: Yandex Disallow: *&*

Ez a parancs arra utasítja a Yandex keresőrobotot, hogy ne indexelje azokat az oldalakat a webhelyen, amelyek URL-jei „&” karaktert tartalmaznak. Ezen túlmenően a linkben ennek a jelnek minden más szimbólum között kell megjelennie. Előfordulhat azonban más helyzet is:

Felhasználói ügynök: Yandex Disallow: *&

Itt az indexelési tilalom minden olyan oldalra vonatkozik, amelyek hivatkozásai „&”-ra végződnek.

Ha nem merülhet fel kérdés egy webhely rendszerfájljainak indexelésének tilalmával kapcsolatban, akkor ilyen kérdések merülhetnek fel az erőforrás egyes oldalainak indexelésének tilalmával kapcsolatban. Például miért van erre elvileg szükség? Egy tapasztalt webmesternek sok megfontolása lehet ezzel kapcsolatban, de a fő szempont az, hogy a keresés során meg kell szabadulnia az ismétlődő oldalaktól. A "Disallow:" parancs és csoport használata speciális karakterek, amit fentebb tárgyaltunk, a „nem kívánatos” oldalakat egészen egyszerűen kezelheti.

„Allow:” parancs – az indexelés engedélyezése a robots.txt fájlban

Az előző direktíva antipódjának tekinthető a „parancs Engedélyezés: " Ugyanazokat az egyértelműsítő elemeket használva, de ezzel a paranccsal a robots.txt fájlban engedélyezheti az indexelő robot számára, hogy beírja a szükséges webhelyelemeket a keresési adatbázisba. Ennek megerősítésére álljon itt egy másik példa:

Felhasználói ügynök: Yandex Engedélyezés: /wp-admin

A webmester valamiért meggondolta magát, és elvégezte a megfelelő módosításokat a robots.txt fájlban. Ennek következtében mostantól a mappa tartalma wp-admin A Yandex hivatalosan jóváhagyta az indexelést.

Annak ellenére, hogy az Allow: parancs létezik, a gyakorlatban nem túl gyakran használják. Általában nincs rá szükség, mivel automatikusan alkalmazzák. A webhely tulajdonosának csak a „Disallow:” direktívát kell használnia, amely megtiltja ennek vagy annak a tartalomnak az indexelését. Ezt követően az erőforrás minden egyéb, a robots.txt fájlban nem tiltott tartalmát a keresőrobot úgy érzékeli, mint amit indexelni lehet és kell. Minden úgy van, mint a jogtudományban: "Minden megengedett, amit nem tilt a törvény."

„Host:” és „Webhelytérkép:” direktívák

A robots.txt fontos direktíváinak áttekintését a " parancsok teszik teljessé Házigazda: "És" Webhelytérkép: " Ami az elsőt illeti, kizárólag a Yandex számára készült, jelezve, hogy melyik webhelytükör (www-vel vagy anélkül) tekinthető a főnek. Például egy webhely így nézhet ki:

Felhasználói ügynök: Yandex Host: webhely

Felhasználói ügynök: Yandex Host: www.site

Ezzel a paranccsal elkerülhető a webhely tartalmának szükségtelen megkettőzése is.

Ezzel szemben az irányelv „ Webhelytérkép: » jelzi az indexelő robotnak a helyes elérési utat az úgynevezett Site Map fájlokhoz sitemap.xml És sitemap.xml.gz (CMS WordPress esetén). Egy hipotetikus példa lehet:

Felhasználói ügynök: * Webhelytérkép: http://site/sitemap.xml Webhelytérkép: http://site/sitemap.xml.gz

Ha ezt a parancsot beírja a robots.txt fájlba, a keresőrobot gyorsabban indexeli a webhelytérképet. Ez viszont azt a folyamatot is felgyorsítja, hogy a webes forrásoldalak a keresési eredmények közé kerüljenek.

A robots.txt fájl készen áll – mi a következő lépés?

Tételezzük fel, hogy Ön, mint kezdő webmester, elsajátította a fent megadott információk teljes körét. Mi a teendő ezután? Teremt szöveges dokumentum robots.txt, figyelembe véve webhelye jellemzőit. Ehhez szüksége van:

kihasználni szövegszerkesztő(például Jegyzettömb) a szükséges robots.txt lefordításához;
ellenőrizze a létrehozott dokumentum helyességét, például ezzel a Yandex szolgáltatással;
FTP kliens segítségével töltsd fel a kész fájlt a webhelyed gyökérmappájába (WordPress esetén általában arról beszélünk, rendszermappa public_html).

Igen, majdnem elfelejtettük. Egy kezdő webmester kétségtelenül először meg szeretné nézni kész példák ezt a fájlt mások által előadva. Mi sem lehetne egyszerűbb. Ehhez csak írja be a böngésző címsorába site.ru/robots.txt . A „site.ru” helyett az Önt érdeklő erőforrás neve. Ez minden.

Jó kísérletezést és köszönöm, hogy elolvastad!

Helló! Volt egy időszak az életemben, amikor egyáltalán semmit sem tudtam a webhelyek létrehozásáról, és természetesen fogalmam sem volt a robots.txt fájl létezéséről.

Amikor egy egyszerű érdeklődésből komoly hobbi nőtt, megjelent az erő és a vágy, hogy minden bonyodalmat tanulmányozzon. A fórumokon sok témát találhat ehhez a fájlhoz, miért? Egyszerű: a robots.txt szabályozza a hozzáférést keresőmotorok az oldalhoz, az indexelés kezeléséhez, és ez nagyon fontos!

Robots.txt egy szöveges fájl, amelyet arra terveztek, hogy korlátozza a keresőrobotok hozzáférését a webhely azon részeihez és oldalaihoz, amelyeket ki kell zárni a feltérképezésből és a keresési eredményekből.

Miért kell elrejteni bizonyos webhelytartalmakat? Nem valószínű, hogy örülni fog, ha egy keresőrobot indexeli az oldaladminisztrációs fájlokat, amelyek jelszavakat vagy más érzékeny információkat tartalmazhatnak.

Különféle irányelvek szabályozzák a hozzáférést:

User-agent – felhasználói ügynök, amelyhez hozzáférési szabályok vannak megadva,
Disallow – megtagadja a hozzáférést az URL-hez,
Engedélyezés – hozzáférést biztosít az URL-hez,
Webhelytérkép – jelzi az elérési utat,
Feltérképezési késleltetés – beállítja az URL feltérképezési időközét (csak a Yandex esetében),
Clean-param – figyelmen kívül hagyja a dinamikus URL-paramétereket (csak a Yandex esetében),
Host - a webhely fő tükrét jelzi (csak a Yandex esetében).

Felhívjuk figyelmét, hogy 2018. március 20-tól a Yandex hivatalosan leállította a Host direktíva támogatását. Eltávolítható a robots.txt fájlból, és ha elhagyja, a robot egyszerűen figyelmen kívül hagyja.

A fájlnak a webhely gyökérkönyvtárában kell lennie. Ha a webhelynek vannak aldomainjei, akkor minden aldomainhez saját robots.txt kerül lefordításra.

Mindig emlékeznie kell a biztonságra. Ezt a fájlt bárki megtekintheti, így nem kell benne explicit módon megadni az adminisztrációs erőforrások (vezérlőpultok stb.) elérési útját. Ahogy mondani szokták, minél kevesebbet tudsz, annál jobban alszol. Ezért ha egy oldalra nincs link és nem akarod indexelni, akkor nem kell robotokban regisztrálni, úgysem találja meg senki, még a pókrobotok sem.

Amikor egy keresőrobot feltérképez egy webhelyet, először ellenőrzi a robots.txt fájl jelenlétét a webhelyen, majd követi az utasításait az oldalak feltérképezésekor.

Azonnal szeretném megjegyezni, hogy a keresőmotorok eltérően kezelik ezt a fájlt. Például a Yandex feltétel nélkül követi szabályait, és kizárja a tiltott oldalakat az indexelésből, míg a Google ezt a fájlt ajánlásnak tekinti, és semmi többnek.

Az oldalak indexelésének tiltására más módszereket is használhat:

átirányítás vagy egy könyvtárba a .htaccess fájl használatával,
noindex metatag (nem tévesztendő össze a a szöveg egy részének indexelésének megtiltása),
attribútum a hivatkozásokhoz, valamint a szükségtelen oldalakra mutató hivatkozások eltávolítása.

Ugyanakkor a Google minden korlátozás ellenére sikeresen felveheti a keresési eredmények közé azokat az oldalakat, amelyek indexelése tilos. Fő érve az, hogy ha egy oldalra hivatkoznak, akkor az megjelenhet a keresési eredmények között. Ebben az esetben nem ajánlatos ilyen oldalakat linkelni, de elnézést, a robots.txt fájl pontosan arra való, hogy az ilyen oldalakat kizárja a keresési eredmények közül... Szerintem semmi logika 🙄

Oldalak eltávolítása a keresésből

Ha a tiltott oldalak továbbra is indexelve voltak, akkor használnia kell Google Keresés A konzol és a hozzá tartozó URL-eltávolító eszköz:

Hasonló eszköz érhető el a Yandex Webmasterben. További információ az oldalak keresőmotor indexéből való eltávolításáról egy külön cikkben.

A robots.txt ellenőrzése

Folytatva a témát a Google-lal, használhat egy másik Search Console eszközt, és ellenőrizheti a robots.txt fájlt, hogy jól van-e lefordítva, hogy megakadályozza bizonyos oldalak indexelését:

Ehhez egyszerűen írja be a szövegmezőbe az ellenőrizni kívánt URL-eket, majd kattintson az Ellenőrzés gombra - az ellenőrzés eredményeként kiderül, hogy ennek az oldalnak tilos-e az indexelése, vagy a tartalma elérhető-e a keresőrobotok számára .

A Yandex is rendelkezik egy hasonló eszközzel a Webmesterben, az ellenőrzést hasonló módon hajtják végre:

Ha nem tudja, hogyan kell megfelelően létrehozni egy fájlt, egyszerűen hozzon létre egy üres szöveges dokumentumot a névvel robots.txt, és miközben tanulmányozza a CMS jellemzőit és a webhely szerkezetét, egészítse ki a szükséges utasításokkal.

A fájl megfelelő fordításával kapcsolatos információkért kövesse a hivatkozást. Viszlát!

Következetesen töltse ki az összes kötelező mezőt. Ahogy irányítja, látni fogja, hogy a Robots.txt tele van utasításokkal. Az alábbiakban részletesen leírjuk a Robots.txt fájlban található összes direktívát.

Zászló, másolatés illessze be a szöveget egy szövegszerkesztőbe. Mentse el a fájlt "robots.txt" néven webhelye gyökérkönyvtárába.

A robots.txt fájlformátum leírása

A robots.txt fájl bejegyzésekből áll, amelyek mindegyike két mezőből áll: egy sorból az ügyfélalkalmazás nevével (user-agent), és egy vagy több sorból, amelyek a Disallow direktívával kezdődnek:

Irányelv ":" jelentése

A Robots.txt fájlt Unix szövegformátumban kell létrehozni. A legtöbb jó szövegszerkesztő már tudja, hogyan kell átalakítani a fordítási karaktereket Windows karakterláncok Unixon. Vagy az FTP kliensnek képesnek kell lennie erre. A szerkesztéshez ne próbáljon meg HTML-szerkesztőt használni, különösen azt, amelyik nem rendelkezik szöveges mód kód megjelenítése.

Irányelv Felhasználói ügynök:

Rambler esetén: User-agent: StackRambler Yandex esetén: User-agent: Yandex Google esetén: User-Agent: googlebot

Az összes robothoz létrehozhat utasításokat:

User-agent: *

Irányelv Letiltás:

A bejegyzés második része a Disallow sorokból áll. Ezek a sorok direktívák (utasítások, parancsok) ehhez a robothoz. A User-agent sor által beírt minden csoportnak rendelkeznie kell legalább egy Disallow utasítással. A Disallow utasítások száma korlátlan. Megmondják a robotnak, hogy mely fájlokat és/vagy könyvtárakat nem indexelheti. Megakadályozhatja egy fájl vagy könyvtár indexelését.

A következő direktíva letiltja a /cgi-bin/ könyvtár indexelését:

Disallow: /cgi-bin/ Jegyezze meg a / jelet a könyvtárnév végén! A "/dir" könyvtár meglátogatásának tiltásához az utasításnak így kell kinéznie: "Disallow: /dir/" . A „Disallow: /dir” sor pedig tiltja az összes olyan szerveroldal felkeresését, amelyek teljes neve (a kiszolgáló gyökérkönyvtárából) „/dir”-vel kezdődik. Például: "/könyvtár.html", "/könyvtár/index.html", "/könyvtár.html".

A következőképpen írt direktíva tiltja a gyökérben található index.htm fájl indexelését:

Disallow: /index.htm

Irányelv Engedélyezze Csak a Yandex érti.

Felhasználói ügynök: Yandex Engedélyezés: /cgi-bin Disallow: / # tiltja a letöltést, kivéve a „/cgi-bin” karakterekkel kezdődő oldalakat. Más keresőmotorok esetében az összes lezárt dokumentumot listázni kell. Fontolja meg az oldal szerkezetét, hogy az indexelésre lezárt dokumentumokat lehetőség szerint egy helyre gyűjtsék.

Ha a Disallow direktíva üres, ez azt jelenti, hogy a robot MINDEN fájlt indexelhet. Minden User-agent mezőben legalább egy Disallow utasításnak jelen kell lennie ahhoz, hogy a robots.txt érvényes legyen. A teljesen üres robots.txt ugyanazt jelenti, mintha nem is létezne.

A Rambler robot a * bármilyen szimbólumot ért, ezért a Disallow: * utasítás a teljes webhely indexelésének tiltását jelenti.

Allow, Disallow direktívák paraméterek nélkül. Az Allow és Disallow direktívák paramétereinek hiánya a következőképpen értelmezhető: User-agent: Yandex Disallow: # ugyanaz, mint az Allow: / User-agent: Yandex Allow: # ugyanaz, mint a Disallow: /

"*" és "$" speciális karakterek használata.
Az Allow-Disallow direktívák elérési útjainak megadásakor használhatja a "*" és a "$" speciális karaktereket, így megadhat bizonyos reguláris kifejezések. A "*" speciális karakter bármely (beleértve az üres) karaktersorozatot is jelenti. Példák:

User-agent: Yandex Disallow: /cgi-bin/*.aspx # tiltja a "/cgi-bin/example.aspx" és a "/cgi-bin/private/test.aspx" Disallow: /*private # tiltja nem csak " /private", de a "/cgi-bin/private" is "$" speciális karakter.
Alapértelmezés szerint a „*” a robots.txt fájlban leírt minden szabály végéhez fűződik, például: User-agent: Yandex Disallow: /cgi-bin* # blokkolja a hozzáférést a „/cgi-bin” karakterrel kezdődő oldalakhoz Disallow : /cgi- bin # ugyanaz, a szabály végén lévő "*" törléséhez használhatja a "$" speciális karaktert, például: User-agent: Yandex Disallow: /example$ # tiltja "/ example", de nem tiltja meg a "/example.html" User -agent: Yandex Disallow: /example # letiltja mind a "/example" és a "/example.html" User-agent: Yandex Disallow: /example$ # csak tiltja " /example" Disallow: /example*$ # ugyanaz, mint a "Disallow: /example" letiltja mind a /example.html-t, mind a /example-t

Irányelv Házigazda.

Ha webhelyén vannak tükrök, egy speciális tükörrobot azonosítja azokat, és tükrök csoportját alkotja a webhely számára. Csak a fő tükör vesz részt a keresésben. Megadhatja a robots.txt fájlban a "Host" direktívával, paraméterként megadva a fő tükör nevét. A "Host" direktíva nem garantálja a megadott főtükör kiválasztását, azonban az algoritmus ezt kiemelten figyelembe veszi a döntés meghozatalakor. Példa: #Ha a www.glavnoye-zerkalo.ru a webhely fő tükre, akkor a #www.neglavnoye-zerkalo.ru robots.txt fájlja így néz ki User-Agent: * Disallow: /forum Disallow: /cgi-bin Host: www.glavnoye -zerkalo.ru Azokkal a robotokkal való kompatibilitás érdekében, amelyek a robots.txt feldolgozása során nem teljesen követik a szabványt, a "Host" direktívát hozzá kell adni a "User-Agent" bejegyzéssel kezdődő csoporthoz, közvetlenül a "Disallow" ("Engedélyezés") direktívák . A "Host" direktíva argumentuma egy tartománynév, amelyet egy portszám követ (alapértelmezés szerint 80), kettősponttal elválasztva. A Host direktíva paraméterének egy érvényes gazdagépnévből (azaz olyanból, amely megfelel az RFC 952-nek, és nem IP-cím) és egy érvényes portszámból kell állnia. A helytelenül összeállított „Host:” sorokat figyelmen kívül hagyja.

Példák figyelmen kívül hagyott gazdagép direktívákra:

Gazda: www.myhost-.ru Gazda: www.-myhost.ru Gazda: www.myhost.ru:100000 Gazda: www.my_host.ru Gazda: .my-host.ru:8000 Gazda: my-host.ru. Gazda: my..host.ru Gazdagép: www.myhost.ru/ Gazda: www.myhost.ru:8080/ Gazda: 213.180.194.129 Gazda: www.firsthost.ru,www.secondhost.ru # egy sorban - egy domain! Házigazda: www.firsthost.ru www.secondhost.ru # egy sorban - egy domain!! Host: crew-communication.rf # punycode használatára van szükség

Irányelv Feltérképezés-késleltetés

Beállítja azt az időtúllépést másodpercben, amellyel a keresőrobot letölti az oldalakat a szerverről (Feltérképezési késleltetés).

Ha a kiszolgáló erősen le van terhelve, és nincs ideje a letöltési kérelmek feldolgozására, használja a „Crawl-delay” direktívát. Lehetővé teszi, hogy a keresőrobotnak egy minimális időtartamot (másodpercben) állítson be az egyik oldal letöltésének vége és a következő letöltésének kezdete között. Azokkal a robotokkal való kompatibilitás érdekében, amelyek a robots.txt feldolgozása során nem követik teljes mértékben a szabványt, a "Crawl-delay" direktívát hozzá kell adni a "User-Agent" bejegyzéssel kezdődő csoporthoz, közvetlenül a "Disallow" ("Allow") után. ) irányelveket.

A Yandex keresőrobotja támogatja a töredékes feltérképezési késleltetési értékeket, például a 0,5-öt. Ez nem garantálja, hogy a keresőrobot fél másodpercenként felkeresi az oldalát, de nagyobb szabadságot ad a robotnak, és gyorsabban bejárja az oldalt.

User-agent: Yandex feltérképezési késleltetés: 2 # az időtúllépést 2 másodpercre állítja User-agent: * Disallow: /search Feltérképezési késleltetés: 4,5 # az időtúllépést 4,5 másodpercre állítja

Irányelv Clean-param

Irányelv a paraméterek címsorból való kizárására. azok. az ilyen paramétert tartalmazó és azokat nem tartalmazó kérések azonosnak minősülnek.

Üres sorok és megjegyzések

Üres sorok megengedettek a User-agent által beírt utasításcsoportok között.

A Disallow utasítás csak akkor kerül figyelembevételre, ha alárendeltje bármely User-agent sornak – vagyis ha van felette User-agent sor.

A „#” hash jeltől a sor végéig tartó minden szöveg megjegyzésnek minősül, és figyelmen kívül hagyja.

Példa:

Következő egyszerű fájl robots.txt tiltja, hogy minden robot indexelje a webhely összes oldalát, kivéve a Rambler robotot, amely éppen ellenkezőleg, jogosult a webhely összes oldalának indexelésére.

# Utasítások minden robothoz User-agent: * Disallow: / # Utasítások a Rambler robothoz User-agent: StackRambler Disallow:

Gyakori hibák:

Invertált szintaxis: User-agent: / Disallow: StackRambler És így kell lennie: User-agent: StackRambler Disallow: / Több Disallow direktíva egy sorban: Disallow: /css/ /cgi-bin/ /images/ Helyesen így: Disallow: / css/ Disallow: /cgi-bin/ Disallow: /images/

Megjegyzések:

Elfogadhatatlan, hogy üres sortörések legyenek a "User-agent" és a "Disallow" ("Allow") direktívák, valamint maguk a "Disallow" ("Allow") direktívák között.
A szabvány szerint minden "User-agent" direktíva elé ajánlatos egy üres sort beszúrni.

Mindent a mobiltechnológiáról