რობოტების txt მაგალითი Yandex-ისთვის. რეკომენდაციები robots txt ფაილის დაყენებისთვის. "მასპინძელი:" და "საიტის რუკა:" დირექტივები

სწრაფი ნავიგაცია ამ გვერდზე:

თანამედროვე რეალობა ისაა, რომ RuNet-ში არც ერთ თავმოყვარე საიტს არ შეუძლია ფაილის გარეშე, სახელწოდებით robots.txt - მაშინაც კი, თუ ინდექსირებას არაფერი აკრძალავთ (თუმცა თითქმის ყველა საიტს აქვს ტექნიკური გვერდები და დუბლიკატი კონტენტი, რომელიც მოითხოვს ინდექსაციისგან დახურვას. ), შემდეგ მინიმუმ, ნამდვილად ღირს დირექტივის დარეგისტრირება www და www-ის გარეშე Yandex-ისთვის - სწორედ ამისთვისაა robots.txt-ის დაწერის წესები, რომლებიც ქვემოთ იქნება განხილული.

რა არის robots.txt?

ამ სახელწოდების ფაილი 1994 წლით თარიღდება, როდესაც W3C კონსორციუმმა გადაწყვიტა შემოეღო ასეთი სტანდარტი, რათა საიტებმა საძიებო სისტემებს მიაწოდონ ინდექსირების ინსტრუქციები.

ამ სახელის ფაილი უნდა იყოს შენახული საიტის ძირეულ დირექტორიაში მისი განთავსება სხვა საქაღალდეებში დაუშვებელია.

ფაილი ასრულებს შემდეგ ფუნქციებს:

კრძალავს ნებისმიერი გვერდის ან გვერდის ჯგუფის ინდექსირებას
საშუალებას აძლევს ნებისმიერი გვერდის ან გვერდების ჯგუფის ინდექსირებას
მიუთითებს Yandex რობოტს, რომელი საიტის სარკეა მთავარი (www ან www-ის გარეშე)
აჩვენებს საიტის რუქის ფაილის ადგილმდებარეობას

ამისთვის ოთხივე ქულა ძალიან მნიშვნელოვანია საძიებო სისტემის ოპტიმიზაციასაიტი. ინდექსირების აკრძალვა საშუალებას გაძლევთ დაბლოკოთ გვერდების ინდექსირება, რომლებიც შეიცავს დუბლიკატ კონტენტს - მაგალითად, თეგის გვერდები, არქივები, ძიების შედეგები, გვერდები დასაბეჭდი ვერსიებით და ა.შ. დუბლიკატი შინაარსის არსებობა (როდესაც ერთი და იგივე ტექსტი, თუნდაც რამდენიმე წინადადების ზომით, წარმოდგენილია ორ ან მეტ გვერდზე) საიტის მინუსია საძიებო სისტემების რეიტინგში, ამიტომ უნდა იყოს რაც შეიძლება ნაკლები დუბლიკატი.

დაშვების დირექტივას დამოუკიდებელი მნიშვნელობა არ აქვს, რადგან ნაგულისხმევად ყველა გვერდი უკვე ხელმისაწვდომია ინდექსაციისთვის. ის მუშაობს აკრძალვასთან ერთად - როდესაც, მაგალითად, გარკვეული კატეგორია მთლიანად დახურულია საძიებო სისტემებისგან, მაგრამ გსურთ გახსნათ ეს ან მასში ცალკე გვერდი.

საიტის მთავარ სარკეზე მითითება ასევე ოპტიმიზაციის ერთ-ერთი ყველაზე მნიშვნელოვანი ელემენტია: საძიებო სისტემები საიტებს www.yoursite.ru და yoursite.ru უყურებენ, როგორც ორ განსხვავებულ რესურსს, თუ მათ პირდაპირ არ ეტყვით სხვას. შედეგი არის შინაარსის გაორმაგება - დუბლიკატების გამოჩენა, გარე ბმულების სიძლიერის დაქვეითება (გარე ბმულების განთავსება შესაძლებელია როგორც www, ასევე www-ის გარეშე) და შედეგად, ამან შეიძლება გამოიწვიოს ძიების შედეგებში დაბალ რეიტინგში.

Google-ისთვის მთავარი სარკე რეგისტრირებულია Webmaster-ის ინსტრუმენტებში (http://www.google.ru/webmasters/), მაგრამ Yandex-ისთვის ეს ინსტრუქციები შეიძლება დარეგისტრირდეს მხოლოდ იმავე robots.tkht-ში.

xml ფაილზე მითითება საიტის რუქით (მაგალითად, sitemap.xml) საძიებო სისტემებს საშუალებას აძლევს აღმოაჩინონ ეს ფაილი.

მომხმარებლის აგენტის მითითების წესები

მომხმარებლის აგენტი ამ შემთხვევაში არის საძიებო სისტემა. ინსტრუქციების წერისას, თქვენ უნდა მიუთითოთ, ვრცელდება თუ არა ისინი ყველა საძიებო სისტემაზე (ამ შემთხვევაში მითითებულია ვარსკვლავი - *) ან არის თუ არა ისინი განკუთვნილი კონკრეტული საძიებო სისტემისთვის - მაგალითად, Yandex ან Google.

იმისათვის, რომ დააყენოთ მომხმარებლის აგენტი, რომელიც მიუთითებს ყველა რობოტს, ჩაწერეთ შემდეგი ხაზი თქვენს ფაილში:

მომხმარებლის აგენტი: *

Yandex-ისთვის:

მომხმარებლის აგენტი: Yandex

Google-ისთვის:

მომხმარებლის აგენტი: GoogleBot

აკრძალვისა და დაშვების მითითების წესები

პირველ რიგში, უნდა აღინიშნოს, რომ robots.txt ფაილი უნდა შეიცავდეს მინიმუმ ერთ აკრძალვის დირექტივას, რომ იყოს მოქმედი. ახლა მოდით შევხედოთ ამ დირექტივების გამოყენებას კონკრეტული მაგალითების გამოყენებით.

ამ კოდის გამოყენებით, თქვენ ნებადართულია საიტის ყველა გვერდის ინდექსირება:

მომხმარებლის აგენტი: * აკრძალვა:

და ამ კოდით, პირიქით, ყველა გვერდი დაიხურება:

მომხმარებლის აგენტი: * აკრძალვა: /

იმისათვის, რომ აკრძალოთ კონკრეტული დირექტორია, სახელწოდებით საქაღალდე, მიუთითეთ:

მომხმარებლის აგენტი: * აკრძალვა: /საქაღალდე

თქვენ ასევე შეგიძლიათ გამოიყენოთ ვარსკვლავი, რომ შეცვალოთ თვითნებური სახელი:

მომხმარებლის აგენტი: * არ დაუშვას: *.php

მნიშვნელოვანია: ვარსკვლავი ცვლის ფაილის მთელ სახელს, ანუ თქვენ არ შეგიძლიათ მიუთითოთ file*.php, მხოლოდ *.php (მაგრამ ყველა გვერდი .php გაფართოებით აკრძალული იქნება; ამის თავიდან ასაცილებლად შეგიძლიათ მიუთითოთ კონკრეტული გვერდის მისამართი) .

დაშვების დირექტივა, როგორც ზემოთ აღინიშნა, გამოიყენება გამონაკლისების შესაქმნელად disllow-ში (წინააღმდეგ შემთხვევაში მას მნიშვნელობა არ აქვს, რადგან გვერდები უკვე ღიაა ნაგულისხმევად).

მაგალითად, ჩვენ ავკრძალავთ საარქივო საქაღალდის გვერდების ინდექსირებას, მაგრამ ამ დირექტორიაში index.html გვერდს ღია დავტოვებთ:

დაშვება: /archive/index.html აკრძალვა: /archive/

მიუთითეთ ჰოსტი და საიტის რუკა

ჰოსტი არის საიტის მთავარი სარკე (ანუ დომენის სახელი პლუს www ან დომენის სახელი ამ პრეფიქსის გარეშე). ჰოსტი მითითებულია მხოლოდ Yandex რობოტისთვის (ამ შემთხვევაში უნდა არსებობდეს მინიმუმ ერთი აკრძალვის ბრძანება).

ჰოსტის დასაზუსტებლად, robots.txt უნდა შეიცავდეს შემდეგ ჩანაწერს:

მომხმარებლის აგენტი: Yandex Disallow: მასპინძელი: www.yoursite.ru

რაც შეეხება საიტის რუქას, robots.txt-ში საიტის რუკა მითითებულია მხოლოდ შესაბამისი ფაილის სრული ბილიკის ჩაწერით, დომენის სახელის მითითებით:

საიტის რუკა: http://yoursite.ru/sitemap.xml

წერია, თუ როგორ უნდა გააკეთოთ საიტის რუკა WordPress-ისთვის.

მაგალითი robots.txt WordPress-ისთვის

WordPress-ისთვის ინსტრუქციები უნდა იყოს მითითებული ისე, რომ დაიხუროს ყველა ტექნიკური დირექტორია (wp-admin, wp-includes და ა.შ.) ინდექსაციისთვის, ასევე დუბლიკატი გვერდები, რომლებიც შექმნილია ტეგებით, RSS ფაილებით, კომენტარებითა და ძიებით.

როგორც robots.txt-ის მაგალითი wordpress-ისთვის, შეგიძლიათ აიღოთ ფაილი ჩვენი ვებსაიტიდან:

მომხმარებლის აგენტი: Yandex-ის აკრძალვა: /wp-admin არ დაუშვას: /wp-includes არ დაუშვას: /wp-login.php არ დაუშვას: /wp-register.php არ დაუშვას: /xmlrpc.php არ დაუშვას: /search არ დაუშვას: */trackback არ დაუშვას: */feed/ აკრძალვა: */feed აკრძალვა: */კომენტარები/ დაუშვებელი: /?feed= აკრძალვა: /?s= აკრძალვა: */page/* აკრძალვა: */კომენტარის აკრძალვა: */tag/* აკრძალვა: */ დანართი/* დაშვება: /wp-content/uploads/ მასპინძელი: www..php აკრძალვა: /wp-register.php აკრძალვა: /xmlrpc.php აკრძალვა: /search აკრძალვა: */trackback აკრძალვა: */feed/ აკრძალვა: * /feed აკრძალვა: */კომენტარები/ დაშვება: /?feed= აკრძალვა: /?s= აკრძალვა: */გვერდი/* აკრძალვა: */კომენტარის აკრძალვა: */tag/* აკრძალვა: */დანართი/* დაშვება: /wp -კონტენტი/ატვირთვები/ მომხმარებლის აგენტი: * აკრძალვა: /wp-admin აკრძალვა: /wp- მოიცავს აკრძალვა: /wp-login.php აკრძალვა: /wp-register.php აკრძალვა: /xmlrpc.php აკრძალვა: /ძებნა არ დაუშვას: */trackback აკრძალვა: */feed/ აკრძალვა: */feed აკრძალვა: */კომენტარები/ არ დაუშვას: /?feed= აკრძალვა: /?s= აკრძალვა: */page/* აკრძალვა: */კომენტარის აკრძალვა: */tag/ * აკრძალვა: */attachment/* დაშვება: /wp-content/uploads/ საიტის რუკა: https://www..xml

შეგიძლიათ ჩამოტვირთოთ robots.txt ფაილი ჩვენი ვებსაიტიდან .

თუ ამ სტატიის წაკითხვის შემდეგ კვლავ გაქვთ შეკითხვები, დასვით კომენტარებში!

1) რა არის საძიებო რობოტი?
2) რა არის robots.txt?
3) როგორ შევქმნათ robots.txt?
4) რა და რატომ შეიძლება ჩაიწეროს ამ ფაილში?
5) რობოტების სახელების მაგალითები
6) დასრულებული robots.txt-ის მაგალითი
7) როგორ შემიძლია შევამოწმო მუშაობს თუ არა ჩემი ფაილი?

1. რა არის საძიებო რობოტი?

რობოტი (ინგლისური მცოცავი)ინახავს URL-ების სიას, რომელთა ინდექსირებაც შეუძლია და რეგულარულად ჩამოტვირთავს მათ შესაბამის დოკუმენტებს. თუ რობოტი აღმოაჩენს ახალ ბმულს დოკუმენტის ანალიზისას, ის ამატებს მას სიაში. ამრიგად, ნებისმიერი დოკუმენტი ან საიტი, რომელსაც აქვს ბმულები, შეგიძლიათ იპოვოთ რობოტი და, შესაბამისად, Yandex ძიების საშუალებით.

2. რა არის robots.txt?

საძიებო რობოტები ჯერ ეძებენ robots.txt ფაილს ვებსაიტებზე. თუ თქვენს საიტზე გაქვთ დირექტორიები, შიგთავსი და ა.შ., რომლებიც, მაგალითად, გსურთ დამალოთ ინდექსაციისგან (საძიებო სისტემამ არ მოგვაწოდა ინფორმაცია მათ შესახებ. მაგალითად: ადმინისტრაციული პანელი, გვერდის სხვა პანელები), მაშინ ფრთხილად უნდა იყოთ. შეისწავლეთ ამ ფაილთან მუშაობის ინსტრუქცია.

robots.txt- ეს ტექსტური ფაილი(.txt), რომელიც მდებარეობს თქვენი საიტის ძირში (root დირექტორიაში). ის შეიცავს ინსტრუქციებს საძიებო რობოტებისთვის. ამ ინსტრუქციებმა შეიძლება აიკრძალოს საიტზე გარკვეული სექციების ან გვერდების ინდექსირება, მიუთითოს დომენის სწორი „სარკეირება“, რეკომენდაცია გაუწიოს საძიებო რობოტს დაიცვან გარკვეული დროის ინტერვალი სერვერიდან დოკუმენტების ჩამოტვირთვას შორის და ა.შ.

3. როგორ შევქმნათ robots.txt?

robots.txt-ის შექმნა ძალიან მარტივია. ჩვენ მივდივართ ჩვეულებრივ ტექსტურ რედაქტორზე (ან მაუსის მარჯვენა ღილაკზე - შექმნა - ტექსტური დოკუმენტი), მაგალითად, Notepad. შემდეგ შექმენით ტექსტური ფაილი და დაარქვით მას robots.txt.

4. რა და რატომ შეიძლება ჩაიწეროს robots.txt ფაილში?

სანამ საძიებო სისტემას დააკონკრეტებთ ბრძანებას, თქვენ უნდა გადაწყვიტოთ რომელ ბოტზე იქნება ის მიმართული. ამისათვის არის ბრძანება მომხმარებელი-აგენტი
ქვემოთ მოცემულია მაგალითები:

მომხმარებლის აგენტი: * # ამ სტრიქონის შემდეგ დაწერილი ბრძანება მიემართება ყველა საძიებო რობოტს
მომხმარებლის აგენტი: YandexBot # წვდომა Yandex-ის მთავარ ინდექსირების რობოტზე
მომხმარებლის აგენტი: Googlebot # წვდომა Google-ის მთავარ ინდექსირების რობოტზე

ინდექსირების დაშვება და გამორთვა
ინდექსირების ჩართვისა და გამორთვისთვის არის ორი შესაბამისი ბრძანება - დაშვება(შესაძლებელია) და აკრძალვა(აკრძალულია).

მომხმარებლის აგენტი: *
აკრძალვა: /adminka/ # კრძალავს ყველა რობოტს ადმინკა დირექტორიას ინდექსირებას, რომელიც სავარაუდოდ შეიცავს ადმინისტრაციულ პანელს

მომხმარებლის აგენტი: YandexBot # ქვემოთ მოცემული ბრძანება მიემართება Yandex-ს
აკრძალვა: / # ჩვენ კრძალავს Yandex რობოტის მიერ მთელი საიტის ინდექსირებას

მომხმარებლის აგენტი: Googlebot # ქვემოთ მოცემული ბრძანება დაურეკავს Google-ს
დაშვება: /images # იძლევა სურათების დირექტორიაში ყველა შიგთავსის ინდექსირების საშუალებას
აკრძალვა: / # და სხვა ყველაფერი აკრძალულია

შეკვეთას მნიშვნელობა არ აქვს

მომხმარებლის აგენტი: *
დაშვება: / images
აკრძალვა:/

მომხმარებლის აგენტი: *
აკრძალვა:/
დაშვება: / images
# ორივეს აქვს ფაილების ინდექსირების უფლება
# დაწყებული "/images"-ით

საიტის რუქის დირექტივა
ეს ბრძანება განსაზღვრავს თქვენი საიტის რუქის მისამართს:

საიტის რუკა: http://yoursite.ru/structure/my_sitemaps.xml # მიუთითებს საიტის რუკის მისამართს

მასპინძლის დირექტივა
ეს ბრძანება ჩასმულია თქვენი ფაილის ბოლოს და აღნიშნავს მთავარ სარკეს
1) იწერება თქვენი ფაილის ბოლოს
2) მითითებულია მხოლოდ ერთხელ. წინააღმდეგ შემთხვევაში მიიღება მხოლოდ პირველი ხაზი
3) მითითებულია დაშვების ან აკრძალვის შემდეგ

მასპინძელი: www.yoursite.ru თქვენი საიტის # სარკე

#თუ www.yoursite.ru საიტის მთავარი სარკეა, მაშინ
#robots.txt ყველა სარკისებური საიტისთვის ასე გამოიყურება
მომხმარებლის აგენტი: *
აკრძალვა: / images
აკრძალვა: / მოიცავს
მასპინძელი: www.yoursite.ru

# ნაგულისხმევად Google უგულებელყოფს მასპინძელს, თქვენ უნდა გააკეთოთ ეს
მომხმარებლის აგენტი: * # ინდექსში ყველა
აკრძალვა: /admin/ # Disallow admin index
მასპინძელი: www.mainsite.ru # მიუთითეთ მთავარი სარკე
მომხმარებლის აგენტი: Googlebot # now ბრძანებებს Google-ისთვის
არ დაუშვას: /admin/ # აკრძალვა Google-ისთვის

5. რობოტების სახელების მაგალითები

Yandex რობოტები
Yandex-ს აქვს რამდენიმე ტიპის რობოტი, რომლებიც აგვარებენ მრავალფეროვან პრობლემებს: ერთი პასუხისმგებელია სურათების ინდექსირებაზე, სხვები პასუხისმგებელნი არიან RSS მონაცემების ინდექსირებაზე ბლოგებზე მონაცემების შესაგროვებლად და სხვები პასუხისმგებელნი არიან მულტიმედიურ მონაცემებზე. ყველაზე მნიშვნელოვანი ის არის YandexBot, ის ახდენს საიტის ინდექსირებას, რათა შეადგინოს საიტის ზოგადი მონაცემთა ბაზა (სათაურები, ლინკები, ტექსტი და ა.შ.). ასევე არის რობოტი სწრაფი ინდექსაციისთვის (ახალი ამბების ინდექსირება და ა.შ.).

YandexBot-- მთავარი ინდექსირების რობოტი;
YandexMedia-- რობოტი, რომელიც ახდენს მულტიმედიური მონაცემების ინდექსირებას;
YandexImages-- Yandex.Images ინდექსატორი;
YandexCatalog-- Yandex.Catalog-ის „დაკვრა“, რომელიც გამოიყენება კატალოგში მიუწვდომელი საიტების გამოქვეყნებიდან დროებით ამოსაღებად;
YandexDirect-- Yandex.Direct რობოტი, განმარტავს robots.txt-ს სპეციალური გზით;
YandexBlogs-- ბლოგის საძიებო რობოტი, რომელიც ახდენს პოსტებისა და კომენტარების ინდექსირებას;
YandexNews-- Yandex.News რობოტი;
YandexPagechecker-- მიკრო მარკირების ვალიდატორი;
YandexMetrika-- Yandex.Metrica რობოტი;
YandexMarket-- Yandex.Market რობოტი;
YandexCalendar-- Yandex.Calendar რობოტი.

6. მზა რობოტების მაგალითი.txt

რეალურად მივედით მზა ფაილის მაგალითამდე. იმედი მაქვს ზემოთ მოყვანილი მაგალითების შემდეგ ყველაფერი გასაგები იქნება თქვენთვის.

მომხმარებლის აგენტი: *
აკრძალვა: /admin/
აკრძალვა: /ქეში/
აკრძალვა: /კომპონენტები/

მომხმარებლის აგენტი: Yandex
აკრძალვა: /admin/
აკრძალვა: /ქეში/
აკრძალვა: /კომპონენტები/
აკრძალვა: /images/
აკრძალვა: / მოიცავს /

საიტის რუკა: http://yoursite.ru/structure/my_sitemaps.xml

ეს არის ტექსტური ფაილი (დოკუმენტი .txt ფორმატში), რომელიც შეიცავს მკაფიო ინსტრუქციებს კონკრეტული საიტის ინდექსაციისთვის. სხვა სიტყვებით რომ ვთქვათ, ეს ფაილი მიუთითებს საძიებო სისტემებზე, ვებ რესურსის რომელი გვერდების ინდექსირებაა საჭირო და რომელი არა – აეკრძალოს ინდექსირება.

როგორც ჩანს, რატომ იკრძალება ზოგიერთი საიტის შინაარსის ინდექსირება? ისინი ამბობენ, რომ საძიებო რობოტმა მოახდინოს ყველაფრის ინდექსირება განურჩევლად, ხელმძღვანელობს პრინციპით: რაც მეტი გვერდი, მით უკეთესი! მხოლოდ მოყვარულ აღმასრულებელ დირექტორს შეუძლია ასე მსჯელობა.

საძიებო რობოტებს არ სჭირდებათ მთელი შინაარსი, რომელიც ქმნის ვებსაიტს. არის სისტემის ფაილები, არის დუბლიკატი გვერდები, არის კატეგორიები საკვანძო სიტყვებიდა კიდევ ბევრია, რაც სულაც არ სჭირდება ინდექსირებას. წინააღმდეგ შემთხვევაში, არ არის გამორიცხული შემდეგი სიტუაცია.

როდესაც საძიებო რობოტი თქვენს საიტზე მოდის, პირველი, რასაც ის აკეთებს, არის ცნობილი robots.txt-ის პოვნა. თუ ეს ფაილი მის მიერ არ არის აღმოჩენილი ან აღმოჩენილია, მაგრამ ის არასწორად არის შედგენილი (აუცილებელი აკრძალვების გარეშე), საძიებო სისტემა „მესენჯერი“ იწყებს საიტის შესწავლას საკუთარი შეხედულებისამებრ.

ასეთი სწავლის პროცესში ის ყველაფერს ინდექსირებს და შორს არის ფაქტისგან, რომ ის იწყებს იმ გვერდებს, რომლებიც ჯერ ძიებაში უნდა შევიდეს (ახალი სტატიები, მიმოხილვები, ფოტორეპორტაჟები და ა.შ.). ბუნებრივია, ამ შემთხვევაში, ახალი საიტის ინდექსირებას შეიძლება გარკვეული დრო დასჭირდეს.

ასეთი შეუსაბამო ბედის თავიდან ასაცილებლად, ვებმასტერმა უნდა იზრუნოს შექმნაზე სწორი ფაილი robots.txt.

„მომხმარებლის აგენტი:“ არის robots.txt-ის მთავარი დირექტივა

პრაქტიკაში, დირექტივები (ბრძანებები) იწერება robots.txt-ში სპეციალური ტერმინების გამოყენებით, რომელთაგან მთავარი შეიძლება ჩაითვალოს დირექტივაში. მომხმარებლის აგენტი: " ეს უკანასკნელი გამოიყენება საძიებო რობოტის დასაზუსტებლად, რომელსაც მომავალში გარკვეული ინსტრუქციები მიეცემა. მაგალითად:

მომხმარებლის აგენტი: Googlebot– ყველა ბრძანება, რომელიც მიჰყვება ამ ძირითად დირექტივას, ეხება ექსკლუზიურად Google-ის საძიებო სისტემას (მისი ინდექსირების რობოტს);
მომხმარებლის აგენტი: Yandex– ადრესატი ამ შემთხვევაში არის შიდა საძიებო სისტემა Yandex.

robots.txt ფაილი შეიძლება გამოყენებულ იქნას ყველა სხვა საძიებო სისტემებთან ერთად. ბრძანება ამ შემთხვევაში ასე გამოიყურება: მომხმარებლის აგენტი: *. სპეციალური სიმბოლო "*" ჩვეულებრივ ნიშნავს "ნებისმიერ ტექსტს". ჩვენს შემთხვევაში, Yandex-ის გარდა ნებისმიერი საძიებო სისტემა. Google, სხვათა შორის, ასევე იღებს ამ დირექტივას პირადად, თუ თქვენ არ დაუკავშირდებით მას პირადად.

ბრძანება "Disallow:" - კრძალავს ინდექსირებას robots.txt-ში

მთავარი "მომხმარებლის აგენტი:" დირექტივა, რომელიც მიმართულია საძიებო სისტემებში, შეიძლება მოჰყვეს სპეციფიკურ ბრძანებებს. მათ შორის ყველაზე გავრცელებულია დირექტივა ” აკრძალვა: " ამ ბრძანების გამოყენებით, თქვენ შეგიძლიათ თავიდან აიცილოთ საძიებო რობოტი მთელი ვებ რესურსის ან მისი ნაწილის ინდექსირებაში. ეს ყველაფერი დამოკიდებულია იმაზე, თუ რა გაფართოება ექნება ამ დირექტივას. მოდით შევხედოთ მაგალითებს:

მომხმარებლის აგენტი: Yandex Disallow: /

robots.txt ფაილში ამგვარი ჩანაწერი ნიშნავს, რომ Yandex-ის საძიებო რობოტს საერთოდ არ აქვს ამ საიტის ინდექსირების უფლება, რადგან ამკრძალავი ნიშანი "/" ცალკე დგას და არ ახლავს რაიმე განმარტება.

მომხმარებლის აგენტი: Yandex Disallow: /wp-admin

როგორც ხედავთ, ამჯერად არის განმარტებები და ეს ეხება სისტემის საქაღალდეს wp-admin ვ . ანუ, ინდექსატორი რობოტი, ამ ბრძანების გამოყენებით (მასში მითითებული გზა), უარს იტყვის მთელი ამ საქაღალდის ინდექსირებაზე.

მომხმარებლის აგენტი: Yandex არ დაუშვას: /wp-content/themes

Yandex რობოტისადმი ასეთი ინსტრუქცია გულისხმობს მის მიღებას დიდ კატეგორიაში. wp-content ", რომელშიც მას შეუძლია ყველა შინაარსის ინდექსირება, გარდა " თემები ».

მოდით გამოვიკვლიოთ ტექსტური დოკუმენტის robots.txt-ის „აკრძალული“ შესაძლებლობები შემდგომში:

მომხმარებლის აგენტი: Yandex არ დაუშვას: /index$

ამ ბრძანებაში, როგორც მაგალითიდან ჩანს, გამოიყენება კიდევ ერთი სპეციალური ნიშანი "$". მისი გამოყენება ეუბნება რობოტს, რომ მას არ შეუძლია იმ გვერდების ინდექსირება, რომელთა ბმულები შეიცავს ასოების თანმიმდევრობას. ინდექსი " ამავე დროს, ინდექსი ცალკე ფაილისაიტი ამავე სახელწოდებით " index.php » რობოტი არ არის აკრძალული. ამრიგად, "$" სიმბოლო გამოიყენება, როდესაც საჭიროა შერჩევითი მიდგომა ინდექსირების აკრძალვისთვის.

ასევე, robots.txt ფაილში შეგიძლიათ აიკრძალოთ ცალკეული რესურსების გვერდების ინდექსირება, რომლებიც შეიცავს გარკვეულ სიმბოლოებს. შეიძლება ასე გამოიყურებოდეს:

მომხმარებლის აგენტი: Yandex არ დაუშვას: *&*

ეს ბრძანება ეუბნება Yandex-ის საძიებო რობოტს, არ მოახდინოს ყველა იმ გვერდის ინდექსირება ვებსაიტზე, რომლის URL-ები შეიცავს "&" სიმბოლოს. უფრო მეტიც, ბმულში ეს ნიშანი უნდა გამოჩნდეს ნებისმიერ სხვა სიმბოლოს შორის. თუმცა, შეიძლება იყოს სხვა სიტუაცია:

მომხმარებლის აგენტი: Yandex არ დაუშვას: *&

აქ ინდექსირების აკრძალვა ვრცელდება ყველა იმ გვერდზე, რომელთა ბმულები მთავრდება „&“-ით.

თუ არ უნდა იყოს შეკითხვები საიტის სისტემური ფაილების ინდექსირების აკრძალვის შესახებ, მაშინ ასეთი კითხვები შეიძლება წარმოიშვას რესურსის ცალკეული გვერდების ინდექსირების აკრძალვასთან დაკავშირებით. მაგალითად, რატომ არის ეს აუცილებელი პრინციპში? გამოცდილ ვებმასტერს შეიძლება ბევრი მოსაზრება ჰქონდეს ამ კუთხით, მაგრამ მთავარია ძიებაში დუბლიკატი გვერდების მოშორების აუცილებლობა. "Disallow:" ბრძანებისა და ჯგუფის გამოყენებით სპეციალური პერსონაჟებიზემოთ განხილული, თქვენ შეგიძლიათ მარტივად გაუმკლავდეთ "არასასურველ" გვერდებს.

ბრძანება "Allow:" - საშუალებას აძლევს ინდექსირებას robots.txt-ში

წინა დირექტივის ანტიპოდად შეიძლება ჩაითვალოს ბრძანება " დაშვება: " იგივე გამწმენდი ელემენტების გამოყენებით, მაგრამ ამ ბრძანების გამოყენებით robots.txt ფაილში, შეგიძლიათ ინდექსირების რობოტს ნება დართოთ შეიყვანოს საიტის საჭირო ელემენტები საძიებო ბაზაში. ამის დასადასტურებლად, აქ არის კიდევ ერთი მაგალითი:

მომხმარებლის აგენტი: Yandex Allow: /wp-admin

რატომღაც, ვებმასტერმა გადაიფიქრა და შესაბამისი კორექტირება მოახდინა robots.txt-ში. შედეგად, ამიერიდან საქაღალდის შინაარსი wp-admin ოფიციალურად დამტკიცებულია Yandex-ის ინდექსაციისთვის.

მიუხედავად იმისა, რომ ნება: ბრძანება არსებობს, ის პრაქტიკაში არც თუ ისე ხშირად გამოიყენება. ზოგადად, ამის საჭიროება არ არის, რადგან ის ავტომატურად გამოიყენება. საიტის მფლობელმა უბრალოდ უნდა გამოიყენოს დირექტივა "Disallow:" რომელიც კრძალავს ამა თუ იმ შინაარსის ინდექსირებას. ამის შემდეგ, რესურსის ყველა სხვა შინაარსი, რომელიც არ არის აკრძალული robots.txt ფაილში, საძიებო რობოტის მიერ აღიქმება, როგორც ის, რაც შეიძლება და უნდა იყოს ინდექსირებული. ყველაფერი იურისპრუდენციაშია: „ყველაფერი, რაც კანონით არ არის აკრძალული, დასაშვებია“.

"მასპინძელი:" და "საიტის რუკა:" დირექტივები

მნიშვნელოვანი დირექტივების მიმოხილვა robots.txt-ში სრულდება ბრძანებებით “ მასპინძელი: "და" საიტის რუკა: " რაც შეეხება პირველს, ის განკუთვნილია ექსკლუზიურად Yandex-ისთვის, რაც მიუთითებს იმაზე, თუ რომელი საიტის სარკე (www-ით ან მის გარეშე) ითვლება მთავარ. მაგალითად, საიტი შეიძლება ასე გამოიყურებოდეს:

მომხმარებლის აგენტი: Yandex მასპინძელი: ვებსაიტი

მომხმარებლის აგენტი: Yandex მასპინძელი: www.site

ამ ბრძანების გამოყენება ასევე თავიდან აიცილებს საიტის შინაარსის არასაჭირო დუბლირებას.

თავის მხრივ, დირექტივა ” საიტის რუკა: » მიუთითებს ინდექსირებად რობოტს ე.წ. Site Map - ფაილების სწორ გზაზე საიტის რუკა.xml და საიტის რუკა.xml.gz (CMS WordPress-ის შემთხვევაში). ჰიპოთეტური მაგალითი შეიძლება იყოს:

მომხმარებლის აგენტი: * საიტის რუკა: http://site/sitemap.xml საიტის რუკა: http://site/sitemap.xml.gz

ამ ბრძანების ჩაწერა robots.txt ფაილში დაეხმარება საძიებო რობოტს საიტის რუქის უფრო სწრაფად ინდექსირებაში. ეს, თავის მხრივ, ასევე დააჩქარებს ვებ რესურსების გვერდების ძიების შედეგებში მოხვედრის პროცესს.

robots.txt ფაილი მზად არის - რა იქნება შემდეგი?

დავუშვათ, რომ თქვენ, როგორც ახალბედა ვებმასტერს, დაეუფლეთ ინფორმაციის მთელ რიგს, რომელიც ზემოთ მოგვეცი. რა უნდა გააკეთოს შემდეგ? შექმნა ტექსტური დოკუმენტი robots.txt, თქვენი საიტის მახასიათებლების გათვალისწინებით. ამისათვის საჭიროა:

ისარგებლეთ ტექსტის რედაქტორი(მაგალითად, Notepad) თქვენთვის საჭირო robots.txt-ის შედგენისთვის;
შეამოწმეთ შექმნილი დოკუმენტის სისწორე, მაგალითად, ამ Yandex სერვისის გამოყენებით;
FTP კლიენტის გამოყენებით, ატვირთეთ დასრულებული ფაილი თქვენი საიტის ძირეულ საქაღალდეში (WordPress-ის შემთხვევაში, როგორც წესი, ჩვენ ვსაუბრობთ სისტემის საქაღალდე public_html).

დიახ, ჩვენ თითქმის დაგვავიწყდა. ახალბედა ვებმასტერს, ეჭვგარეშეა, სურს პირველად დაათვალიეროს მზა მაგალითები ამ ფაილსსხვების მიერ შესრულებული. არაფერი არ შეიძლება იყოს უფრო მარტივი. ამისათვის უბრალოდ შეიყვანეთ თქვენი ბრაუზერის მისამართის ზოლში site.ru/robots.txt . “site.ru”-ს ნაცვლად - თქვენთვის საინტერესო რესურსის სახელი. სულ ესაა.

ბედნიერი ექსპერიმენტები და მადლობა კითხვისთვის!

გამარჯობა! იყო დრო ჩემს ცხოვრებაში, როდესაც მე აბსოლუტურად არაფერი ვიცოდი ვებსაიტების შექმნის შესახებ და, რა თქმა უნდა, წარმოდგენა არ მქონდა robots.txt ფაილის არსებობის შესახებ.

როდესაც უბრალო ინტერესი სერიოზულ ჰობიდ გადაიზარდა, გაჩნდა ძალა და სურვილი, რომ შეესწავლა ყველა სირთულე. ფორუმებზე შეგიძლიათ იპოვოთ ამ ფაილთან დაკავშირებული მრავალი თემა, რატომ? ეს მარტივია: robots.txt არეგულირებს წვდომას საძიებო სისტემებისაიტზე, ინდექსირების მართვა და ეს ძალიან მნიშვნელოვანია!

Robots.txtარის ტექსტური ფაილი, რომელიც შექმნილია საძიებო რობოტების წვდომის შესაზღუდად საიტის სექციებსა და გვერდებზე, რომლებიც უნდა გამოირიცხოს მცოცავი და ძიების შედეგებისგან.

რატომ მალავთ საიტის გარკვეულ შინაარსს? ნაკლებად სავარაუდოა, რომ ბედნიერი იქნებით, თუ საძიებო რობოტი განათავსებს საიტის ადმინისტრაციის ფაილებს, რომლებიც შეიძლება შეიცავდეს პაროლებს ან სხვა მგრძნობიარე ინფორმაციას.

არსებობს სხვადასხვა დირექტივები წვდომის რეგულირებისთვის:

მომხმარებლის აგენტი - მომხმარებლის აგენტი, რომლისთვისაც მითითებულია წვდომის წესები,
აკრძალვა - კრძალავს წვდომას URL-ზე,
დაშვება - საშუალებას აძლევს წვდომას URL-ზე,
საიტის რუკა - მიუთითებს გზაზე,
Crawl-delay - ადგენს URL მცოცავი ინტერვალს (მხოლოდ Yandex-ისთვის),
Clean-param - უგულებელყოფს დინამიურ URL პარამეტრებს (მხოლოდ Yandex-ისთვის),
მასპინძელი - მიუთითებს საიტის მთავარ სარკეზე (მხოლოდ Yandex-ისთვის).

გთხოვთ გაითვალისწინოთ, რომ 2018 წლის 20 მარტიდან Yandex-მა ოფიციალურად შეწყვიტა მასპინძლის დირექტივის მხარდაჭერა. ის შეიძლება წაიშალოს robots.txt-დან და თუ დატოვა, რობოტი უბრალოდ უგულებელყოფს მას.

ფაილი უნდა იყოს განთავსებული საიტის root დირექტორიაში. თუ საიტს აქვს ქვედომენები, მაშინ თითოეული ქვედომენისთვის შედგენილია საკუთარი robots.txt.

ყოველთვის უნდა გახსოვდეთ უსაფრთხოება. ამ ფაილის ნახვა ნებისმიერს შეუძლია, ამიტომ არ არის საჭირო მასში ადმინისტრაციული რესურსების (სამართავი პანელები და ა.შ.) მკაფიო გზის მითითება. როგორც ამბობენ, რაც უფრო ნაკლები იცი, მით უკეთ გძინავს. ამიტომ, თუ არ არის გვერდის ბმული და არ გსურთ მისი ინდექსირება, მაშინ არ გჭირდებათ მისი რეგისტრაცია რობოტებში, მას მაინც ვერავინ იპოვის, ობობის რობოტებიც კი.

როდესაც საძიებო რობოტი ათვალიერებს საიტს, ის ჯერ ამოწმებს საიტზე robots.txt ფაილის არსებობას და შემდეგ მიჰყვება მის დირექტივებს გვერდების ცოცვისას.

დაუყოვნებლივ მინდა აღვნიშნო, რომ საძიებო სისტემები ამ ფაილს განსხვავებულად ეპყრობიან. მაგალითად, Yandex უპირობოდ იცავს თავის წესებს და გამორიცხავს აკრძალულ გვერდებს ინდექსაციისგან, ხოლო Google აღიქვამს ამ ფაილს რეკომენდაციად და მეტი არაფერი.

გვერდების ინდექსირების აკრძალვის მიზნით, შეგიძლიათ გამოიყენოთ სხვა საშუალებები:

გადამისამართება ან დირექტორიაში .htaccess ფაილის გამოყენებით,
noindex მეტა ტეგი (არ უნდა აგვერიოს აკრძალოს ტექსტის ნაწილის ინდექსირება),
ატრიბუტი ბმულებისთვის, ასევე არასაჭირო გვერდების ბმულების წაშლა.

ამავდროულად, Google-ს შეუძლია წარმატებით დაამატოს გვერდები, რომლებსაც ეკრძალებათ ინდექსირება ძიების შედეგებში, მიუხედავად ყველა შეზღუდვისა. მისი მთავარი არგუმენტი არის ის, რომ თუ გვერდი მიბმულია, მაშინ ის შეიძლება გამოჩნდეს ძიების შედეგებში. ამ შემთხვევაში რეკომენდირებულია მსგავს გვერდებზე არ მიბმა, მაგრამ მაპატიეთ, robots.txt ფაილი სწორედ ასეთი გვერდების ძიების შედეგებიდან გამორიცხვისაა... ჩემი აზრით ლოგიკა არ არის 🙄

გვერდების ამოღება ძიებიდან

თუ აკრძალული გვერდები კვლავ ინდექსირებული იყო, მაშინ უნდა გამოიყენოთ Google Searchკონსოლი და მასში ჩართული URL-ის ამოღების ინსტრუმენტი:

მსგავსი ინსტრუმენტი ხელმისაწვდომია Yandex Webmaster-ში. წაიკითხეთ მეტი საძიებო სისტემის ინდექსიდან გვერდების ამოღების შესახებ ცალკე სტატიაში.

robots.txt-ის შემოწმება

თემის Google-თან გაგრძელებისას, შეგიძლიათ გამოიყენოთ სხვა საძიებო კონსოლის ინსტრუმენტი და შეამოწმოთ robots.txt ფაილი, რათა ნახოთ, არის თუ არა ის სწორად შედგენილი, რათა თავიდან აიცილოთ გარკვეული გვერდების ინდექსირება:

ამისათვის უბრალოდ ტექსტის ველში შეიტანეთ შესამოწმებელი URL-ები და დააწკაპუნეთ ღილაკზე შემოწმება - შემოწმების შედეგად გამოვლინდება, აკრძალულია თუ არა ამ გვერდის ინდექსირება, თუ მისი შინაარსი ხელმისაწვდომია საძიებო რობოტებისთვის. .

Yandex-ს ასევე აქვს მსგავსი ინსტრუმენტი, რომელიც მდებარეობს Webmaster-ში, შემოწმება ხორციელდება ანალოგიურად:

თუ არ იცით როგორ შექმნათ ფაილი სწორად, მაშინ უბრალოდ შექმენით ცარიელი ტექსტური დოკუმენტი სახელით robots.txtდა როცა შეისწავლით CMS-ის და საიტის სტრუქტურის მახასიათებლებს, შეავსეთ იგი საჭირო დირექტივებით.

ფაილის სწორად შედგენის შესახებ ინფორმაციისთვის გთხოვთ მიჰყევით ბმულს. გნახავ!

თანმიმდევრულად შეავსეთ ყველა საჭირო ველი. როგორც თქვენ მიმართავთ, ნახავთ თქვენს Robots.txt-ს, რომელიც სავსეა დირექტივებით. Robots.txt ფაილში ყველა დირექტივა დეტალურად არის აღწერილი ქვემოთ.

დროშა, კოპირებადა ჩასვით ტექსტი ტექსტის რედაქტორში. შეინახეთ ფაილი როგორც "robots.txt" თქვენი საიტის root დირექტორიაში.

robots.txt ფაილის ფორმატის აღწერა

robots.txt ფაილი შედგება ჩანაწერებისგან, რომელთაგან თითოეული შედგება ორი ველისაგან: ხაზი კლიენტის აპლიკაციის სახელით (მომხმარებლის აგენტი) და ერთი ან მეტი ხაზი, რომელიც იწყება Disallow დირექტივით:

დირექტივა ":" მნიშვნელობა

Robots.txt უნდა შეიქმნას Unix ტექსტის ფორმატში. ტექსტის კარგმა რედაქტორებმა უკვე იციან, როგორ გადაიყვანონ თარგმანის სიმბოლოები Windows სიმები Unix-ზე. ან თქვენს FTP კლიენტს უნდა შეეძლოს ამის გაკეთება. რედაქტირებისთვის არ ეცადოთ გამოიყენოთ HTML რედაქტორი, განსაკუთრებით ისეთი, რომელსაც არ აქვს ტექსტის რეჟიმიკოდის ჩვენება.

დირექტივა მომხმარებელი-აგენტი:

Rambler-ისთვის: მომხმარებლის აგენტი: StackRambler Yandex-ისთვის: მომხმარებლის აგენტი: Yandex Google-ისთვის: მომხმარებელი-აგენტი: googlebot

თქვენ შეგიძლიათ შექმნათ ინსტრუქციები ყველა რობოტისთვის:

მომხმარებლის აგენტი: *

დირექტივა აკრძალვა:

ჩანაწერის მეორე ნაწილი შედგება Disallow ხაზებისგან. ეს ხაზები არის დირექტივები (ინსტრუქციები, ბრძანებები) ამ რობოტისთვის. მომხმარებლის-აგენტის ხაზის მიერ შეყვანილ თითოეულ ჯგუფს უნდა ჰქონდეს მინიმუმ ერთი Disallow განაცხადი. აკრძალვის ინსტრუქციების რაოდენობა შეუზღუდავია, ისინი ეუბნებიან რობოტს, თუ რომელი ფაილები და/ან დირექტორიები არ აქვს რობოტს ინდექსირების უფლებას. თქვენ შეგიძლიათ თავიდან აიცილოთ ფაილის ან დირექტორიას ინდექსირება.

შემდეგი დირექტივა გამორთავს /cgi-bin/ დირექტორიას ინდექსირებას:

აკრძალვა: /cgi-bin/ ჩანიშნეთ / დირექტორია სახელის ბოლოს! კონკრეტულად დირექტორიაში "/dir"-ის მონახულების აკრძალვის მიზნით, ინსტრუქცია უნდა გამოიყურებოდეს: "Disallow: /dir/" . და ხაზი "Disallow: /dir" კრძალავს სერვერის ყველა გვერდის მონახულებას, რომელთა სრული სახელი (სერვერის ფესვიდან) იწყება "/dir". მაგალითად: "/dir.html", "/dir/index.html", "/directory.html".

შემდეგნაირად დაწერილი დირექტივა კრძალავს root-ში მდებარე index.htm ფაილის ინდექსირებას:

აკრძალვა: /index.htm

დირექტივა დაშვებამხოლოდ Yandex-ს ესმის.

მომხმარებლის აგენტი: Yandex Allow: /cgi-bin Disallow: / # კრძალავს ყველაფრის ჩამოტვირთვას, გარდა "/cgi-bin"-ით დაწყებული გვერდებისა. სხვა საძიებო სისტემებისთვის მოგიწევთ ჩამოთვალოთ ყველა დახურული დოკუმენტი. განიხილეთ საიტის სტრუქტურა ისე, რომ ინდექსაციისთვის დახურული დოკუმენტები შეგროვდეს ერთ ადგილას, თუ ეს შესაძლებელია.

თუ აკრძალვის დირექტივა ცარიელია, ეს ნიშნავს, რომ რობოტს შეუძლია ყველა ფაილის ინდექსირება. მომხმარებლის აგენტის თითოეულ ველზე უნდა იყოს მინიმუმ ერთი აკრძალვის დირექტივა, რომ robots.txt ჩაითვალოს ძალაში. სრულიად ცარიელი robots.txt ნიშნავს იგივეს, თითქოს ის საერთოდ არ არსებობდეს.

Rambler რობოტს ესმის * როგორც ნებისმიერი სიმბოლო, ამიტომ Disallow: * ინსტრუქცია ნიშნავს მთელი საიტის ინდექსირების აკრძალვას.

დაშვება, აკრძალვა დირექტივების პარამეტრების გარეშე. დაშვების და აკრძალვის დირექტივების პარამეტრების არარსებობა ინტერპრეტირებულია შემდეგნაირად: მომხმარებლის აგენტი: Yandex Disallow: # იგივეა, რაც დაშვება: / მომხმარებლის აგენტი: Yandex Allow: # იგივე, რაც Disallow: /

სპეციალური სიმბოლოების "*" და "$" გამოყენებით.
Allow-Disallow დირექტივების ბილიკების მითითებისას შეგიძლიათ გამოიყენოთ სპეციალური სიმბოლოები "*" და "$", რითაც მიუთითეთ გარკვეული რეგულარული გამონათქვამები. სპეციალური სიმბოლო "*" ნიშნავს სიმბოლოების ნებისმიერ (მათ შორის ცარიელი) თანმიმდევრობას. მაგალითები:

მომხმარებლის აგენტი: Yandex Disallow: /cgi-bin/*.aspx # კრძალავს "/cgi-bin/example.aspx" და "/cgi-bin/private/test.aspx" აკრძალვა: /*private # კრძალავს არა მხოლოდ " /პირადი", არამედ ასევე "/cgi-bin/private" სპეციალური სიმბოლო "$".
ნაგულისხმევად, "*" ემატება robots.txt-ში აღწერილი თითოეული წესის ბოლოს, მაგალითად: User-agent: Yandex Disallow: /cgi-bin* # ბლოკავს წვდომას გვერდებზე, რომლებიც იწყება "/cgi-bin"-ით დაშვება. : /cgi-bin # იგივე, წესის ბოლოს "*"-ის გასაუქმებლად, შეგიძლიათ გამოიყენოთ სპეციალური სიმბოლო "$", მაგალითად: მომხმარებლის აგენტი: Yandex დაუშვებელია: /example$ # კრძალავს "/ მაგალითი", მაგრამ არ კრძალავს "/example.html" მომხმარებელი - აგენტი: Yandex Disallow: /example # აკრძალავს ორივე "/example" და "/example.html" User-agent: Yandex Disallow: /example$ # დაუშვებს მხოლოდ " /example" Disallow: /example*$ # ასევე, ისევე როგორც "Disallow: /example" არ იძლევა ორივეს /example.html და /example

დირექტივა მასპინძელი.

თუ თქვენს საიტს აქვს სარკეები, სპეციალური სარკის რობოტი ამოიცნობს მათ და შექმნის სარკეების ჯგუფს თქვენი საიტისთვის. ძიებაში მონაწილეობას მიიღებს მხოლოდ მთავარი სარკე. თქვენ შეგიძლიათ მიუთითოთ ის robots.txt-ის გამოყენებით "მასპინძელი" დირექტივის გამოყენებით, მის პარამეტრად მიუთითოთ მთავარი სარკის სახელი. "მასპინძელი" დირექტივა არ იძლევა გარანტიას მითითებული მთავარი სარკის არჩევისას, თუმცა ალგორითმი მას დიდი პრიორიტეტით ითვალისწინებს გადაწყვეტილების მიღებისას. მაგალითი: #თუ www.glavnoye-zerkalo.ru არის საიტის მთავარი სარკე, მაშინ robots.txt for #www.neglavnoye-zerkalo.ru ასე გამოიყურება მომხმარებლის აგენტი: * აკრძალვა: /forum არ დაუშვას: /cgi-bin მასპინძელი: www.glavnoye -zerkalo.ru რობოტებთან თავსებადობისთვის, რომლებიც სრულად არ იცავენ სტანდარტს robots.txt-ის დამუშავებისას, "მასპინძლის" დირექტივა უნდა დაემატოს ჯგუფს, რომელიც იწყება "მომხმარებლის აგენტის" ჩანაწერით, დაუყოვნებლივ შემდეგ "აკრძალვა" ("დაშვება") დირექტივები . "მასპინძლის" დირექტივის არგუმენტი არის დომენის სახელი, რასაც მოჰყვება პორტის ნომერი (ნაგულისხმევად 80) გამოყოფილი ორწერტილით. ჰოსტის დირექტივის პარამეტრი უნდა შედგებოდეს ერთი სწორი ჰოსტის სახელისგან (ანუ ის, რომელიც შეესაბამება RFC 952-ს და არ არის IP მისამართი) და პორტის სწორი ნომერი. არასწორად შედგენილი "მასპინძელი:" ხაზები იგნორირებულია.

მასპინძლის უგულებელყოფილი დირექტივების მაგალითები:

მასპინძელი: www.myhost-.ru მასპინძელი: www.-myhost.ru მასპინძელი: www.myhost.ru:100000 მასპინძელი: www.my_host.ru მასპინძელი: .my-host.ru:8000 მასპინძელი: my-host.ru. მასპინძელი: my..host.ru მასპინძელი: www.myhost.ru/ მასპინძელი: www.myhost.ru:8080/ მასპინძელი: 213.180.194.129 მასპინძელი: www.firsthost.ru,www.secondhost.ru # ერთ ხაზზე - ერთი დომენი! ჰოსტი: www.firsthost.ru www.secondhost.ru # ერთ ხაზზე - ერთი დომენი!! მასპინძელი: crew-communication.rf # უნდა გამოიყენოთ punycode

დირექტივა სეირნობა-დაყოვნება

ადგენს ვადას წამებში, რომლითაც საძიებო რობოტი ჩამოტვირთავს გვერდებს თქვენი სერვერიდან (Crawl-delay).

თუ სერვერი მძიმედ არის დატვირთული და არ აქვს დრო ჩამოტვირთვის მოთხოვნების დასამუშავებლად, გამოიყენეთ "Crawl-delay" დირექტივა. ის საშუალებას გაძლევთ დააყენოთ საძიებო რობოტს მინიმალური დრო (წამებში) ერთი გვერდის ჩამოტვირთვის დასრულებამდე და შემდეგი ჩამოტვირთვის დაწყებას შორის. რობოტებთან თავსებადობისთვის, რომლებიც სრულად არ იცავენ სტანდარტს robots.txt დამუშავებისას, დირექტივა "Crawl-delay" უნდა დაემატოს ჯგუფს, რომელიც იწყება "User-Agent" ჩანაწერით, დაუყოვნებლივ "Disallow" ("Allow") ) დირექტივები.

Yandex საძიებო რობოტი მხარს უჭერს ფრაქციულ Crawl-Delay მნიშვნელობებს, მაგალითად, 0.5. ეს არ იძლევა იმის გარანტიას, რომ საძიებო რობოტი თქვენს საიტს ყოველ ნახევარ წამში ეწვევა, მაგრამ ეს რობოტს მეტ თავისუფლებას ანიჭებს და საშუალებას აძლევს მას უფრო სწრაფად დაცოცოს საიტი.

მომხმარებლის აგენტი: Yandex Crawl-delay: 2 # აყენებს ვადას 2 წამზე მომხმარებლის აგენტი: * აკრძალვა: /search Crawl-delay: 4.5 # აყენებს დროის აუტას 4.5 წამზე

დირექტივა სუფთა-პარამ

დირექტივა მისამართების ზოლიდან პარამეტრების გამორიცხვისთვის. იმათ. მოთხოვნები, რომლებიც შეიცავს ასეთ პარამეტრს და მათ არ შეიცავს, განიხილება იდენტურად.

ცარიელი ხაზები და კომენტარები

ცარიელი ხაზები დაშვებულია მომხმარებლის აგენტის მიერ შეყვანილი ინსტრუქციების ჯგუფებს შორის.

Disallow განცხადება მხედველობაში მიიღება მხოლოდ იმ შემთხვევაში, თუ ის ექვემდებარება მომხმარებლის აგენტის რომელიმე ხაზს - ანუ, თუ მის ზემოთ არის მომხმარებელი-აგენტის ხაზი.

ნებისმიერი ტექსტი ჰეშის ნიშნიდან "#" სტრიქონის ბოლომდე განიხილება როგორც კომენტარი და იგნორირებულია.

მაგალითი:

შემდეგი მარტივი ფაილი robots.txtკრძალავს ყველა რობოტს საიტის ყველა გვერდის ინდექსირებას, გარდა Rambler რობოტისა, რომელსაც, პირიქით, უფლება აქვს საიტის ყველა გვერდის ინდექსირებას.

# ინსტრუქციები ყველა რობოტისთვის მომხმარებლის აგენტი: * აკრძალვა: / # ინსტრუქციები Rambler რობოტისთვის User-agent: StackRambler Disallow:

გავრცელებული შეცდომები:

ინვერსიული სინტაქსი: User-agent: / Disallow: StackRambler და ეს ასე უნდა იყოს: User-agent: StackRambler Disallow: / რამდენიმე აკრძალვის დირექტივა ერთ ხაზზე: დაუშვებელი: /css/ /cgi-bin/ /images/ სწორად ასე: აკრძალვა: / css/ აკრძალვა: /cgi-bin/ აკრძალვა: /images/

შენიშვნები:

დაუშვებელია ცარიელი ხაზების წყვეტა "მომხმარებლის აგენტი" და "აკრძალვა" ("ნებადართული") დირექტივებს შორის, ისევე როგორც თავად "აკრძალვა" ("ნებადართული") დირექტივებს შორის.
სტანდარტის მიხედვით, ყოველი "მომხმარებლის აგენტის" დირექტივის წინ რეკომენდებულია ცარიელი ხაზის ჩასმა.

ყველაფერი მობილური ტექნოლოგიების შესახებ