Ejemplo de texto de robots para Yandex. Recomendaciones para configurar el archivo txt de robots. Directivas "Host:" y "Sitemap:"

Navegación rápida en esta página:

La realidad moderna es que en Runet ningún sitio que se precie puede prescindir de un archivo llamado robots.txt, incluso si no tiene nada que prohíba la indexación (aunque casi todos los sitios tienen páginas técnicas y contenido duplicado que requieren cerrarse para no indexarse). , entonces, como mínimo, definitivamente vale la pena registrar una directiva con www y sin www para Yandex; para esto existen las reglas para escribir robots.txt, que se analizarán a continuación.

¿Qué es robots.txt?

Un archivo con este nombre data de 1994, cuando el consorcio W3C decidió introducir un estándar de este tipo para que los sitios pudieran proporcionar instrucciones de indexación a los motores de búsqueda.

Un archivo con este nombre debe guardarse en el directorio raíz del sitio; no se permite colocarlo en ninguna otra carpeta.

El archivo realiza las siguientes funciones:

  1. prohíbe la indexación de páginas o grupos de páginas
  2. permite indexar cualquier página o grupo de páginas
  3. indica al robot Yandex qué espejo del sitio es el principal (con www o sin www)
  4. muestra la ubicación del archivo del mapa del sitio

Los cuatro puntos son extremadamente importantes para optimización de motores de búsqueda sitio. El bloqueo de la indexación le permite bloquear la indexación de páginas que contienen contenido duplicado, por ejemplo, páginas de etiquetas, archivos, resultados de búsqueda, páginas con versiones imprimibles, etc. La presencia de contenido duplicado (cuando el mismo texto, incluso en el tamaño de varias frases, está presente en dos o más páginas) es un punto negativo para el sitio en el ranking de los motores de búsqueda, por lo que debe haber la menor cantidad de duplicados posible.

La directiva permitir no tiene un significado independiente, ya que de forma predeterminada todas las páginas ya están disponibles para indexar. Funciona junto con Disallow, cuando, por ejemplo, una determinada categoría está completamente cerrada de los motores de búsqueda, pero le gustaría abrir esta o una página separada en ella.

Señalar el espejo principal del sitio es también uno de los elementos más importantes en la optimización: los motores de búsqueda ven los sitios www.yoursite.ru y yoursite.ru como dos recursos diferentes, a menos que usted les indique directamente lo contrario. El resultado es una duplicación del contenido: la aparición de duplicados, una disminución en la fuerza de los enlaces externos (los enlaces externos se pueden colocar tanto con www como sin www) y, como resultado, esto puede conducir a una clasificación más baja en los resultados de búsqueda.

Para Google, el espejo principal está registrado en las Herramientas para webmasters (http://www.google.ru/webmasters/), pero para Yandex estas instrucciones solo se pueden registrar en el mismo robots.tkht.

Apuntar a un archivo xml con un mapa del sitio (por ejemplo, sitemap.xml) permite a los motores de búsqueda detectar este archivo.

Reglas para especificar el agente de usuario

El usuario-agente en este caso es el motor de búsqueda. Al escribir instrucciones, debe indicar si se aplicarán a todos los motores de búsqueda (en cuyo caso se indica con un asterisco - *) o si están destinados a un motor de búsqueda específico, por ejemplo, Yandex o Google.

Para configurar un agente de usuario que indique todos los robots, escriba la siguiente línea en su archivo:

Agente de usuario: *

Para Yandex:

Agente de usuario: Yandex

Para Google:

Agente de usuario: GoogleBot

Reglas para especificar no permitir y permitir

En primer lugar, cabe señalar que el archivo robots.txt debe contener al menos una directiva disallow para que sea válido. Ahora veamos la aplicación de estas directivas usando ejemplos específicos.

Usando este código, permites la indexación de todas las páginas del sitio:

Agente de usuario: * No permitir:

Y con este código, por el contrario, se cerrarán todas las páginas:

Agente de usuario: * No permitir: /

Para prohibir la indexación de un directorio específico llamado carpeta, especifique:

Agente de usuario: * No permitir: /carpeta

También puedes utilizar asteriscos para sustituir un nombre arbitrario:

Agente de usuario: * No permitir: *.php

Importante: el asterisco reemplaza el nombre completo del archivo, es decir, no puede especificar el archivo*.php, solo *.php (pero todas las páginas con la extensión .php estarán prohibidas; para evitar esto, puede especificar una dirección de página específica) .

La directiva permitir, como se indicó anteriormente, se usa para crear excepciones en no permitir (de lo contrario, no tiene significado, ya que las páginas ya están abiertas de forma predeterminada).

Por ejemplo, prohibiremos que se indexen las páginas de la carpeta de archivo, pero dejaremos abierta la página index.html de este directorio:

Permitir: /archive/index.html No permitir: /archive/

Especifique el host y el mapa del sitio

El host es el espejo principal del sitio (es decir, el nombre de dominio más www o el nombre de dominio sin este prefijo). El host se especifica solo para el robot Yandex (en este caso, debe haber al menos un comando de no permitir).

Para especificar un host, robots.txt debe contener la siguiente entrada:

Agente de usuario: Yandex No permitir: Anfitrión: www.yoursite.ru

En cuanto al mapa del sitio, en robots.txt el mapa del sitio se indica simplemente escribiendo la ruta completa al archivo correspondiente, indicando el nombre del dominio:

Mapa del sitio: http://yoursite.ru/sitemap.xml

Está escrito sobre cómo hacer un mapa del sitio para WordPress.

Ejemplo de robots.txt para WordPress

Para WordPress, las instrucciones deben especificarse de tal manera que se cierren todos los directorios técnicos (wp-admin, wp-includes, etc.) para la indexación, así como las páginas duplicadas creadas por etiquetas, archivos RSS, comentarios y búsqueda.

Como ejemplo de robots.txt para wordpress, puedes tomar el archivo de nuestro sitio web:

Agente de usuario: Yandex No permitir: /wp-admin No permitir: /wp-includes No permitir: /wp-login.php No permitir: /wp-register.php No permitir: /xmlrpc.php No permitir: /search No permitir: */trackback No permitir: */feed/ No permitir: */feed No permitir: */comments/ No permitir: /?feed= No permitir: /?s= No permitir: */page/* No permitir: */comment No permitir: */tag/* No permitir: */ adjunto/* Permitir: /wp-content/uploads/ Host: www..php No permitir: /wp-register.php No permitir: /xmlrpc.php No permitir: /search No permitir: */trackback No permitir: */feed/ No permitir: * /feed No permitir: */comments/ No permitir: /?feed= No permitir: /?s= No permitir: */page/* No permitir: */comment No permitir: */tag/* No permitir: */attachment/* Permitir: /wp -content/uploads/ User-agent: * No permitir: /wp-admin No permitir: /wp-includes No permitir: /wp-login.php No permitir: /wp-register.php No permitir: /xmlrpc.php No permitir: /search No permitir: */trackback No permitir: */feed/ No permitir: */feed No permitir: */comments/ No permitir: /?feed= No permitir: /?s= No permitir: */page/* No permitir: */comment No permitir: */tag/ * No permitir: */attachment/* Permitir: /wp-content/uploads/ Mapa del sitio: https://www..xml

Puede descargar el archivo robots.txt desde nuestro sitio web usando .

Si después de leer este artículo todavía tienes alguna duda, ¡pregunta en los comentarios!

1) ¿Qué es un robot de búsqueda?
2) ¿Qué es robots.txt?
3) ¿Cómo crear robots.txt?
4) ¿Qué y por qué se puede escribir en este archivo?
5) Ejemplos de nombres de robots
6) Ejemplo de robots.txt terminado
7) ¿Cómo puedo comprobar si mi archivo funciona?

1. ¿Qué es un robot de búsqueda?

Robot (rastreador en inglés) mantiene una lista de URL que puede indexar y descarga periódicamente los documentos correspondientes a ellas. Si el robot encuentra un nuevo enlace mientras analiza un documento, lo agrega a su lista. Por lo tanto, cualquier documento o sitio que tenga enlaces puede ser encontrado por un robot y, por lo tanto, mediante la búsqueda de Yandex.

2. ¿Qué es robots.txt?

Los robots de búsqueda buscan primero el archivo robots.txt en los sitios web. Si tiene directorios, contenido, etc. en su sitio que, por ejemplo, le gustaría ocultar de la indexación (el motor de búsqueda no proporcionó información sobre ellos. Por ejemplo: panel de administración, otros paneles de páginas), entonces debe tener cuidado estudie las instrucciones para trabajar con este archivo.

robots.txt- Este Archivo de texto(.txt), que se encuentra en la raíz (directorio raíz) de su sitio. Contiene instrucciones para robots de búsqueda. Estas instrucciones pueden prohibir la indexación de determinadas secciones o páginas del sitio, indicar una correcta "duplicación" del dominio, recomendar que el robot de búsqueda respete un determinado intervalo de tiempo entre la descarga de documentos del servidor, etc.

3. ¿Cómo crear robots.txt?

Crear robots.txt es muy sencillo. Vamos a un editor de texto normal (o botón derecho del mouse - crear - documento de texto), por ejemplo, el Bloc de notas. A continuación, cree un archivo de texto y cámbiele el nombre a robots.txt.

4. ¿Qué y por qué se puede escribir en el archivo robots.txt?

Antes de especificar un comando para un motor de búsqueda, debe decidir a qué Bot se dirigirá. Hay un comando para esto Agente de usuario
A continuación se muestran ejemplos:

Agente de usuario: * # el comando escrito después de esta línea se dirigirá a todos los robots de búsqueda
Agente de usuario: YandexBot # acceso al robot de indexación principal de Yandex
User-agent: Googlebot # acceso al robot de indexación principal de Google

Permitir y deshabilitar la indexación
Para habilitar y deshabilitar la indexación, hay dos comandos correspondientes: Permitir(posible) y Rechazar(está prohibido).

Agente de usuario: *
Disallow: /adminka/ # prohíbe que todos los robots indexen el directorio adminka, que supuestamente contiene el panel de administración

Agente de usuario: YandexBot # el siguiente comando se dirigirá a Yandex
No permitir: / # prohibimos la indexación de todo el sitio por parte del robot Yandex

Agente de usuario: Googlebot # el siguiente comando llamará a Google
Permitir: /images # permitir que se indexen todos los contenidos del directorio de imágenes
Disallow: /# y todo lo demás está prohibido

El orden no importa

Agente de usuario: *
Permitir: /imágenes
No permitir: /

Agente de usuario: *
No permitir: /
Permitir: /imágenes
# ambos pueden indexar archivos
# comenzando con "/imágenes"

Directiva de mapas del sitio
Este comando especifica la dirección de su mapa de sitio:

Mapa del sitio: http://yoursite.ru/structure/my_sitemaps.xml # Indica la dirección del mapa del sitio

Directiva del anfitrión
Este comando se inserta AL FINAL de su archivo y denota el espejo principal
1) está escrito AL FINAL de su archivo
2) se indica sólo una vez. de lo contrario solo se acepta la primera línea
3) indicado después de Permitir o No permitir

Anfitrión: www.yoursite.ru # espejo de su sitio

#Si www.yoursite.ru es el espejo principal del sitio, entonces
#robots.txt para todos los sitios espejo se ve así
Agente de usuario: *
No permitir: /images
No permitir: /incluir
Anfitrión: www.yoursite.ru

# De forma predeterminada, Google ignora el Host, debes hacer esto
Agente de usuario: * # indexar todo
No permitir: /admin/ # no permitir el índice de administrador
Anfitrión: www.mainsite.ru # indica el espejo principal
Agente de usuario: Googlebot # ahora realiza comandos para Google
No permitir: /admin/ # prohibición para Google

5. Ejemplos de nombres de robots

robots yandex
Yandex tiene varios tipos de robots que resuelven una variedad de problemas: uno es responsable de indexar imágenes, otros son responsables de indexar datos rss para recopilar datos en blogs y otros son responsables de datos multimedia. Ante todo - YandexBot, indexa el sitio para compilar una base de datos general del sitio (títulos, enlaces, texto, etc.). También hay un robot para la indexación rápida (indexación de noticias, etc.).

YandexBot-- robot de indexación principal;
YandexMedia-- un robot que indexa datos multimedia;
YandexImágenes-- Indexador Yandex.Images;
YandexCatálogo-- "tapping" de Yandex.Catalogue, utilizado para eliminar temporalmente la publicación de sitios inaccesibles en el Catálogo;
YandexDirecto-- Robot Yandex.Direct, interpreta robots.txt de forma especial;
YandexBlogs-- robot de búsqueda de blogs que indexa publicaciones y comentarios;
YandexNoticias-- robot Yandex.News;
YandexPagechecker-- validador de micromarcado;
YandexMetrika-- robot Yandex.Metrica;
YandexMercado-- robot Yandex.Market;
Calendario Yandex-- Robot Yandex.Calendario.

6. Ejemplo de robots.txt terminado

En realidad llegamos al ejemplo de un archivo terminado. Espero que después de los ejemplos anteriores todo te quede claro.

Agente de usuario: *
No permitir: /admin/
No permitir: /caché/
No permitir: /componentes/

Agente de usuario: Yandex
No permitir: /admin/
No permitir: /caché/
No permitir: /componentes/
No permitir: /images/
No permitir: /incluye/

Mapa del sitio: http://yoursite.ru/structure/my_sitemaps.xml

Este es un archivo de texto (documento en formato .txt) que contiene instrucciones claras para indexar un sitio específico. En otras palabras, este archivo indica a los motores de búsqueda qué páginas de un recurso web deben indexarse ​​y cuáles no, para prohibir su indexación.

Al parecer, ¿por qué prohibir la indexación de algunos contenidos del sitio? Dicen, deja que el robot de búsqueda indexe todo indiscriminadamente, guiado por el principio: ¡cuantas más páginas, mejor! Sólo un CEO aficionado puede razonar de esta manera.

No todo el contenido que compone un sitio web es necesario para los robots de búsqueda. Hay archivos de sistema, hay páginas duplicadas, hay categorías palabras clave y hay muchas más cosas que no necesariamente necesitan ser indexadas. De lo contrario, no se puede descartar la siguiente situación.

Cuando un robot de búsqueda llega a su sitio, lo primero que hace es intentar encontrar el famoso archivo robots.txt. Si este archivo no es detectado o lo detecta, pero se compila incorrectamente (sin las prohibiciones necesarias), el motor de búsqueda "messenger" comienza a estudiar el sitio a su propia discreción.

En el proceso de este estudio, indexa todo y está lejos de ser un hecho que comienza con aquellas páginas que primero deben ingresarse en la búsqueda (nuevos artículos, reseñas, reportajes fotográficos, etc.). Naturalmente, en este caso, la indexación del nuevo sitio puede llevar algún tiempo.

Para evitar un destino tan poco envidiable, el webmaster debe encargarse de crear archivo correcto robots.txt.

“Agente de usuario:” es la directiva principal de robots.txt

En la práctica, las directivas (comandos) se escriben en robots.txt utilizando términos especiales, el principal de los cuales puede considerarse la directiva " Agente de usuario: " Este último se utiliza para especificar el robot de búsqueda, al que se le darán determinadas instrucciones en el futuro. Por ejemplo:

  • Agente de usuario: robot de Google– todos los comandos que sigan esta directiva básica se referirán exclusivamente al motor de búsqueda Google (su robot indexador);
  • Agente de usuario: Yandex– el destinatario en este caso es el motor de búsqueda nacional Yandex.

El archivo robots.txt se puede utilizar para abordar todos los demás motores de búsqueda combinados. El comando en este caso se verá así: Agente de usuario: *. El carácter especial "*" normalmente significa "cualquier texto". En nuestro caso, cualquier motor de búsqueda que no sea Yandex. Google, por cierto, también se toma esta directiva como algo personal, a menos que usted se comunique con él personalmente.

Comando “Disallow:” – prohíbe la indexación en robots.txt

La directiva principal “User-agent:” dirigida a los motores de búsqueda puede ir seguida de comandos específicos. Entre ellos, el más común es la directiva “ Rechazar: " Con este comando, puede evitar que el robot de búsqueda indexe todo el recurso web o parte de él. Todo depende de la extensión que tenga esta directiva. Veamos ejemplos:

Agente de usuario: Yandex No permitir: /

Este tipo de entrada en el archivo robots.txt significa que el robot de búsqueda Yandex no puede indexar este sitio en absoluto, ya que el signo de prohibición "/" está solo y no va acompañado de ninguna aclaración.

Agente de usuario: Yandex No permitir: /wp-admin

Como ves, esta vez hay aclaraciones y se refieren a la carpeta del sistema. wp-admin V . Es decir, el robot de indexación, utilizando este comando (la ruta especificada en él), se negará a indexar toda esta carpeta.

Agente de usuario: Yandex No permitir: /wp-content/themes

Tal instrucción al robot Yandex presupone su admisión a una categoría grande " contenido wp ", en el que puede indexar todos los contenidos excepto " temas ».

Exploremos más a fondo las capacidades "prohibidas" del documento de texto robots.txt:

Agente de usuario: Yandex No permitir: /index$

En este comando, como se desprende del ejemplo, se utiliza otro signo especial "$". Su uso le dice al robot que no puede indexar aquellas páginas cuyos enlaces contengan la secuencia de letras " índice " Al mismo tiempo, índice archivo separado sitio con el mismo nombre " index.php » el robot no está prohibido. Por tanto, el símbolo “$” se utiliza cuando es necesario un enfoque selectivo para prohibir la indexación.

Además, en el archivo robots.txt, puede prohibir la indexación de páginas de recursos individuales que contengan ciertos caracteres. Podría verse así:

Agente de usuario: Yandex No permitir: *&*

Este comando le dice al robot de búsqueda Yandex que no indexe todas aquellas páginas de un sitio web cuyas URL contengan el carácter “&”. Además, este signo en el enlace debe aparecer entre otros símbolos. Sin embargo, puede haber otra situación:

Agente de usuario: Yandex No permitir: *&

Aquí la prohibición de indexación se aplica a todas aquellas páginas cuyos enlaces terminen en “&”.

Si no hay preguntas sobre la prohibición de indexar los archivos del sistema de un sitio, entonces pueden surgir preguntas sobre la prohibición de indexar páginas individuales del recurso. ¿Por qué es esto necesario en principio? Un webmaster experimentado puede tener muchas consideraciones a este respecto, pero la principal es la necesidad de deshacerse de las páginas duplicadas en la búsqueda. Usando el comando y grupo "No permitir:" caracteres especiales, comentado anteriormente, puedes lidiar con páginas "no deseadas" de manera muy simple.

Comando “Permitir:”: permite la indexación en robots.txt

La antípoda de la directiva anterior puede considerarse el comando “ Permitir: " Usando los mismos elementos aclaratorios, pero usando este comando en el archivo robots.txt, puede permitir que el robot indexador ingrese los elementos del sitio que necesita en la base de datos de búsqueda. Para confirmar esto, aquí hay otro ejemplo:

Agente de usuario: Yandex Permitir: /wp-admin

Por alguna razón, el webmaster cambió de opinión e hizo los ajustes apropiados en robots.txt. Como consecuencia, de ahora en adelante el contenido de la carpeta wp-admin aprobado oficialmente para indexación por Yandex.

Aunque el comando Permitir: existe, no se utiliza con mucha frecuencia en la práctica. En general, no es necesario, ya que se aplica automáticamente. El propietario del sitio simplemente necesita utilizar la directiva "Disallow:", que prohíbe la indexación de tal o cual contenido. Después de esto, el robot de búsqueda percibe todo el resto del contenido del recurso que no está prohibido en el archivo robots.txt como algo que puede y debe indexarse. Todo es como en la jurisprudencia: "Todo lo que la ley no prohíbe, está permitido".

Directivas "Host:" y "Sitemap:"

La descripción general de directivas importantes en robots.txt se completa con los comandos " Anfitrión: " Y " Mapa del sitio: " En cuanto al primero, está destinado exclusivamente a Yandex, indicándole qué sitio espejo (con o sin www) se considera el principal. Por ejemplo, un sitio podría verse así:

Agente de usuario: Yandex Host: sitio web

Agente de usuario: Yandex Host: www.site

El uso de este comando también evita la duplicación innecesaria del contenido del sitio.

A su vez, la directiva “ Mapa del sitio: » indica al robot indexador la ruta correcta al llamado Mapa del Sitio - archivos mapa del sitio.xml Y mapa del sitio.xml.gz (en el caso del CMS WordPress). Un ejemplo hipotético podría ser:

Agente de usuario: * Mapa del sitio: http://site/sitemap.xml Mapa del sitio: http://site/sitemap.xml.gz

Escribir este comando en el archivo robots.txt ayudará al robot de búsqueda a indexar el mapa del sitio más rápidamente. Esto, a su vez, también acelerará el proceso de incluir páginas de recursos web en los resultados de búsqueda.

El archivo robots.txt está listo: ¿qué sigue?

Supongamos que usted, como webmaster novato, domina toda la información que le brindamos anteriormente. ¿Qué hacer después? Crear Documento de texto robots.txt, teniendo en cuenta las características de su sitio. Para hacer esto necesitas:

  • Aprovechar editor de texto(por ejemplo, Bloc de notas) para compilar el archivo robots.txt que necesita;
  • comprobar la exactitud del documento creado, por ejemplo, utilizando este servicio Yandex;
  • usando un cliente FTP, cargue el archivo terminado en la carpeta raíz de su sitio (en el caso de WordPress, generalmente estamos hablando de carpeta del sistema público_html).

Sí, casi lo olvidamos. Un webmaster novato, sin duda, querrá echar un vistazo primero ejemplos listos para usar Este archivo realizado por otros. Nada podría ser más sencillo. Para ello, simplemente ingresa en la barra de direcciones de tu navegador site.ru/robots.txt . En lugar de "site.ru", el nombre del recurso que le interesa. Eso es todo.

¡Feliz experimento y gracias por leer!

¡Hola! Hubo un momento en mi vida en el que no sabía absolutamente nada sobre la creación de sitios web y ciertamente no tenía idea de la existencia del archivo robots.txt.

Cuando un simple interés se convirtió en un pasatiempo serio, aparecieron la fuerza y ​​​​el deseo de estudiar todas las complejidades. En los foros puedes encontrar muchos temas relacionados con este archivo, ¿por qué? Es simple: robots.txt regula el acceso los motores de búsqueda al sitio, gestionando la indexación y ¡esto es muy importante!

Robots.txt es un archivo de texto diseñado para limitar el acceso de los robots de búsqueda a secciones y páginas del sitio que deben excluirse del rastreo y de los resultados de búsqueda.

¿Por qué ocultar cierto contenido del sitio web? Es poco probable que esté satisfecho si un robot de búsqueda indexa los archivos de administración del sitio, que pueden contener contraseñas u otra información confidencial.

Existen varias directivas para regular el acceso:

  • Agente de usuario: agente de usuario para el que se especifican reglas de acceso,
  • No permitir: niega el acceso a la URL,
  • Permitir: permite el acceso a la URL,
  • Mapa del sitio: indica la ruta a,
  • Retraso de rastreo: establece el intervalo de rastreo de URL (solo para Yandex),
  • Clean-param: ignora los parámetros de URL dinámicos (solo para Yandex),
  • Anfitrión: indica el espejo principal del sitio (solo para Yandex).

Tenga en cuenta que a partir del 20 de marzo de 2018, Yandex dejó oficialmente de admitir la directiva Host. Se puede eliminar de robots.txt y, si se deja, el robot simplemente lo ignorará.

El archivo debe estar ubicado en el directorio raíz del sitio. Si el sitio tiene subdominios, se compila su propio archivo robots.txt para cada subdominio.

Siempre debes recordar la seguridad. Cualquiera puede ver este archivo, por lo que no es necesario especificar una ruta explícita a los recursos administrativos (paneles de control, etc.) en él. Como dicen, cuanto menos sepas, mejor dormirás. Por lo tanto, si no hay enlaces a una página y no desea indexarla, entonces no necesita registrarla en los robots, de todos modos nadie la encontrará, ni siquiera los robots araña.

Cuando un robot de búsqueda rastrea un sitio, primero verifica la presencia del archivo robots.txt en el sitio y luego sigue sus directivas al rastrear páginas.

Me gustaría señalar de inmediato que los motores de búsqueda tratan este archivo de manera diferente. Por ejemplo, Yandex sigue incondicionalmente sus reglas y excluye de la indexación las páginas prohibidas, mientras que Google percibe este archivo como una recomendación y nada más.

Para prohibir la indexación de páginas, puede utilizar otros medios:

  • redirigir o a un directorio usando el archivo .htaccess,
  • metaetiqueta noindex (que no debe confundirse con la prohibir la indexación de parte del texto),
  • atributo para enlaces, así como eliminar enlaces a páginas innecesarias.

Al mismo tiempo, Google puede agregar con éxito páginas cuya indexación está prohibida en los resultados de búsqueda, a pesar de todas las restricciones. Su principal argumento es que si se vincula una página, puede aparecer en los resultados de búsqueda. En este caso, se recomienda no vincular a dichas páginas, pero disculpe, el archivo robots.txt está destinado precisamente a excluir dichas páginas de los resultados de búsqueda... En mi opinión, no tiene lógica 🙄

Eliminar páginas de la búsqueda

Si las páginas prohibidas aún estaban indexadas, entonces debe usar Búsqueda de Google Consola y su herramienta de eliminación de URL incluida:

Una herramienta similar está disponible en Yandex Webmaster. Lea más sobre cómo eliminar páginas del índice del motor de búsqueda en un artículo aparte.

Comprobando robots.txt

Siguiendo con el tema con Google, puedes utilizar otra herramienta de Search Console y comprobar el archivo robots.txt para ver si está compilado correctamente para evitar que se indexen determinadas páginas:

Para hacer esto, simplemente ingrese las URL que deben verificarse en el campo de texto y haga clic en el botón Verificar; como resultado de la verificación, se revelará si esta página tiene prohibida la indexación o si su contenido es accesible para los robots de búsqueda. .

Yandex también tiene una herramienta similar ubicada en Webmaster, la verificación se realiza de manera similar:

Si no sabe cómo crear un archivo correctamente, simplemente cree un documento de texto vacío con el nombre robots.txt, y mientras estudia las características del CMS y la estructura del sitio, complételo con las directivas necesarias.

Para obtener información sobre cómo compilar correctamente un archivo, siga el enlace. ¡Nos vemos!

Complete consistentemente todos los campos obligatorios. Mientras diriges, verás tu Robots.txt lleno de directivas. Todas las directivas del archivo Robots.txt se describen en detalle a continuación.

Bandera, Copiar y pegue el texto en un editor de texto. Guarde el archivo como "robots.txt" en el directorio raíz de su sitio.

Descripción del formato de archivo robots.txt

El archivo robots.txt consta de entradas, cada una de las cuales consta de dos campos: una línea con el nombre de la aplicación cliente (agente de usuario) y una o más líneas que comienzan con la directiva Disallow:

Directiva ":" significado

Robots.txt debe crearse en formato de texto Unix. La mayoría de los buenos editores de texto ya saben cómo convertir caracteres de traducción. cadenas de windows en Unix. O su cliente FTP debería poder hacer esto. Para editar, no intente utilizar un editor HTML, especialmente uno que no tenga modo texto visualización del código.

Directiva Agente de usuario:

Para Rambler: Agente de usuario: StackRambler Para Yandex: Agente de usuario: Yandex Para Google: Agente de usuario: googlebot

Puedes crear instrucciones para todos los robots:

Agente de usuario: *

Directiva Rechazar:

La segunda parte de la entrada consta de las líneas No permitir. Estas líneas son directivas (instrucciones, comandos) para este robot. Cada grupo ingresado por la línea Usuario-agente debe tener al menos una declaración Disallow. El número de instrucciones Disallow es ilimitado. Le indican al robot qué archivos y/o directorios no puede indexar. Puede evitar que se indexe un archivo o directorio.

La siguiente directiva deshabilita la indexación del directorio /cgi-bin/:

No permitir: /cgi-bin/ ¡Tenga en cuenta el / al final del nombre del directorio! Para prohibir visitar el directorio "/dir" específicamente, la instrucción debería verse así: "Disallow: /dir/" . Y la línea "Disallow: /dir" prohíbe visitar todas las páginas del servidor cuyo nombre completo (desde la raíz del servidor) comience con "/dir". Por ejemplo: "/dir.html", "/dir/index.html", "/directorio.html".

La directiva escrita a continuación prohíbe la indexación del archivo index.htm ubicado en la raíz:

No permitir: /index.htm

Directiva Permitir Sólo Yandex lo entiende.

Agente de usuario: Yandex Permitir: /cgi-bin No permitir: / # prohíbe descargar todo excepto páginas que comiencen con "/cgi-bin" Para otros motores de búsqueda deberá enumerar todos los documentos cerrados. Considere la estructura del sitio de modo que, si es posible, los documentos cerrados para la indexación se recopilen en un solo lugar.

Si la directiva Disallow está vacía, esto significa que el robot puede indexar TODOS los archivos. Debe haber al menos una directiva Disallow para cada campo de agente de usuario para que robots.txt se considere válido. Un archivo robots.txt completamente vacío significa lo mismo que si no existiera en absoluto.

El robot Rambler entiende * como cualquier símbolo, por lo que la instrucción Disallow: * significa prohibir la indexación de todo el sitio.

Permitir, No permitir directivas sin parámetros. La ausencia de parámetros para las directivas Allow y Disallow se interpreta de la siguiente manera: User-agent: Yandex Disallow: # igual que Allow: / User-agent: Yandex Allow: # igual que Disallow: /

Usando caracteres especiales "*" y "$".
Al especificar las rutas de las directivas Allow-Disallow, puede utilizar los caracteres especiales "*" y "$", especificando así ciertos expresiones regulares. El carácter especial "*" significa cualquier secuencia de caracteres (incluso vacía). Ejemplos:

Agente de usuario: Yandex No permitir: /cgi-bin/*.aspx # prohíbe "/cgi-bin/example.aspx" y "/cgi-bin/private/test.aspx" No permitir: /*private # prohíbe no solo " /privado", pero también "/cgi-bin/privado" Carácter especial "$".
De forma predeterminada, se agrega un “*” al final de cada regla descrita en robots.txt, por ejemplo: User-agent: Yandex Disallow: /cgi-bin* # bloquea el acceso a páginas que comienzan con “/cgi-bin” Disallow : /cgi- bin # lo mismo, para cancelar el "*" al final de la regla, puedes usar el carácter especial "$", por ejemplo: User-agent: Yandex Disallow: /example$ # prohíbe "/ ejemplo", pero no prohíbe "/example.html" Agente de usuario: Yandex Disallow: /example # no permite tanto "/example" como "/example.html" User-agent: Yandex Disallow: /example$ # no permite solo " /example" Disallow: /example*$ # lo mismo que "Disallow: /example" no permite tanto /example.html como /example

Directiva Anfitrión.

Si su sitio tiene espejos, un robot espejo especial los identificará y formará un grupo de espejos para su sitio. Sólo el espejo principal participará en la búsqueda. Puede especificarlo usando robots.txt usando la directiva "Host", especificando el nombre del espejo principal como parámetro. La directiva "Host" no garantiza la selección del espejo principal especificado, sin embargo, el algoritmo lo tiene en cuenta con alta prioridad al tomar una decisión. Ejemplo: #Si www.glavnoye-zerkalo.ru es el espejo principal del sitio, entonces robots.txt para #www.neglavnoye-zerkalo.ru se parece a este Agente de usuario: * No permitir: /forum No permitir: /cgi-bin Host: www.glavnoye -zerkalo.ru Para compatibilidad con robots que no siguen completamente el estándar al procesar robots.txt, se debe agregar la directiva "Host" en el grupo que comienza con la entrada "User-Agent", inmediatamente después de Directivas "No permitir" ("Permitir") . El argumento de la directiva "Host" es un nombre de dominio seguido de un número de puerto (80 por defecto) separado por dos puntos. El parámetro de directiva de host debe constar de un nombre de host válido (es decir, uno que cumpla con RFC 952 y no sea una dirección IP) y un número de puerto válido. Las líneas "Host:" compuestas incorrectamente se ignoran.

Ejemplos de directivas de Host ignoradas:

Anfitrión: www.myhost-.ru Anfitrión: www.-myhost.ru Anfitrión: www.myhost.ru:100000 Anfitrión: www.my_host.ru Anfitrión: .my-host.ru:8000 Anfitrión: my-host.ru. Anfitrión: my..host.ru Anfitrión: www.myhost.ru/ Anfitrión: www.myhost.ru:8080/ Anfitrión: 213.180.194.129 Anfitrión: www.firsthost.ru, www.segundohost.ru # en una línea - uno ¡dominio! Anfitrión: www.firsthost.ru www. secondhost.ru # en una línea, ¡un dominio! Anfitrión: crew-communication.rf # necesita usar punycode

Directiva retraso de rastreo

Establece el tiempo de espera en segundos con el que el robot de búsqueda descarga las páginas de tu servidor (Crawl-delay).

Si el servidor está muy cargado y no tiene tiempo para procesar las solicitudes de descarga, utilice la directiva "Crawl-delay". Le permite configurar el robot de búsqueda un período de tiempo mínimo (en segundos) entre el final de la descarga de una página y el inicio de la descarga de la siguiente. Para compatibilidad con robots que no siguen completamente el estándar al procesar robots.txt, se debe agregar la directiva "Crawl-delay" en el grupo que comienza con la entrada "User-Agent", inmediatamente después de "Disallow" ("Permitir" ) directivas.

El robot de búsqueda Yandex admite valores fraccionarios de retraso de rastreo, por ejemplo, 0,5. Esto no garantiza que el robot de búsqueda visite su sitio cada medio segundo, pero le da al robot más libertad y le permite rastrear el sitio más rápido.

Agente de usuario: Yandex Crawl-delay: 2 # establece el tiempo de espera en 2 segundos User-agent: * Disallow: /search Crawl-delay: 4.5 # establece el tiempo de espera en 4.5 segundos

Directiva parámetro limpio

Directiva para excluir parámetros de la barra de direcciones. aquellos. las solicitudes que contengan dicho parámetro y aquellas que no lo contengan se considerarán idénticas.

Líneas en blanco y comentarios.

Se permiten líneas en blanco entre grupos de instrucciones ingresadas por el Usuario-agente.

La declaración Disallow solo se tiene en cuenta si está subordinada a cualquier línea de User-agent, es decir, si hay una línea de User-agent encima de ella.

Cualquier texto desde el signo almohadilla "#" hasta el final de la línea se considera un comentario y se ignora.

Ejemplo:

Siguiente archivo simple robots.txt prohíbe a todos los robots indexar todas las páginas del sitio, excepto el robot Rambler, que, por el contrario, puede indexar todas las páginas del sitio.

# Instrucciones para todos los robots Agente de usuario: * No permitir: / # Instrucciones para el robot Rambler Agente de usuario: StackRambler No permitir:

Errores comunes:

Sintaxis invertida: User-agent: / Disallow: StackRambler Y debería ser así: User-agent: StackRambler Disallow: / Varias directivas Disallow en una línea: Disallow: /css/ /cgi-bin/ /images/ Correctamente así: No permitir: /css/ No permitir: /cgi-bin/ No permitir: /images/
    Notas:
  1. Es inaceptable tener saltos de línea vacíos entre las directivas "User-agent" y "Disallow" ("Permitir"), así como entre las propias directivas "Disallow" ("Permitir").
  2. Según el estándar, se recomienda insertar un avance de línea vacío antes de cada directiva "Usuario-agente".