El servidor devolvió un error 404. Yandex: errores típicos. Páginas de hipertexto y sus características.

Todos errores indicados no son críticos para Yandex, indexará las páginas de todos modos. Pero pueden dificultar que los visitantes potenciales de su página la encuentren entre millones de otras.

404 Error "No encontrado" manejado incorrectamente
Compruebe lo que hacen sus scripts en caso de errores. Si el script informa un error y devuelve un código de salida normal de 200, el mensaje se indexará. Si su secuencia de comandos devuelve el código HTTP 404, este mensaje de error no se indexará.
Esto también se aplica a los documentos regulares. Algunos servidores están configurados para enviar un código de salida normal de 200 en caso de error, esto evita que el robot elimine el enlace a la página en la base de datos. Cualquier servidor web moderno le permite modificar los mensajes de error estándar y devolverlos con el código de error correcto.

Spam, o no engañar al usuario
El spam son titulares y palabras clave con sabor a una gran cantidad de palabras de las consultas más populares, grandes conjuntos de texto "escrito" en la página con color de fondo o letra muy pequeña, así como muchos otros trucos para atraer usuarios a sus páginas mediante el engaño. .
No deben usarse por dos razones. En primer lugar, no agrega gloria al creador de la página y, naturalmente, molesta a los usuarios. En segundo lugar, Yandex rastrea dichos cambios anormales y reduce el lugar del documento en la página de resultados. Además, el spam aumenta el tamaño del documento y, en consecuencia, reduce el contraste de palabras en él, lo que también afecta el lugar del documento en la lista de los encontrados. En casos de uso malicioso de spam, la administración de Yandex puede excluir dichas páginas y sitios de la base de datos.
Las páginas con un tiempo de redireccionamiento a otras páginas (redireccionamiento) igual a cero también se excluyen de la indexación.

Fechas incorrectas
La búsqueda y clasificación por fechas funciona en Yandex, pero en el 20% de los casos los servidores no emiten fecha correcta cambios de archivo. Configura tu servidor correctamente. No prives al usuario de información adicional y aprovecha para mostrar correctamente tus páginas al buscar por fecha.

Indexación de documentos idénticos en diferentes codificaciones
Se desperdician muchos recursos al indexar los mismos documentos emitidos por servidores web en diferentes codificaciones. Al mismo tiempo, los motores de búsqueda rusos aún guardan documentos en una de las codificaciones en sus bases de datos. Se recomienda deshabilitar todas las codificaciones para la indexación, excepto una. Si las codificaciones son emitidas por los puertos del servidor, entonces es necesario emitir diferentes robots.txt en diferentes puertos (servidores). Esto quiere decir que en todos los puertos/servidores, excepto en el principal, se debe escribir

Si se emiten codificaciones, por ejemplo, por directorios, debe crear un archivo robots.txt, en el que se escribirá

No permitir: /alt
no permitir: /mac
no permitir: /koi

Indexación del mismo sitio en diferentes servidores
Este problema ocurre cuando el servidor tiene espejos y/o las codificaciones tienen un prefijo en el nombre de host, por ejemplo, para host www.chto-to.ru:
win.chto-to.ru, koi-www.chto-to.ru, wwwmac.chto-to.ru etc.
El robot no puede determinar de forma independiente la dirección "principal". Lo único que puede hacer (y lo hace) es determinar que dos documentos coincidan con las codificaciones e indexar solo uno de ellos.
Por lo tanto, puede resultar que diferentes partes de su sitio estén indexadas en diferentes hosts. Si desea que todo su sitio se indexe en una dirección (host), deshabilite la indexación del resto configurando el archivo robots.txt apropiado. Después de un tiempo (mientras el robot se arrastra), todos los documentos indexados se referirán a este host.

El error 404 es el error de documento de hipertexto más reconocible y común. Informa que la página no existe en la dirección dada. De hecho, estamos hablando de la ausencia de un archivo html para el documento especificado, por lo que el sitio devuelve un error.

Para tratar el tema con más detalle, así como con una serie de archivos de servicio que tiene cada recurso, es necesario estudiar el momento asociado con la presentación de hipertexto de las páginas utilizando lenguaje HTML(Lenguaje de Marcado de Hipertexto - “Lenguaje de Marcado de Hipertexto”), y el protocolo HTTP a través del cual se realiza el acceso. A pesar de que hay que entender el lenguaje de programación, la forma de su presentación es tan sencilla que cualquiera puede entenderlo.

Más videos en nuestro canal: aprenda marketing en Internet con SEMANTICA

Páginas de hipertexto y sus características.

Internet nació en el momento en que el ingeniero inglés Timothy John Berners-Lee ideó una forma de hipertexto para representar páginas de texto en la web y describió el principio de acceder a ellas a través del protocolo de aplicación HTTP. De acuerdo con la idea general, el usuario desde su dispositivo, es decir, desde el navegador, realiza una solicitud de red para un recurso específico. En este punto, se abre una sesión en el servidor al que se accede. Se devuelve una página HTML como respuesta.

Por supuesto, en nuestro tiempo, se utilizan algoritmos más complejos para acceder e "intercambiar" páginas grandes, pero el principio general sigue siendo el mismo. Para acceder al recurso, necesita un nombre de dominio y una dirección IP. Solo si se cumplen estos criterios y el recurso funciona correctamente, se devolverá un error "404 no encontrado" para el documento que falta.

Cómo se ve la página 404 predeterminada

Un sitio puede o no tener una página de error de acceso decorada "http 404 no encontrado". Un usuario con poca experiencia suele estar bastante nervioso al recibirlo y cree que es culpa suya. De hecho, todo es mucho más simple, la respuesta se deriva de lo anterior.

El código de error 404 en forma de una página separada diseñada en el diseño del sitio se devuelve solo si el sitio tiene un archivo 404.html. Por lo general, se encuentra en el directorio raíz. De lo contrario, el navegador informará de este error junto con un mensaje sobre la falta de acceso. Y normalmente parece una hoja en blanco con un mensaje de error.

Al desarrollar sitios web, por regla general, se utilizan sistemas de gestión de contenido. Contienen una página 404 que indica en archivos de función camino a ella. Por lo general, dicha página contiene un mensaje sobre una dirección inexistente y un enlace para ir a página de inicio sitio. La plantilla para la página 404 se puede cambiar a su gusto, ya que esta es una página en su sitio que puede usar como desee.

Para rehacer la plantilla, necesitará conocimientos de HTML para marcar el archivo. Tenga en cuenta que, en algunos casos, el archivo de la página puede tener un nombre diferente: err404. html, 404.php. La diferencia con el estándar generalmente se asocia con una funcionalidad más amplia, así como con las características del sistema. Por ejemplo, en WordPress, el documento se puede encontrar en el directorio 404.php. En la barra de direcciones "página de error 404 no encontrada" se mostrará algo como esto: dominio.ru/404/.

Adaptar una página 404 estándar a sus propósitos

Para mejorar la usabilidad (aceptabilidad para los usuarios) del sitio, por supuesto, es necesario crear una página que atraiga al visitante a su sitio y lo ayude a continuar navegando. Cosas a tener en cuenta al escribir código:

  • Una proporción significativa de los visitantes que encuentran páginas inexistentes acceden al sitio desde motores de búsqueda o a través de enlaces en foros, sitios web y en las redes sociales, es decir, desde donde se pueden ubicar enlaces antiguos a páginas desaparecidas hace mucho tiempo.
  • Los usuarios no buscan tu sitio, sino información de interés palabra clave, es decir, en ausencia del visitante deseado abandona el sitio y rara vez lo ve.

Es decir, debe comprender que no será tan fácil mantener a tales visitantes, ¡pero es posible!

Tome una plantilla estándar disponible en Internet, o haga la suya propia, teniendo en cuenta las características anteriores:

  1. Explique brevemente a la persona qué sucedió y por qué no ve lo que estaba buscando. Muéstrele las opciones de otras acciones que le ayudarán a encontrar lo que está buscando.
  2. Pantalla en la página 404 cadena de búsqueda para que el visitante pueda encontrar inmediatamente lo que busca.
  3. Asegúrese de mostrar el menú de su sitio aquí, con la ayuda de la cual, una persona puede entender a dónde ir.
  4. Asegúrese de que la página atraiga al usuario y quiera encontrar información sobre su recurso. Use soluciones de texto y visuales coloridas e interesantes.

Para que la página de error del servidor 404 resulte atractiva para el usuario, basta con provocarle una sonrisa o interés. Por lo tanto, intente trabajar en la originalidad de la idea para esa sección de su recurso.

Edición de la página 404

Puede editar el archivo directamente desde el sistema de administración de contenido, para esto necesita agregar el marcado y las imágenes deseadas.
Al crearlo, guíese por el hecho de que la información debe abrirse rápidamente y sin demora. La página debe ser "ligera" (ocupar poco espacio), útil y ofrecer alternativas para encontrar un documento inexistente.

  • transición a la principal;
  • lista de páginas de calificación del sitio;
  • transición al mapa de recursos;
  • un botón para informar a la administración sobre un enlace "roto" en una fuente específica.

De lo contrario, la fantasía, los estándares corporativos y la idea original del diseñador serán el mejor asistente.

Conclusión

La página 404 no encontrada es un archivo de servicio que se puede modificar y complementar para atraer más visitantes al sitio. Este archivo es obligatorio porque, de lo contrario, el navegador mostrará un mensaje de error, después de lo cual la posibilidad de atraer a una persona hacia usted será cero. Intente llenarlo con imágenes coloridas e incluso humor ligero.

La página 404 está diseñada para informar al usuario que la URL (dirección de la página) que especificó no existe.
Estas direcciones URL incorrectas también pueden denominarse "enlaces rotos".
Muchos sitios crean sus páginas 404 para la comodidad de sus usuarios. A menudo es hermoso y paginas interesantes, que hacen que el usuario sonría en lugar de sentirse frustrado porque la dirección de la página es incorrecta.
Al crear una página 404, hay un componente técnico importante que afecta en gran medida la clasificación de los sitios en los motores de búsqueda si todo no está configurado correctamente.

Si está desconcertado por la creación de la página 404, debe considerar tres puntos:
1) Redirigir desde todas las URL ingresadas incorrectamente a la página 404 en .htaccess.
2) Respuesta correcta del servidor después de la redirección (el código http de la página debe ser 404, no 200).
3) Cerrar la página 404 de la indexación en robots.txt

Observo de inmediato que todo lo anterior está escrito para sitios autoescritos, principalmente en php. Para wordpress, hay complementos para personalizar el mismo. Pero en este artículo veremos cómo se ve todo en la realidad. %)

Redirigir (redireccionar) direcciones URL incorrectas a una página 404

Lo primero que haces es crear la página 404 en sí misma para que haya dónde enviar personas%%.
La URL de redirección está configurada en el archivo .htaccess
Simplemente ingrese la línea:
ErrorDocumento 404 http://mysite.com/404.php
Donde "misitio.com" es su dominio y http://misitio.com/404.php es la ruta a la página real. Si su sitio está en html, la línea se verá así:
ErrorDocumento 404 http://mysite.com/404.html
La verificación es muy sencilla. Después de cargar el archivo .htaccess con la línea anterior en el alojamiento, verifique ingresando una URL deliberadamente inexistente (enlace roto), por ejemplo: http://mysite.com/$%$%
Si ocurrió la redirección a la página que creó, entonces todo está funcionando.
Entonces, el archivo .htaccess completo, donde SÓLO está configurado el redireccionamiento a 404, se verá así:
____________________________
Motor de reescritura activado
ErrorDocumento 404 http://mysite.com/404.html
____________________________

Respuesta correcta del servidor (código http de la página)

Es muy importante que al redirigir haya una respuesta correcta del servidor, es decir, 404 extraviado.
Esto necesita ser explicado por separado.

A cualquier url previa solicitud se le asigna un estado (código http de la página).
Para todas las páginas existentes, esto es: HTTP/1.1 200 OK
Para páginas redirigidas: HTTP/1.1 302 Encontrado
Si la página no existe, debería ser HTTP/1.1 404 No encontrado

Es decir, cualquiera que sea la URL que se ingrese, se le asigna un estado, un determinado código de respuesta del servidor.
Puede verificar la respuesta del servidor en un recurso como bertal.ru o SEARCH CONCOLE GOOGLE - Scan / View as a GOOGLE bot.
Cuando no tenía una redirección .htaccess a una página 404, cualquier URL inexistente ingresada por el usuario, así como los enlaces rotos, recibían la respuesta "HTTP/1.1 404 Not Found"

Después de configurar una redirección a la página 404 de su autor a través de .htaccess, como se describe anteriormente, luego ingrese un enlace roto (url no válida que obviamente no existe), como http://mysite.com/$%$% , el La respuesta del servidor será:
- primer HTTP/1.1 302 encontrado (redireccionamiento),
- seguido de HTTP/1.1 200 OK (la página existe).

Compruebe a través de bertal.ru.
¿Qué amenaza? Esto significará que Google puede ingresar todos los enlaces rotos en su base de datos (índice) como páginas existentes con el contenido de la página 404. De hecho, páginas duplicadas. Y esto es increíblemente dañino para la optimización de motores de búsqueda.

En este caso, debe hacer dos cosas:
1) Configure la respuesta correcta del servidor en la página 404.
2) Cierra la indexación de la página 404. Esto se hace a través del archivo robots.txt

Configure la respuesta del servidor HTTP/1.1 404 No encontrado para páginas inexistentes

La respuesta del servidor es configurable gracias a funciones php en la parte superior de la página:

Escríbalo al principio del archivo 404.
Como resultado, deberíamos obtener una respuesta a un enlace roto:

Cerrar la página 404 de la indexación

Puede cerrar la página para que no se indexe en el archivo rodots.txt. ¡Tenga cuidado con esta herramienta, porque a través de este archivo su sitio, de hecho, se comunica con los robots de búsqueda!
El texto completo del archivo rodots.txt, donde SOLO se cierra la indexación de la página 404, se ve así:
____________________________
Agente de usuario: *
Rechazar:
No permitir: /404.php
____________________________

Notas de código: "/404.php" significa la ruta a la página. Si en su sitio la página 404.php (o 404.html, respectivamente) se encuentra en alguna carpeta, la ruta se verá así:
/titular/404.php
donde "titular" es el nombre de la carpeta.

Eso, de hecho, se trata de la página 404. Verifique el funcionamiento de la página, las redirecciones de enlaces rotos y las respuestas del servidor.
Repito: todo lo anterior es para sitios autoescritos. Si está utilizando wordpress, puede buscar un complemento de error 404 decente.