Errores de detección de noindex en Google Search Console han sido detectados.

por Conexion Marketing

John Mueller de Google respondió a una consulta en Reddit acerca de un informe de error en Google Search Console que mencionaba un problema de ‘noindex detectado en X-Robots-Tag HTTP header’ en páginas que no tenían esa etiqueta específica X-Robots-Tag ni ninguna otra directiva relacionada. Mueller ofreció posibles explicaciones, y varios usuarios de Reddit aportaron soluciones y explicaciones lógicas.

Se ha detectado la instrucción “Noindex”.

La persona que inició la conversación en Reddit compartió una situación que puede ser reconocible para muchos. Según lo informado por Google Search Console, no pudo indexar una página debido a un bloqueo que impide la indexación de la página, lo cual es distinto de un bloqueo de gateo. A pesar de revisar la página, no se encontró la presencia de un elemento meta noindex ni de una directiva robots que esté bloqueando el rastreo.

Esto es la descripción de su situación.

  • El informe de GSC indica que se ha detectado “noindex” en el encabezado HTTP X-Robots-Tag en muchas de mis URL.
  • No se ha detectado ninguna etiqueta noindex en el código fuente HTML.
  • No incluir la etiqueta noindex en el archivo robots.txt.
  • No se encontró la etiqueta noindex en los encabezados de respuesta durante las pruebas.
  • Experimento en directo en Google Search Console demuestra que la página es apta para ser indexada.
  • El lugar se encuentra protegido por Cloudflare (Se han revisado las reglas de la página/WAF, entre otros).

Además, informaron que intentaron engañar a Googlebot y probaron diferentes direcciones IP y encabezados de solicitud, pero aún así no encontraron ninguna señal sobre la fuente de la etiqueta X-Robots-Tag.

LEER  Google resalta conversaciones en internet y foros en los resultados de búsqueda.

Cloudflare is believed to have committed the action.

Un usuario de Reddit participó en la conversación proponiendo una solución en caso de que el problema hubiera surgido en Cloudflare.

Proporcionaron instrucciones detalladas para identificar si Cloudflare u otro elemento estaba evitando que Google indexara la página.

En primer lugar, es recomendable comparar Live Test vs. Crawled Page en Google Search Console para verificar si Google está mostrando una respuesta desactualizada. Luego, es importante revisar las Reglas de Transformación en Cloudflare, Responsables de Respuesta y Trabajadores para posibles modificaciones. Se aconseja utilizar curl con el bypass de Googlebot de usuario y caché (Cache-Control: no-cache) para verificar las respuestas del servidor. Si se utiliza WordPress, se sugiere desactivar los plugins de SEO para descartar encabezados dinámicos. Asimismo, se debe iniciar solicitudes de Googlebot en el servidor y verificar si aparece X-Robots-Tag. En caso de que todas estas acciones fallen, se recomienda pasar por Cloudflare señalando el DNS directamente al servidor y repetir el proceso.

El creador del Póster OP mencionó que habían intentado todas esas soluciones, pero no lograron verificar un caché del sitio utilizando GSC, solo el sitio en directo desde el servidor actual y no desde Cloudflare.

Cómo verificar con un Googlebot auténtico

De manera curiosa, el usuario OP mencionó que no lograron verificar su sitio utilizando Googlebot, sin embargo, en realidad existe un método para hacerlo.

El Tester de Resultados Ricos de Google utiliza el agente de usuario de Googlebot y proviene de una dirección IP de Google. Esta herramienta es útil para comprobar cómo ve Google el sitio web. Si un problema está haciendo que la página muestre contenido oculto, el probador de resultados ricos mostrará qué está indexando Google.

LEER  Respuesta: Google Answers si las versiones de audio de los blogs son beneficiosas para el SEO.

Una página de ayuda de Google confirma la existencia de resultados enriquecidos.

Esta herramienta ingresa a la página web como Googlebot, lo que significa que no utiliza tus credenciales, sino que actúa en nombre de Google.

¿Se ha producido un error en la respuesta 401?

Lo que viene a continuación posiblemente no era la respuesta, pero es un dato técnico SEO que resulta algo interesante.

Otro usuario mencionó que un servidor respondió con un error 401, que indica “no autorizado” y ocurre cuando una solicitud de un recurso no tiene credenciales de autenticación o las credenciales proporcionadas no son correctas. Para solucionar la indexación de mensajes bloqueados en Google Search Console, propuso agregar una instrucción en el archivo robots.txt para evitar que se rastreen las URL de la página de inicio de sesión.

John Mueller de Google hablando sobre el error en la Consola de Búsqueda de Google.

John Mueller intervino en la conversación para brindar su asistencia en la identificación del problema. Mencionó haber observado situaciones similares asociadas con CDNs (Redes de Distribución de Contenidos). Destacó que ha notado que este problema también se presenta con URLs antiguas, sugiriendo la posibilidad de un error de indexación vinculado a URLs antiguas.

Estas fueron sus palabras:

Contento de revisar si deseas mostrarme algunos ejemplos. He observado esto con CDNs, lo he visto con rastreos antiguos (cuando el contenido ha estado presente por un largo tiempo y un sitio web tiene muchas URL antiguas indexadas), quizás haya algo novedoso en esta situación.

Principales puntos a tener en cuenta: Se detectó que Google Search Console Index Noindex.

  • Google Search Console (GSC) puede indicar la detección de “noindex” en el encabezado X-Robots-Tag HTTP, aunque este no se encuentre presente.
  • Los proveedores de red de distribución de contenido, como Cloudflare, pueden obstaculizar la indexación. Se proporcionaron instrucciones para verificar si las configuraciones de Cloudflare, los encabezados de respuesta o la caché están teniendo un impacto en la forma en que Googlebot visualiza la página.
  • La información de clasificación desactualizada en el sistema de Google también puede influir.
  • Los resultados detallados de Google Tester permiten a los usuarios comprobar lo mismo que ve Googlebot al utilizar su agente de usuario y dirección IP, lo cual puede revelar diferencias que no serían evidentes al utilizar otro agente de usuario.
  • Las respuestas no autorizadas pueden evitar que las páginas sean indexadas. Un usuario mencionó que su identificación incluía páginas de inicio de sesión que era necesario bloquear para los robots.
  • John Mueller propuso que las CDNs y las URL arrastradas en el historial podrían ser las causas de este problema.
LEER  Google sobre los nombres de archivo de imágenes y un error de SEO sorprendente.

Related Posts

Deja un comentario