Cómo ve el bot de Yandex la página. Cómo actualizar a la nueva versión de Search Console

Guía de migración para usuarios de la versión anterior

Estamos desarrollando una nueva versión de Search Console que eventualmente reemplazará el antiguo servicio. En esta guía, cubriremos las principales diferencias entre la versión antigua y la nueva.

Cambios generales

En la nueva versión de Search Console, hemos implementado las siguientes mejoras:

  • Puede ver los datos de tráfico de búsqueda durante 16 meses en lugar de los tres anteriores.
  • Search Console ahora proporciona información detallada sobre páginas específicas. Esta información incluye URL canónicas, estado de indexación, grado de optimización móvil y más.
  • La nueva versión incluye herramientas que le permiten realizar un seguimiento del rastreo de sus páginas web, corregir errores relacionados y enviar solicitudes de reindexación.
  • El servicio actualizado ofrece tanto herramientas e informes completamente nuevos como antiguos mejorados. Todos ellos se describen a continuación.
  • El servicio se puede utilizar en dispositivos móviles.

Comparación de herramientas e informes

Trabajamos constantemente para modernizar varias herramientas e informes de Search Console, y ya puedes usar muchos de ellos en la versión actualizada de este servicio. A continuación, se comparan las nuevas opciones de informes y herramientas con las anteriores. La lista se actualizará.

Versión antigua del informe. Analógico en la nueva versión de Search Console Comparación
Análisis de consulta de búsqueda El nuevo informe proporciona datos de 16 meses y se ha vuelto más conveniente trabajar con él.
Consejos útiles Informes de estado de resultados enriquecidos Los nuevos informes brindan información detallada para ayudar a solucionar errores y facilitar el envío de solicitudes de reanálisis.
Enlaces a su sitio
Vínculos internos
Enlaces Fusionamos dos informes antiguos en uno nuevo y mejoramos la precisión del recuento de referencias.
Estado de indexación Informe de indexación El nuevo informe tiene todos los datos del anterior, así como información detallada sobre el estado en el índice de Google.
Informe de mapa del sitio Informe de mapa del sitio Los datos del informe siguen siendo los mismos, pero hemos mejorado su diseño. El informe anterior permite probar el Sitemap sin enviarlo, pero el nuevo informe no.
Páginas móviles aceleradas (AMP) Informe de estado de AMP El nuevo informe agrega nuevos tipos de errores para los que puede ver detalles, así como enviar una solicitud para volver a escanear.
Acción manual Acción manual La nueva versión del informe proporciona un historial de acciones manuales, incluidas las solicitudes de revisión enviadas y los resultados de la revisión.
Rastreador de Google para sitios web Herramienta de inspección de URL En la Herramienta de inspección de URL, puede ver información sobre la versión de la URL incluida en el índice y la versión disponible en línea, así como enviar una solicitud de rastreo. Se agregó información sobre las URL canónicas, los bloques noindex y nocrawl, y la presencia de URL en el índice de Google.
Facilidad de visualización en dispositivos móviles Facilidad de visualización en dispositivos móviles Los datos en el informe permanecieron iguales, pero se volvió más conveniente trabajar con ellos. También hemos agregado la capacidad de solicitar que se vuelva a escanear una página después de que se hayan solucionado los problemas de visualización móvil.
Informe de errores de escaneo Informe de indexación y herramienta de control de URL

Los errores de rastreo a nivel de sitio se muestran en el nuevo informe de indexación. Para encontrar errores a nivel de página, utilice la nueva herramienta de inspección de URL. Los nuevos informes lo ayudan a priorizar problemas y agrupar páginas con problemas similares para identificar causas comunes.

El informe anterior mostraba todos los errores de los últimos tres meses, incluidos los irrelevantes, temporales y menores. Un nuevo informe destaca los problemas que son importantes para Google durante el último mes. Solo verá problemas que podrían hacer que la página se elimine del índice o evitar que se indexe.

Los problemas se muestran en función de las prioridades. Por ejemplo, los errores 404 solo se marcan como errores si solicitó que la página se indexe a través de un mapa del sitio o de otra manera.

Con estos cambios, podrá concentrarse más en los problemas que afectan la posición de su sitio en el índice de Google, en lugar de lidiar con una lista de todos los errores que Googlebot ha encontrado en su sitio.

En el nuevo informe de indexación, los siguientes errores se han convertido o ya no se muestran:​

Errores de URL: para usuarios de computadoras

Tipo de error antiguo Analógico en la nueva versión
Error del Servidor En el informe de indexación, todos los errores del servidor se indican con la bandera Error del servidor (5xx).
error 404 falso
  • Error: la URL enviada devuelve un error 404 falso.
  • Excluido: error 404 falso.
Acceso denegado

El informe de indexación enumera una de las siguientes categorías, dependiendo de si solicitó procesamiento para este tipo de error:

  • Error: la URL enviada devuelve un error 401 (Solicitud no autorizada).
  • Excepción: página no indexada debido a un error 401 (solicitud no autorizada).
Extraviado

El informe de indexación se indica de una de las siguientes formas, dependiendo de si solicitó procesamiento para este tipo de error:

  • Error: URL enviada no encontrada (404).
  • Excluido: no encontrado (404).
Otro El informe de indexación establece como Error de exploración.

Errores de URL: para usuarios de teléfonos inteligentes

Los errores de los teléfonos inteligentes no se muestran actualmente, pero esperamos incluirlos en el futuro.

Errores del sitio

La nueva versión de Search Console no muestra errores del sitio.

Informe de problemas de seguridad Nuevo informe de problemas de seguridad El nuevo Informe de problemas de seguridad conserva gran parte de la funcionalidad del informe anterior y agrega un historial de problemas del sitio.
Datos estructurados Comprobador de resultados enriquecidos y informes de estado de resultados enriquecidos Para procesar URL individuales, utilice el Comprobador de resultados enriquecidos o el Comprobador de URL. La información de todo el sitio se puede encontrar en los informes de estado de resultados enriquecidos para su sitio. Todavía no están disponibles todos los tipos de datos de resultados enriquecidos, pero la cantidad de informes crece constantemente.
optimización HTML No hay ningún informe similar en la nueva versión. Para crear títulos informativos y descripciones de página, siga nuestras pautas.
Recursos bloqueados Herramienta de inspección de URL No hay forma de ver los recursos bloqueados para todo el sitio, pero con la herramienta de inspección de URL, puede ver los recursos bloqueados para cada página individual.
Aplicaciones Android A partir de marzo de 2019, Search Console ya no será compatible con las aplicaciones de Android.
Kits de recursos A partir de marzo de 2019, Search Console ya no admitirá conjuntos de recursos.

No ingrese la misma información dos veces. Los datos y consultas contenidos en una versión de Search Console se duplican automáticamente en otra. Por ejemplo, si envió una solicitud de revalidación o un mapa del sitio en la consola de búsqueda anterior, no necesita enviarlo nuevamente en la nueva.

Nuevas formas de hacer tareas familiares

En la nueva versión de Search Console, algunas de las operaciones anteriores se realizan de forma diferente. Los principales cambios se enumeran a continuación.

Funciones no admitidas actualmente

Las funciones que se enumeran a continuación aún no están implementadas en la nueva versión de Search Console. Para usarlos, regrese a la interfaz anterior.

  • Estadísticas de rastreo (número de páginas escaneadas por día, su tiempo de descarga, número de kilobytes descargados por día).
  • Comprobando el archivo robots.txt.
  • Administre los parámetros de URL en la Búsqueda de Google.
  • Herramienta marcador.
  • Leer mensajes y gestionarlos.
  • Herramienta "Cambiar dirección".
  • Especificación del dominio principal.
  • Vincular una propiedad de Search Console a una propiedad de Google Analytics.
  • Rechazar enlaces.
  • Eliminación de datos obsoletos del índice.

¿Fue útil esta información?

¿Cómo se puede mejorar este artículo?

Buen día, lectores. Siempre recibo muchas preguntas de webmasters, propietarios de sitios y blogueros sobre errores y mensajes que aparecen en Yandex.Webmaster. Muchos de estos mensajes dan miedo.

Pero quiero decir que no todos los mensajes son críticos para el sitio. Y en los próximos artículos intentaré cubrir todas las posibles preguntas que los webmasters puedan tener de la forma más completa posible. Este artículo cubrirá las siguientes secciones:

  1. Diagnóstico - Diagnóstico del sitio
  2. Indexación - Páginas en búsqueda

Sobre eso, y por qué es necesario, escribí hace unos años. Si no está familiarizado con esta herramienta, lea primero el artículo en el enlace.

Diagnóstico del sitio

Posibles problemas

1. La directiva de host no está configurada en el archivo robots.txt

Esta nota de Yandex es notable porque la directiva Host no es una directiva estandarizada; solo el motor de búsqueda de Yandex la admite. Es necesario si Yandex determina incorrectamente el espejo del sitio.

Como regla general, Yandex determina automáticamente un espejo del sitio en función de las URL generadas por el propio CMS y en función de los enlaces externos que conducen al sitio. Para especificar el espejo del sitio principal, no es necesario indicarlo en el archivo robots.txt. La forma principal es usar la redirección 301, que se configura automáticamente en el CMS o se ingresa el código necesario en el archivo .htachess.

Llamo su atención sobre el hecho de que debe especificar la directiva en el archivo robots.txt en los casos en que Yandex determina incorrectamente el espejo principal del sitio, y no puede influir en esto de ninguna otra manera.

Los CMS con los que he trabajado últimamente, WordPress, Joomla, ModX, por defecto redirigen la dirección de www a sin, si la configuración del sistema especifica la dirección del sitio sin prefijo. Estoy seguro de que todos los CMS modernos tienen esta capacidad. Incluso mi Blogger favorito redirige correctamente la dirección de un blog ubicado en su propio dominio.

2. Faltan metaetiquetas

El problema no es crítico, no hay que tenerle miedo, pero si es posible, es mejor solucionarlo que no prestar atención. Si su CMS no proporciona la creación de metaetiquetas de forma predeterminada, comience a buscar un complemento, complemento, extensión o como se llame en su CMS, para poder configurar manualmente la descripción de la página, o para que la descripción se genere automáticamente a partir de las primeras palabras del artículo.

3. No hay archivos de mapa del sitio utilizados por el robot

Por supuesto, es mejor corregir este error. Pero tenga en cuenta que el problema puede ocurrir tanto en los casos en que el archivo sitemap.xml está presente como en aquellos en los que realmente no lo está. Si tiene el archivo, pero Yandex no lo ve, simplemente vaya a la sección Indexación - Archivos de mapa del sitio. Y agregue manualmente el archivo a Yandex.Webmaster. Si no tiene ningún archivo de este tipo, entonces, dependiendo del CMS utilizado, busque soluciones.

El archivo sitemap.xml se encuentra en http://your-domen.ru/sitemap.xml

4. Archivo Robots.txt no encontrado

Sin embargo, este archivo debería serlo, y si tiene la oportunidad de conectarlo, es mejor que lo haga. Y preste atención al elemento con la directiva Host.

El archivo robots.txt se encuentra en http://your-domain.ru/robots.txt

En esto, la fuente de errores en la pestaña Diagnóstico del sitio se ha secado para mí.

Indexación

paginas en busqueda

Comencemos desde este punto. Esto facilitará la estructuración de la información.

Destacar en el filtro "Todas las páginas"
Bajamos a la derecha en la página "Descargar hoja de cálculo" Seleccionamos XLS y abrimos el archivo en Excel.


Obtenemos una lista de páginas que están en búsqueda, es decir Yandex los conoce, los clasifica, los muestra a los usuarios.
Miramos, cuántos registros en la tabla. Tengo 289 páginas.

¿Y cómo entender cuánto debería ser? Cada sitio es único y solo tú puedes saber cuántas páginas tienes publicadas. Usaré mi blog de WordPress como ejemplo.
El blog al momento de escribir tiene:

  • Entradas - 228
  • Páginas - 17
  • Encabezados - 4
  • Etiquetas - 41
  • + página principal del sitio

En total, tenemos 290 páginas que deberían estar en el índice. En comparación con los datos de la tabla, la diferencia es de solo 1 página. Puede considerar con seguridad que este es un muy buen indicador. Pero es demasiado pronto para alegrarse. Sucede que matemáticamente todo coincide, pero cuando empiezas a analizar aparecen inconsistencias.

Hay dos formas de encontrar esa página que no está en la búsqueda. Consideremos ambos.

Método uno. En la misma tabla que descargué, dividí la búsqueda en varias etapas. Primero, seleccioné las páginas de la Rúbrica. Solo tengo 4 secciones. Para optimizar su trabajo, use filtros de texto en Excel.


Luego Etiquetas, Páginas excluidas de la búsqueda, como resultado, solo los artículos permanecieron en la tabla. Y aquí, por muchos artículos que haya, tendrás que hojear cada uno para encontrar el que no está en el índice.

Llamo su atención sobre el hecho de que cada CMS tiene su propia estructura. Cada webmaster tiene su propio archivo SEO, canonical, robots.txt.

Nuevamente, si usa WordPress como ejemplo, preste atención a qué secciones de su sitio están indexadas y cuáles están cerradas. Puede haber páginas del Archivo por meses y años, páginas del Autor, paginación de páginas. Tengo todas estas secciones cerradas por la configuración de la metaetiqueta de robots. Puede ser diferente para usted, así que considere todo lo que no está prohibido para la indexación.

Tomando Blogger como ejemplo, los propietarios de blogs solo necesitan contar las publicaciones, las páginas y el inicio publicados. Todas las demás páginas de archivos y etiquetas están cerradas para la indexación por configuración.

Método dos. Volvemos a Webmaster, seleccionamos "Páginas excluidas" en el filtro.

Ahora tenemos una lista de páginas que están excluidas de la búsqueda. La lista puede ser grande, mucho más grande que con las páginas incluidas en la búsqueda. No hay necesidad de tener miedo de que algo esté mal con el sitio.

Al escribir el artículo, traté de trabajar en la interfaz de Webmaster, pero no obtuve la funcionalidad deseada, quizás este sea un fenómeno temporal. Por lo tanto, como en la versión anterior, trabajaré con datos tabulares, también puede descargar la tabla en la parte inferior de la página.

Nuevamente, usando mi blog de WordPress como ejemplo, analizaré las razones típicas de una excepción.

En la tabla resultante, nos interesa principalmente la columna D - "httpCode". Quien no sepa qué son las respuestas del servidor, lea en wikipedia. Esto le facilitará la comprensión de lo que sigue.

Comencemos con el código 200. Si puede acceder a alguna página en Internet sin autorización, dicha página tendrá un estado de 200. Todas esas páginas pueden excluirse de la búsqueda por las siguientes razones:

  1. Prohibido por la metaetiqueta de robots
  2. Prohibido indexar en el archivo robots.txt
  3. No son canónicos, se establece la metaetiqueta canónica

Usted, como propietario del sitio, necesita saber qué páginas tienen qué configuración. Por lo tanto, ordenar la lista de páginas excluidas no debería ser difícil.

Configurar filtros, seleccionar en la columna D - 200

Ahora estamos interesados ​​​​en la columna E - "estado", lo ordenamos.

Estado de BAD_QUALITY- Mala calidad. El estado más molesto de todos. Vamos a desglosarlo.

En mi tabla, solo había 8 URL con el estado No lo suficientemente bueno. Los enumeré en la columna de la derecha.

URL 1, 5, 7: páginas de fuentes, 2,3,4,5,8: páginas de servicios en el directorio del sitio wp-json. Todas estas páginas no son documentos HTML y, en principio, no deberían estar en esta lista.

Así que revise su lista de páginas con cuidado y resalte solo las páginas HTML.

Estado META_NO_INDEX. Las páginas de paginación, la página del autor, se excluyen del índice debido a la configuración de la metaetiqueta de robots.

Pero hay una página en esta lista que no debería estar. Resalté la URL en azul.

Estado NOT_CANONICAL. El nombre habla por sí mismo. Página no canónica. En cualquier página del sitio, puede establecer la metaetiqueta canónica, en la que especifica la URL canónica.


La promoción de su sitio web debe incluir la optimización de la página para llamar la atención de las arañas de búsqueda. Antes de comenzar a crear un sitio web compatible con los motores de búsqueda, debe saber cómo los bots ven su sitio.

los motores de búsqueda no son realmente arañas, sino pequeños programas que se envían para analizar su sitio después de conocer la URL de su página. Los motores de búsqueda también pueden llegar a su sitio a través de enlaces a su sitio web dejados en otros recursos de Internet.

Tan pronto como el robot llegue a su sitio web, comenzará inmediatamente a indexar las páginas leyendo el contenido de la etiqueta BODY. También lee completamente todas las etiquetas HTML y enlaces a otros sitios.

Luego, los motores de búsqueda copian el contenido del sitio a la base de datos principal para su posterior indexación. Todo este proceso puede llevar hasta tres meses.

Optimización de motores de búsqueda no es una cosa tan fácil. Debe crear un sitio web compatible con arañas. Los bots no prestan atención al diseño web flash, solo quieren información. Si miras el sitio web a través de los ojos de un robot de búsqueda, parecería bastante estúpido.

Es aún más interesante mirar a través de los ojos de una araña los sitios de los competidores. Competidores no solo en su campo, sino simplemente recursos populares que pueden no necesitar ninguna optimización de motor de búsqueda. En general, es muy interesante ver cómo se ven diferentes sitios a través de los ojos de los robots.

Solo texto

Robots de búsqueda vea su sitio más como lo hacen los navegadores de texto. Les encanta el texto e ignoran la información contenida en las imágenes. Las arañas pueden leer sobre la imagen si recuerda agregar una etiqueta ALT con una descripción. Es profundamente frustrante para los diseñadores web que crean sitios complejos con bellas imágenes y muy poco contenido de texto.

De hecho, a los motores de búsqueda les encanta cualquier texto. Solo pueden leer código HTML. Si tiene muchos formularios o javascript o cualquier otra cosa en la página que pueda impedir que el motor de búsqueda lea el código HTML, la araña simplemente lo ignorará.

Lo que los robots de búsqueda quieren ver

Cuando un motor de búsqueda rastrea su página, busca una serie de cosas importantes. Después de archivar su sitio, el robot de búsqueda comenzará a clasificarlo de acuerdo con su algoritmo.

arañas de búsqueda protegen y, a menudo, cambian sus algoritmos para que los spammers no puedan adaptarse a ellos. Es muy difícil diseñar un sitio web que obtenga una alta clasificación en todos los motores de búsqueda, pero puede obtener alguna ventaja al incluir los siguientes elementos en todas sus páginas web:

  • Palabras clave
  • Etiquetas META
  • Títulos
  • Enlaces
  • El texto seleccionado

Leer como un motor de búsqueda

Después de haber desarrollado un sitio, debe desarrollarlo y promocionarlo en los motores de búsqueda. Pero mirar el sitio solo en el navegador no es la técnica mejor y más exitosa. No es fácil evaluar tu trabajo con una mente abierta.

Es mucho mejor mirar su creación a través de los ojos de un simulador de búsqueda. En este caso, obtendrá mucha más información sobre las páginas y cómo las ve la araña.

Hemos creado un no mal, en nuestra humilde opinión, simulador de motor de búsqueda. Podrá ver la página web como la ve la araña de búsqueda. También mostrará la cantidad de palabras clave que ingresó, enlaces locales y salientes, etc.

Las Herramientas para webmasters le permiten comprender cómo se ve su página para los robots de Google. Los encabezados del servidor y el código HTML ayudan a identificar los errores y las consecuencias de un ataque, pero a veces puede ser difícil entenderlos. Los webmasters suelen estar alerta cuando tienen que lidiar con tales problemas. Para ayudarlo en situaciones como esta, hemos mejorado esta función para que pueda publicar la página con el mismo algoritmo que usa Googlebot.

Cómo se muestra la página escaneada
Al procesar una página, Googlebot busca e importa todos los archivos relacionados de fuentes externas. Suelen ser imágenes, hojas de estilo, elementos de JavaScript y otros archivos incrustados con CSS o JavaScript. El sistema los usa para mostrar la página de la forma en que Googlebot la ve.
La función está disponible en la sección "Escanear" de su cuenta de Herramientas para webmasters de Google. Tenga en cuenta que el procesamiento de la página y su posterior visualización pueden llevar bastante tiempo. Una vez completado, pase el mouse sobre la línea que contiene la URL deseada para ver el resultado.



Manejo de recursos bloqueados en el archivo robots.txt
Al procesar el código, Googlebot respeta las instrucciones especificadas en el archivo robots.txt. Si prohíben el acceso a ciertos elementos, el sistema no utilizará dichos materiales para la vista previa. Esto también sucederá si el servidor no responde o devuelve un error. Los datos relevantes se pueden encontrar en la sección Errores de rastreo de su cuenta de Herramientas para webmasters de Google. Además, se mostrará una lista completa de dichas fallas después de que se haya creado la imagen de vista previa de la página.
Le recomendamos que se asegure de que Googlebot tenga acceso a todos los recursos incrustados que tenga en su sitio o diseño. Esto facilitará su experiencia con Browse Like Googlebot, permitirá que el bot detecte e indexe correctamente el contenido de su sitio y lo ayudará a comprender cómo se rastrean sus páginas. Algunos fragmentos de código, como botones de redes sociales, scripts de herramientas de análisis y fuentes, por lo general no definen el estilo de la página, por lo que no es necesario escanearlos. Lea más sobre cómo Google analiza el contenido web en el artículo anterior.
Esperamos que nuestra innovación lo ayude a resolver problemas con el diseño del sitio y descubrir recursos que Google no puede rastrear por una u otra razón. Si tiene preguntas, comuníquese con nosotros en Google Plus Webmaster Community o busque