Как Yandex бот вижда страницата. Как да надстроите до новата версия на Search Console

Ръководство за миграция за потребители на старата версия

Разработваме нова версия на Search Console, която в крайна сметка ще замени старата услуга. В това ръководство ще разгледаме основните разлики между старата и новата версия.

Общи промени

В новата версия на Search Console внедрихме следните подобрения:

  • Можете да видите данни за трафика от търсене за 16 месеца вместо предишните три.
  • Search Console вече предоставя подробна информация за конкретни страници. Тази информация включва канонични URL адреси, състояние на индексиране, степен на мобилна оптимизация и др.
  • Новата версия включва инструменти, които ви позволяват да проследявате обхождането на вашите уеб страници, да коригирате свързани грешки и да подавате заявки за повторно индексиране.
  • Обновената услуга предлага както напълно нови инструменти и отчети, така и подобрени стари. Всички те са описани по-долу.
  • Услугата може да се използва на мобилни устройства.

Сравнение на инструменти и отчети

Ние непрекъснато работим върху модернизирането на различни инструменти и отчети на Search Console и вече можете да използвате много от тях в актуализираната версия на тази услуга. По-долу новият отчет и опциите за инструменти се сравняват със старите. Списъкът ще бъде актуализиран.

Стара версия на доклада Аналог в новата версия на Search Console Сравнение
Анализ на заявки за търсене Новият отчет предоставя данни за 16 месеца и с него стана по-удобно да се работи.
Полезни съвети Разширено отчитане на състоянието на резултатите Новите отчети предоставят подробна информация, която помага за отстраняването на грешки и улеснява изпращането на заявки за повторно сканиране.
Връзки към вашия сайт
Вътрешни връзки
Връзки Обединихме два стари отчета в един нов и подобрихме точността на броене на референтните данни.
Статус на индексиране Доклад за индексиране Новият отчет съдържа всички данни от стария, както и подробна информация за състоянието в индекса на Google.
Отчет за Sitemap Отчет за Sitemap Данните в отчета остават същите, но сме подобрили неговия дизайн. Старият отчет поддържа тестване на Sitemap, без да се изпраща, но новият не го прави.
Ускорени мобилни страници (AMP) Отчет за състоянието на AMP Новият отчет добавя нови типове грешки, за които можете да видите подробности, както и да изпратите заявка за повторно сканиране.
Ръчно действие Ръчно действие Новата версия на отчета предоставя история на ръчните действия, включително подадени заявки за преглед и резултати от преглед.
Google Crawler за уебсайтове Инструмент за проверка на URL адреси В инструмента за проверка на URL адресите можете да видите информация за версията на URL адреса, включена в индекса, и версията, налична онлайн, както и да подадете заявка за обхождане. Добавена е информация за канонични URL адреси, блокове за noindex и nocrawl и присъствието на URL адреси в индекса на Google.
Лесно гледане на мобилни устройства Лесно гледане на мобилни устройства Данните в отчета останаха същите, но стана по-удобно да се работи с него. Добавихме и възможността да поискате повторно сканиране на страница, след като проблемите с мобилното гледане са отстранени.
Доклад за грешка при сканиране Доклад за индексиранеи инструмент за проверка на URL адреси

Грешките при обхождане на ниво сайт са показани в новия отчет за индексиране. За да намерите грешки на ниво страница, използвайте новия инструмент за проверка на URL адреси. Новите отчети ви помагат да приоритизирате проблемите и да групирате страници с подобни проблеми, за да идентифицирате често срещаните причини.

Старият отчет показва всички грешки за последните три месеца, включително неуместни, временни и незначителни. Нов доклад подчертава проблеми, които са важни за Google през последния месец. Ще видите само проблеми, които могат да доведат до премахването на страницата от индекса или да попречат на индексирането й.

Проблемите се показват въз основа на приоритетите. Например, 404 грешки се маркират като грешки само ако сте поискали страницата да бъде индексирана чрез карта на сайта или по друг начин.

С тези промени ще можете да се съсредоточите повече върху проблеми, които засягат позицията на сайта ви в индекса на Google, вместо да се занимавате със списък с всяка грешка, която Googlebot някога е открил на вашия сайт.

В новия отчет за индексиране следните грешки са преобразувани или вече не се показват:​

URL грешки - за потребители на компютри

Стар тип грешка Аналог в новата версия
грешка в сървъра В отчета за индексиране всички грешки на сървъра са обозначени с флага Грешка в сървъра (5xx).
Фалшива грешка 404
  • Грешка: Изпратеният URL връща фалшива грешка 404.
  • Изключено: фалшива грешка 404.
Достъпът е отказан

Отчетът за индексиране изброява една от следните категории, в зависимост от това дали сте заявили обработка за този тип грешка:

  • Грешка: Изпратеният URL връща грешка 401 (Неоторизирана заявка).
  • Изключение: Страницата не е индексирана поради грешка 401 (Неоторизирана заявка).
Не е намерен

Отчетът за индексиране се посочва по един от следните начини, в зависимост от това дали сте заявили обработка за този тип грешка:

  • Грешка: Изпратеният URL не е намерен (404).
  • Изключено: не е намерено (404).
Друго Докладът за индексиране посочва като Грешка при сканиране.

URL грешки - за потребители на смартфони

Понастоящем грешки в смартфона не се показват, но се надяваме да ги включим в бъдеще.

Грешки в сайта

Новата версия на Search Console не показва грешки в сайта.

Доклад за проблеми със сигурността Нов доклад за проблем със сигурността Новият доклад за проблеми със сигурността запазва голяма част от функционалността на стария отчет и добавя история на проблемите на сайта.
Структурирани данни Проверка на богати резултатии богати отчети за състоянието на резултатите За да обработите отделни URL адреси, използвайте инструмента за проверка на богати резултати или инструмента за проверка на URL адреси. Информация за целия сайт може да бъде намерена в богатите отчети за състоянието на резултатите за вашия сайт. Все още не са налични всички типове данни с богати резултати, но броят на отчетите непрекъснато нараства.
HTML оптимизация Няма подобен доклад в новата версия. За да създадете информативни заглавия и описания на страници, следвайте нашите указания.
Заключени ресурси Инструмент за проверка на URL адреси Няма начин да видите блокирани ресурси за целия сайт, но с инструмента за проверка на URL адресите можете да видите блокирани ресурси за всяка отделна страница.
Приложения за Android От март 2019 г. Search Console вече няма да поддържа приложения за Android.
Ресурсни комплекти От март 2019 г. Search Console вече няма да поддържа набори от ресурси.

Не въвеждайте една и съща информация два пъти.Данните и заявките, съдържащи се в една версия на Search Console, автоматично се дублират в друга. Например, ако сте изпратили заявка за повторно потвърждаване или карта на сайта в старата Search Console, не е необходимо да я изпращате отново в новата.

Нови начини за изпълнение на познати задачи

В новата версия на Search Console някои от предишните операции се изпълняват по различен начин. Основните промени са изброени по-долу.

Функции, които в момента не се поддържат

Изброените по-долу функции все още не са внедрени в новата версия на Search Console. За да ги използвате, върнете се към предишния интерфейс.

  • Статистика за обхождане (брой сканирани страници на ден, време за изтегляне, брой изтеглени килобайти на ден).
  • Проверка на файла robots.txt.
  • Управлявайте параметрите на URL в Google Търсене.
  • Инструмент за маркер.
  • Четете съобщения и ги управлявайте.
  • Инструмент "Промяна на адрес".
  • Посочване на основния домейн.
  • Свързване на собственост в Search Console със собственост в Google Анализ.
  • Отхвърляне на връзки.
  • Премахване на остарели данни от индекса.

Тази информация беше ли полезна?

Как може да се подобри тази статия?

Добър ден, читатели. Винаги получавам много въпроси от уеб администратори, собственици на сайтове и блогъри относно грешки и съобщения, които се появяват в Yandex.Webmaster. Много от тези съобщения са страшни.

Но искам да кажа, че не всички съобщения са критични за сайта. И в следващите статии ще се опитам да обхвана възможно най-пълно всички възможни въпроси, които уеб администраторите могат да имат. Тази статия ще обхване следните раздели:

  1. Диагностика - Диагностика на сайта
  2. Индексиране - Страници в търсене

За това и защо е необходимо, писах преди няколко години. Ако не сте запознати с този инструмент, моля, прочетете първо статията на връзката.

Диагностика на сайта

Възможни проблеми

1. Директивата за хост не е зададена във файла robots.txt

Тази бележка от Yandex е забележителна с това, че директивата Host не е стандартизирана директива; само търсачката Yandex я поддържа. Необходимо е, ако Yandex неправилно определи огледалото на сайта.

По правило огледалото на сайта се определя автоматично от Yandex въз основа на URL адресите, генерирани от самата CMS и въз основа на външни връзки, които водят към сайта. За да посочите главното огледало на сайта, не е необходимо да посочвате това във файла robots.txt. Основният начин е да използвате 301 пренасочване, което или се конфигурира автоматично в CMS, или необходимия код се въвежда във файла .htachess.

Обръщам вниманието ви на факта, че трябва да посочите директивата във файла robots.txt в случаите, когато Yandex неправилно определя основното огледало на сайта и не можете да повлияете на това по друг начин.

CMS, с който работих напоследък, WordPress, Joomla, ModX, по подразбиране пренасочва адреса от www към без, ако системните настройки определят адреса на сайта без префикс. Сигурен съм, че всички съвременни CMS имат тази възможност. Дори любимият ми Blogger пренасочва правилно адреса на блог, разположен в собствения му домейн.

2. Липсващи мета тагове

Проблемът не е критичен, не е нужно да се страхувате от него, но ако е възможно, по-добре е да го поправите, отколкото да не обръщате внимание. Ако вашият CMS не предвижда създаването на мета тагове по подразбиране, тогава започнете да търсите плъгин, добавка, разширение или както се нарича във вашия CMS, за да можете ръчно да зададете описанието на страницата, или така че описанието да се генерира автоматично от първите думи на статията.

3. Няма файлове с карта на сайта, използвани от робота

Разбира се, по-добре е да коригирате тази грешка. Но имайте предвид, че проблемът може да възникне както в случаите, когато файлът sitemap.xml присъства, така и в случаите, когато наистина не е. Ако имате файла, но Yandex не го вижда, просто отидете в раздела Индексиране - Файлове на Sitemap. И ръчно добавете файла към Yandex.Webmaster. Ако изобщо нямате такъв файл, тогава, в зависимост от използвания CMS, потърсете решения.

Файлът sitemap.xml се намира на адрес http://your-domen.ru/sitemap.xml

4. Файлът Robots.txt не е намерен

Въпреки това този файл трябва да бъде и ако имате възможност да го свържете, по-добре е да го направите. И обърнете внимание на елемента с директивата Host.

Файлът robots.txt се намира на адрес http://your-domain.ru/robots.txt

На това фонтанът от грешки в раздела „Диагностика на сайта“ за мен пресъхна.

Индексиране

Страници в търсене

Да започнем от тази точка. Това ще улесни структурирането на информацията.

Маркирайте във филтъра „Всички страници“.
Слизаме вдясно на страницата "Изтегляне на електронна таблица" Изберете XLS и отворете файла в Excel.


Получаваме списък със страници, които се търсят, т.е. Yandex знае за тях, класира ги, показва ги на потребителите.
Гледаме колко записи в таблицата. Имам 289 страници.

И как да разбера колко трябва да бъде? Всеки сайт е уникален и само вие можете да знаете колко страници сте публикували. Ще използвам блога си на WordPress като пример.
Блогът към момента на писане има:

  • Вписвания - 228
  • Страници - 17
  • Заглавия - 4
  • Етикети - 41
  • + главна страница на сайта

Общо имаме 290 страници, които трябва да бъдат в индекса. В сравнение с данните в таблицата разликата е само 1 страница. Можете спокойно да считате това за много добър индикатор. Но е рано да се радваме. Случва се всичко да съвпада математически, но когато започнете да анализирате, се появяват несъответствия.

Има два начина да намерите тази страница, която не е в търсенето. Нека разгледаме и двете.

Метод първи. В същата таблица, която изтеглих, разделих търсенето на няколко етапа. Първо избрах страниците на рубриката. Имам само 4 секции. За да оптимизирате работата си, използвайте текстови филтри в Excel.


След това етикети, изключени страници от търсенето, в резултат на това в таблицата остават само статии. И тук, без значение колко статии има, ще трябва да прегледате всяка, за да намерите тази, която не е в индекса.

Обръщам внимание на факта, че всяка CMS има своя собствена структура. Всеки уеб администратор има свой собствен SEO, каноничен файл robots.txt.

Отново, ако използвате WordPress като пример, обърнете внимание кои секции от вашия сайт са индексирани и кои са затворени. Може да има страници на Архива по месеци и години, страници на Автора, страници на страници. Всички тези секции са затворени от настройките на мета тагове на robots. При вас може да е различно, така че помислете за всичко, което не е забранено за индексиране.

Като вземем Blogger като пример, собствениците на блогове трябва да броят само публикуваните публикации, страници и начална страница. Всички останали страници с архиви и тагове са затворени за индексиране по настройки.

Метод втори. Връщаме се към уеб администратора, избираме "Изключени страници" във филтъра.

Сега имаме списък със страници, които са изключени от търсенето. Списъкът може да бъде голям, много по-голям, отколкото със страниците, включени в търсенето. Няма нужда да се страхувате, че нещо не е наред със сайта.

Когато пишех статията, се опитах да работя в интерфейса за уеб администратори, но не получих желаната функционалност, може би това е временно явление. Следователно, както в предишната версия, ще работя с таблични данни, можете също да изтеглите таблицата в долната част на страницата.

Отново, като използвам моя блог WordPress като пример, ще разгледам типичните причини за изключение.

В получената таблица ние се интересуваме предимно от колона D - „httpCode“. Който не знае какви са отговорите на сървъра, прочетете в wikipedia. Това ще ви улесни да разберете какво следва.

Нека започнем с код 200. Ако можете да стигнете до някоя страница в Интернет без оторизация, тогава такава страница ще има статус 200. Всички такива страници могат да бъдат изключени от търсенето поради следните причини:

  1. Забранено от метатаг на robots
  2. Забранено е индексирането във файла robots.txt
  3. Са неканонични, каноничният мета таг е зададен

Вие, като собственик на сайта, трябва да знаете кои страници имат какви настройки. Следователно сортирането на списъка с изключени страници не би трябвало да е трудно.

Настройте филтри, изберете в колона D - 200

Сега ни интересува колона E - „състояние“, сортираме я.

Състояние на BAD_QUALITY- Лошо качество. Най-досадното състояние от всички. Нека го разбием.

В моята таблица имаше само 8 URL адреса със статус Не е достатъчно добър. Номерирах ги в дясната колона.

URL адреси 1, 5, 7 - страници с емисии, 2,3,4,5,8 - страници за услуги в директорията на сайта wp-json. Всички тези страници не са HTML документи и по принцип не трябва да са в този списък.

Затова прегледайте внимателно списъка си със страници и маркирайте само HTML страниците.

Състояние META_NO_INDEX.Страниците за страници, страницата на автора, са изключени от индекса поради настройките на метатага robots

Но в този списък има страница, която не трябва да бъде. Маркирах URL адреса в синьо.

NOT_CANONICAL състояние.Името говори само за себе си. Неканонична страница. На всяка страница на сайта можете да зададете каноничния мета таг, в който да посочите каноничния URL адрес.


Промоцията на вашия уебсайт трябва да включва оптимизация на страници, за да привлече вниманието на паяците за търсене. Преди да започнете да създавате удобен за търсачки уебсайт, трябва да знаете как ботовете виждат вашия сайт.

търсачкине всъщност паяци, а малки програми, които се изпращат да анализират вашия сайт, след като знаят URL адреса на вашата страница. Търсачките могат също да стигнат до вашия сайт чрез връзки към вашия уебсайт, оставени в други интернет ресурси.

Веднага щом роботът стигне до вашия уебсайт, той незабавно ще започне да индексира страници, като прочете съдържанието на маркера BODY. Той също така напълно чете всички HTML тагове и връзки към други сайтове.

След това търсачките копират съдържанието на сайта в основната база данни за последващо индексиране. Целият този процес може да отнеме до три месеца.

Оптимизация за търсачкине е толкова лесно нещо. Трябва да създадете удобен за паяци уебсайт. Ботовете не обръщат внимание на флаш уеб дизайна, те искат само информация. Ако погледнете уебсайта през очите на робот за търсене, той ще изглежда доста глупаво.

Още по-интересно е да погледнете през очите на паяк на сайтовете на конкурентите. Конкуренти не само във вашата област, а просто популярни ресурси, които може да не се нуждаят от оптимизация за търсачки. Като цяло е много интересно да се види как изглеждат различните сайтове през очите на роботите.

Само текст

Търсене роботивиждайте сайта си по-подобно на текстовите браузъри. Те обичат текста и игнорират информацията, съдържаща се в снимките. Паяците могат да прочетат за снимката, ако не забравяте да добавите ALT таг с описание. Това е дълбоко разочароващо за уеб дизайнерите, които създават сложни сайтове с красиви снимки и много малко текстово съдържание.

Всъщност търсачките просто обичат всеки текст. Те могат да четат само HTML код. Ако имате много формуляри или javascript или нещо друго на страницата, което може да блокира търсачката да чете HTML кода, паякът просто ще го игнорира.

Какво искат да видят ботовете за търсене

Когато търсачката обхожда вашата страница, тя търси редица важни неща. След като архивира вашия сайт, роботът за търсене ще започне да го класира в съответствие с неговия алгоритъм.

паяци за търсенепазят и често променят алгоритмите си, така че спамърите да не могат да се адаптират към тях. Много е трудно да се създаде уебсайт, който да се класира високо във всички търсачки, но можете да получите известно предимство, като включите следните елементи във всичките си уеб страници:

  • Ключови думи
  • МЕТА тагове
  • Заглавия
  • Връзки
  • Избраният текст

Четете като търсачка

След като сте разработили сайт, трябва да го разработите и популяризирате в търсачките. Но гледането на сайта само в браузъра не е най-добрата и успешна техника. Не е лесно да оцените работата си с отворен ум.

Много по-добре е да погледнете творението си през очите на симулатор за търсене. В този случай ще получите много повече информация за страниците и как ги вижда паякът.

Създадохме нелош, по наше скромно мнение, симулатор на търсачки. Ще можете да видите уеб страницата така, както я вижда паякът за търсене. Той също така ще покаже броя на въведените от вас ключови думи, локални и изходящи връзки и т.н.

Инструментите за уеб администратори ви позволяват да разберете как изглежда вашата страница за Googlebots. Заглавките на сървъра и HTML кодът помагат да се идентифицират грешките и последствията от хакване, но понякога може да е трудно да ги разберете. Уеб администраторите обикновено са на крака, когато трябва да се справят с подобни проблеми. За да ви помогнем в ситуации като тази, подобрихме тази функция, така че да може да обслужва страницата, използвайки същия алгоритъм, който използва Googlebot.

Как се показва сканираната страница
Когато обработва страница, Googlebot търси и импортира всички свързани файлове от външни източници. Това обикновено са изображения, стилови таблици, JavaScript елементи и други файлове, вградени с CSS или JavaScript. Системата ги използва, за да покаже страницата по начина, по който Googlebot я вижда.
Функцията е достъпна в секцията „Сканиране“ на вашия акаунт в Инструменти за уеб администратори. Моля, имайте предвид, че обработката на страницата и последващото й показване може да отнеме доста дълго време. След като приключите, задръжте курсора на мишката върху реда, съдържащ желания URL, за да видите резултата.



Обработване на ресурси, блокирани във файла robots.txt
Когато обработва кода, Googlebot спазва инструкциите, посочени във файла robots.txt. Ако те забранят достъпа до определени елементи, системата няма да използва такива материали за предварителен преглед. Това също ще се случи, ако сървърът не отговори или върне грешка. Съответните данни могат да бъдат намерени в секцията Грешки при обхождане на вашия акаунт в Инструменти за уеб администратори. Освен това, след генериране на изображението за предварителен преглед на страницата ще се покаже пълен списък с такива неизправности.
Препоръчваме ви да се уверите, че Googlebot има достъп до всички вградени ресурси, които имате на вашия сайт или оформление. Това ще улесни работата ви с Browse Like Googlebot, ще позволи на бота да открие и правилно индексира съдържанието на вашия сайт и ще ви помогне да разберете как се обхождат страниците ви. Някои кодови фрагменти, като бутони за социални медии, скриптове на инструменти за анализ и шрифтове, обикновено не дефинират стила на страницата, така че не е необходимо да бъдат сканирани. Прочетете повече за това как Google анализира уеб съдържанието в предишната статия.
Надяваме се, че нашата иновация ще ви помогне да решите проблеми с дизайна на сайта и да откриете ресурси, които Google не може да обходи по една или друга причина. Ако имате въпроси, моля, свържете се с нас в общността за уеб администратори на Google Plus или потърсете