Бесплатно по РФ: 8 800 200-55-73

Москва

+7 (499) 677-50-92

Ключевые принципы работы поисковых систем

Автор: Мария Саловарова 25.12.2020

Работа поисковых систем

Краткое содержание статьи:

В мире существует большое количество разных поисковых систем. На конец 2020 года в топ-5 в популярных поисковиков рунета входят: Google – 53,9%, Яндекс – 43,1%, Search.Mail.ru – 2,7%, Rambler – 0,1%, Bing – 0,1%. В мире Google тоже занимает лидирующую позицию: затем Baidu, Yahoo!, Bing, и наконец, Яндекс.

Доля поисковиков в Рунете

Поисковые системы структурируют хаотично разбросанную по интернету информацию и позволяют мгновенно находить ответы на наши вопросы. Но что же это такое?

Поисковая система (ПС, поисковик, поисковая машина) – это веб-ресурс в сети Интернет (например, yandex.ru, google.ru и пр.), состоящий из алгоритмов и совокупности программ, необходимых для предоставления пользователю быстрого доступа к искомой информации. Также важно понимать, что поисковая система может быть не только самостоятельным сайтом, но и частью другого ресурса – например, строка поиска на любом сайте, поиск в операционных системах, приложениях, соцсетях и пр., но речь сегодня не о них.

Основным заработком поисковых систем является продажа рекламы, обычно это оплата за клики, т.е. когда рекламодатели платят за пользователей, которые кликнули по их рекламе в поисковой системе или его сервисах. Годовые доходы крупных ПС исчисляются миллиардами долларов. Но это не единственный источник их дохода, т.к. они постоянно создают дополнительные проекты, которые приносят ещё больше трафика или позволяют зарабатывать на пользователях.

Контекстная реклама

Что объединяет поисковые системы и чем они отличаются?

Из-за того, что пользователь для поиска информации может выбрать любую поисковую систему, между ПС существует конкуренция – кто даст наиболее релевантный, полный и быстрый ответ. Именно для выполнения и улучшения этих функций ПС вкладывают большое количество денег, времени, ищут самые квалифицированные и перспективные кадры.

Так как успех поисковых систем зависит напрямую от того, как они работают, то к разным манипуляциям формирования выдачи они относятся отрицательно. Часто манипуляции поисковой выдачей приводят к нерелевантным ответам, поэтому за всё свое существование поисковые системы наработали целый пул разных санкций и фильтров, которые они накладывают на различные ресурсы. Так, они научились определять, кто злоупотребляет ссылками, кто ворует контент, накручивает поведенческие факторы или, например, злоупотребляет переоптимизацией. Каждый поисковик имеет целый отдел профессионалов, который занимается исключительно поиском нарушений и вследствие этого – наложением ограничений.

Поисковые системы

С каждым годом крупные поисковики усложняются, обосновывая это тем, что так ими будет удобнее пользоваться. Например, главная станица Яндекса показывает погоду, курсы валют, новости, информацию о пробках и многое другое. У Google же она всё еще минималистичная. Их поисковая выдача тоже отличается: разные блоки контекстной рекламы, колдунщики (элементы ПС, которые отвечают на ваш вопрос прямо на странице выдачи результатов), формирование и визуальное представление сниппетов, отображение фавиконок (в Google, например они вообще не отображаются), других доп. значков у сайтов и прочего.

Если посмотреть поисковую выдачу Google, то она, как и главная страница, будет содержать намного меньше различных элементов, чем поисковая выдача Яндекса. Так, согласно статистике Alexa Rank за 2020 год, по числу ежедневных просмотров в России Google в 6,5 раз опережает Яндекс. Если рассматривать ежедневное время, затраченное одним пользователем, то у .ru версии Google это 3 минуты 44 секунды, у .com – 12 минут 29 секунд (пользователи России используют обе версии), у Яндекс – 4 минуты 39 секунд.

Поисковая выдача Яндекс и Google

Перечисленное – не единственное различие поисковиков, так, они могут отличаться количеством документов в индексе, возможностями поиска в своих смежных индексах, например, поиск по картинкам, скоростью обнаружения новых документов, частотой обновления алгоритмов и проведения апдейтов, зоной поиска. Последнее наиболее значимо в работе поисковых систем Яндекс и Google. Так, например Яндекс имеет региональный поиск, и может искать и выдавать пользователю результат, в том регионе, в котором он находится. Google лидер в мире, поэтому ориентируется на все страны и некоторые из них он не делит на мелкие регионы для уточнения результатов выдачи. Для разных стран у Google есть своя доменная зона. Конечно, Google тоже может выдавать региональные результаты поиска, но делает это не так мастерски, как Яндекс.

Что касается SEO-продвижения сайта под две крупные поисковые системы, используемые в России, то и оно имеет свои нюансы. Яндекс и Google работают очень похоже, но с разными алгоритмами, формулами, базами и пр. Из-за того, что они ранжируют сайты по-разному, можно наблюдать разницу в позициях и трафике одного и того же сайта в обеих ПС. Поэтому в SEO-продвижении под Яндекс и Google есть некоторые отличия, о которых мы рассказывали в прошлой статье.

Как ищут пользователи?

Процесс поиска всем знаком: у пользователя появляется потребность в какой-либо информации. Например, если пользователь хочет найти сайт, то он введёт в поисковую строку соответствующий запрос. Такой запрос называется навигационным. Если необходимо найти какую-то информацию – запрос будет информационный, а если совершить покупку – коммерческий или транзакционный. Когда пользователь ввел короткий запрос без уточнения конкретики, то он будет называться нечётким. Это не все виды запросов, с помощью которых пользователь хочет найти ответы, когда заходит в поисковую систему. Пользователи ищут по очень широкому диапазону категорий информации – практически по всем областям жизни. Также запросы делятся по частотности, конкурентности и геозависимости.

В день происходит примерно 6,5 млрд поисковых запросов по всему миру. В 2020 году Россияне при поиске в Google чаще всего использовали следующие формулировки: запрос какого-либо события, «что такое ...», «как ...», «как в домашних условиях сделать ...» и «что посмотреть в ...». А Яндекс предоставил информацию немного в другом ключе – самыми популярными запросами были: «карантин», «пропуск» и «конституция». Согласно исследованиям, чуть больше половины пользователей всегда используют один и тот же поисковик. 34% ищут информацию в нескольких поисковых системах. 13% выбирает ресурс для поиска в зависимости от того, что они хотят найти.

Популярный запрос в Яндексе в 2020 году

Около половины пользователей сразу находят то, что искали. У 33% людей процесс поиска заканчивается удачно в 75% случаев. У 13% пользователей – уже 50%. Оставшееся меньшинство в 25% случаях не находит ничего. Но, к счастью, почти 80% оценивают работу поисковых систем довольно хорошо.

Приведём еще немного интересной статистики о поведении пользователей в поисковых системах:

  • 59% пользователей посещает только одну страницу из выдачи.
  • 0,44% переходят на вторую страницу.
  • После перехода по ссылке из выдачи 17% людей возвращается обратно к поисковым результатам.
  • 9% пользователей добираются до конца первой страницы поиска.
  • Среднее время сеанса поиска – 76 сек. 50% сеансов завершается в течение 53 сек.
  • Половина пользователей переходит по ссылке из выдачи за 9 сек после ввода поискового запроса.
  • 65% пользователей предпочитают информацию из органических результатов.
  • 19% кликнут на контекстную рекламу.
  • 15% пользователей корректируют введённый ключевой запрос.
  • 3% используют раздел «Похожие запросы» (обычно для навигационных и транзакционных).
  • Поисковые подсказки используются в 23% случаев, и чаще для информационных запросов.
  • 42% при введении геозависимого запроса переходят в блок с навигационными картами.

Как работают поисковые системы?

Первые поисковые системы представляли из себя находящийся в свободном доступе каталог с разбитыми по тематикам сайтами, которые пополнялись вручную. Пользователь выбирал интересующую его тему, и, перед ним появлялся список ресурсов из выбранной категории. Количество документов быстро росло, поэтому для облегчения нахождения информации был введён поиск в пределах этого каталога. Со временем такие каталоги стали терять свою популярность, т.к. даже при наличии множества информации, они все равно показывали не всё, что находится в сети Интернет. И вскоре на их место пришли полноценные поисковые машины.

Первые поисковые системы

Индекс. Поисковые системы используют принципы поиска, как если бы вы искали информацию по ссылкам (например, сослаться в тексте на какую-то страницу), оглавлению (например, как оглавление книги) или с помощью предметного указателя (например, как список терминов, расположенных по алфавиту). Термины – они же ключевые слова, именно они стали основой в работе поисковых систем. При вводе запроса, пользователь как бы обращается к предметному указателю (индексу), в котором хранится список всех ключевых слов с информацией о том, в каких документах они указываются.

Процесс составления индекса состоит из сбора документов в сети Интернет, далее поисковой робот выкачивает найденные страницы, хранит и передаёт для индексации индексному роботу. На этом этапе начинается процесс индексирования: индексный робот собирает все слова из текста документа, пронумеровывает их и добавляет в индекс, а всё, что ненужно – удаляет (например, HTML-теги, изображения, пробелы, служебные элементы и пр.). Все слова выбираются для того, чтобы провести лингвистическую обработку: все известные слова приводятся в начальную форму (или основу слова), это необходимо, чтобы сократить базу индекса, т.к. если бы, осуществлялось хранение всех словоформ, то пришлось бы затратить очень много места. Все неизвестные слова поисковая машина хранит в том виде, в котором его нашла и с применением технологии нечеткой морфологии.

Все собранные слова образовывают индекс, в котором они упорядочены по алфавиту и указаны с какой страницы взято и где стояло то или иное слово. Такой индекс называется инверсный, но есть и другой вид индекса – прямой. Прямой индекс представляет собой сжатую текстовую версию всего Интернета, он ищет по оригинальным документам без искажений, например, может дословно привести цитату.

Ссылки. В текстах документов могут быть ссылки на другие документы, и они тоже индексируются. Это необходимо для того, чтобы база индекса могла пополниться новыми документами. Также ссылки важны, чтобы понять авторитетность ресурса – на кого больше ссылаются, тот и авторитет. Также учитываются тексты ссылок – анкоры, они позволяют понять роботам поисковых систем смысл содержимого на странице.

Поисковая система не будет выкачивать все страницы вашего сайта, если их там миллион – у них большая очередь на индексирование. Поэтому за один раз поисковик обходит какое-то заданное количество страниц. При этом для успешной индексации ресурс должен быть логично структурированным – ПС проиндексирует лишь то, на что проставлена ссылка.

Частота индексации. Скорость индексации будет зависеть от возраста домена, от доверия поискового робота к ресурсу, от частоты его обновления. Чем чаще обновлять сайт, тем чаще на него будет приходить поисковый робот. Однако, есть такие типы информации, которые обновляются по несколько раз в день, например, новости, блоги, форумы. На часто обновляемый ресурс со свежей, актуальной информацией приходит быстроробот, благодаря которому документы в индексе появляются мгновенно.

Расширенный поиск. У многих поисковиков есть возможности расширенного поиска, что-то внедрено в функционал, а что-то можно найти с использованием операторов. Они могут быть документными, недокументированными, логическими. С помощью них можно уточнить введенный запрос и быстро найти нужную информацию. Например, вам необходимо найти новости за декабрь 2020 года, тогда введённый запрос в поисковой строке будет следующим: «новости date:202012*». Оператор «date» относится к документными. У поисковых систем есть общий и различный набор документов. Важно отметить, что операторами пользуются только продвинутые пользователи, обычные же люди стараются как можно естественней ввести запрос.

Поиск по оператору date

Обработка запросов. Так как пользователи могут выражать одни и те же намерения разными способами, то поисковым системам пришлось научиться их понимать. Запросы с опечатками, ошибками, с разными склонениями и спряжениями, с пропущенными словами или предлогами, синонимы и пр. – всё это понимается и в случае необходимости исправляется на правильное написание. Поисковые системы развились до того, что научились искать по смыслу, а не по введённым словам. Встроенные нейросети помогают находить то, что пользователь хотел найти, а не то, что написал в строке поисковика. На сегодняшний момент алгоритм использующий нейросети в Яндексе называется YATI, в Google – BERT.

Релевантность. Важным критерием оценки качества поисковой машины является релевантность результатов выдачи, что означает, что поисковое намерение пользователя было удовлетворено.

Релевантность – это соответствие поисковой выдачи запросу пользователя. В идеале: чем релевантнее документ, тем он должен располагаться выше. На деле, это конечно не всегда работает так, ввиду разных особенностей алгоритмов поисковых систем.

Что влияет на релевантность? Внешние факторы (популярность материала на других ресурсах), внутренние факторы (все то, что влияет на релевантность сайта изнутри) и поведенческие факторы (информация, как ведут себя пользователи на сайте).

Ранжирование. Ранжирование – сортировка сайтов в поисковой выдаче по их релевантности. Основная задача ранжирования – выдать пользователю наилучший ответ. У каждой поисковой системы есть свои факторы ранжирования, которые влияют на выдачу в большей или меньшей степени. Факторы ранжирования бывают следующих видов:

  • хостовые (возраст, размер сайта, название домена и его зона и пр.);
  • текстовые (Title, Description, H1, текст и пр.);
  • коммерческие (цены, функционал интернет-магазина, ассортимент, телефонные номера, контакты, отзывы, сертификаты и пр.);
  • технические (скорость загрузки, мобильная версия, https, ЧПУ, валидность кода, микроразметка, код ответа сервера и пр.);
  • ссылочные (внешние ссылки, их авторитет, возраст, качество донора, региональность, тематичность, ссылочный профиль и пр.);
  • поведенческие (посещаемость, время на сайте, отказы, CTR сниппета и пр.);
  • социальные (аккаунты в соц. сетях, переходы из них, шеринг).

Также их можно сгруппировать по внешним и внутренним факторам.

Часть критериев определяется вручную специально обученными людьми (асессорами), а другая часть – с помощью алгоритма. Полный и достоверный список факторов неизвестен, т.к. такие данные поисковые системы не разглашают, и к тому же, он постоянно меняется, вносится что-то новое, а старое перестаёт учитываться. Всё что мы знаем – получено опытным путём. В процессе сортировки данных поисковые системы учитывают эти факторы, и на основании их определяют, какой ресурс наиболее релевантен и какое место ему занять в поисковой выдаче. Окончательное ранжирование производится после ввода запроса пользователя.

Подытожим. Все вышеописанное необходимо для того, чтобы результаты поиска были максимально полными, точными, актуальными, наглядными и быстрыми. Поисковые системы соревнуются между собой за пользователя, поэтому стараются постоянно улучшать свои алгоритмы, а SEO-специалистам и владельцам ресурсов приходится под них подстраиваться. Манипулировать выдачей становится всё сложнее – заспамить текст ключевиками и попасть в топ не выйдет. Теперь необходимо учитывать сразу большое количество факторов, чтобы быть релевантным и стать любимчиком поисковиков.

Автор: Мария Саловарова