Поисковой алгоритм Google Smith

Ровно год назад корпорация Гугл поделилась с общественностью своей научной заметкой о собственном новом поисковом алгоритме Google-SMITH. Смит являлся последователем уже запущенного на тот момент алгоритма Bert и так же предназначался для работы с контентом. Отличие от Берта заключалось в объеме текста, SMITH анализировал ключи «с хвостами», встречающиеся в объемных статьях и заметках. Опубликованные тесты давали понять, что новая поисковая программа обходит по многим показателям выпущенного ранее Берта (в вопросах обработки длинных документов и запросов). Однако буквально через месяц на своем официальном аккаунте в твиттере Дэнни Салливан сообщил, что Смит это один из многих продуктов, над котором работает компания и в данный момент он не запущен. Пару месяцев общественность активно обсуждала как статью, так и комментарий Салливана, но потом вся активность ввиду отсутствия информации от корпорации, сошла на нет до декабря 2021 года. Под конец года по доброй традиции стали появляться различные гипотезы и известные аналитики стали намекать на активную работу Google-SMITH, хотя сама компания ничего об этом не заявляла. 

/users_files/WebpagePro/smith-1.jpg

Принцип работы SMITH и основные отличия

Вектор развития, выбранный поисковыми системами несколько лет назад активно развивается. На тот момент казавшаяся нереальной задача в анализе всех запросов и сайтов с помощью нейросетей, сейчас уже не видится столь нереальной. Новые алгоритмы прямое тому подтверждение. Так в чем же отличие новых сервисов? Главное различие заключается в количестве текста, которое может анализировать СМИТ. В последнем упоминании говорится об объеме в 2048 символов (до этого предельная длина составляла всего 512). 

/users_files/WebpagePro/smith-3.jpg

Google-SMITH привычно разделяет текст на несколько блоков, каждый из которых включает в себя 1-2 предложения. После этого алгоритм поочередно сравнивает каждый блок с поисковой фразой, ища соответствие ключа и текста. По аналогичному принципу идет работа со всеми блоками, а в последствие и со всем текстом. Уход от старого принципа поиска только ключевого запроса во всем тексте, без проработки блоков и анализа документа, открывает новую ступень как в подготовке контента, так и в создании сайтов в целом. Для формирования равных блоков с текстом (для последующей обработки) в основу программы заложен метод GSF (greedy sentence filling), использующий точечный размер блока. В каждой «секции» обычно помещается одно целое предложение, а в случаях когда его длина очень большая, GSF делает перенос оставшейся части в другой блок.

Различия SMITH и BERT

Основное отличие, помимо указанного объёма обрабатываемой информации, это различные модели обучение программ. В Смит заложена система анализа и прогноза как сокрытого смысла в предложении, так и сравнение с другой частью (фрагментом) контента. Столь важная и большая цель потребовала анализа больших библиотек, среди которых упоминается ACL Anthology Network и Wiki. Базы документов этих ресурсов легли в основу обучения SMITH. Задача Берта в свою очередь заключалась в нахождении в предложении скрытых слов и предсказания части слов в случайной подборке. На этом строилась всё обучение действующего алгоритма.

/users_files/WebpagePro/smith-2.jpg

Влияние на выдачу 

Что Bert, что SMITH направлены на лучшее понимание интента запроса пользователей. Google хочет показывать пользователю релевантную выдачу вне зависимости от того, использовался ли сленг в запросе или нет, технический это язык или разговорная речь. Огромные массивы информации, изученные поисковыми алгоритмами, уже сейчас позволяют понять разговорный лексикон, в данный момент корпорация Гугл работает над большим охватом (всего документа). Как это отражается на поисковой выдаче? В текущее время влияние на коммерческие запросы минимально (в них редко используется сленг и контент в массе своей реливантен ключевикам), но в обычных и информационных запросах уже просматривается работа нового алгоритма. Как скоро это коснется бизнес-тематик вопрос сложный, но видя темпы развития можно предположить, что уже к концу года алгоритмы будут влиять и на коммерческие запросы.