Ровно год назад корпорация Гугл поделилась с общественностью своей научной заметкой о собственном новом поисковом алгоритме Google-SMITH. Смит являлся последователем уже запущенного на тот момент алгоритма Bert и так же предназначался для работы с контентом. Отличие от Берта заключалось в объеме текста, SMITH анализировал ключи «с хвостами», встречающиеся в объемных статьях и заметках. Опубликованные тесты давали понять, что новая поисковая программа обходит по многим показателям выпущенного ранее Берта (в вопросах обработки длинных документов и запросов). Однако буквально через месяц на своем официальном аккаунте в твиттере Дэнни Салливан сообщил, что Смит это один из многих продуктов, над котором работает компания и в данный момент он не запущен. Пару месяцев общественность активно обсуждала как статью, так и комментарий Салливана, но потом вся активность ввиду отсутствия информации от корпорации, сошла на нет до декабря 2021 года. Под конец года по доброй традиции стали появляться различные гипотезы и известные аналитики стали намекать на активную работу Google-SMITH, хотя сама компания ничего об этом не заявляла.
Вектор развития, выбранный поисковыми системами несколько лет назад активно развивается. На тот момент казавшаяся нереальной задача в анализе всех запросов и сайтов с помощью нейросетей, сейчас уже не видится столь нереальной. Новые алгоритмы прямое тому подтверждение. Так в чем же отличие новых сервисов? Главное различие заключается в количестве текста, которое может анализировать СМИТ. В последнем упоминании говорится об объеме в 2048 символов (до этого предельная длина составляла всего 512).
Google-SMITH привычно разделяет текст на несколько блоков, каждый из которых включает в себя 1-2 предложения. После этого алгоритм поочередно сравнивает каждый блок с поисковой фразой, ища соответствие ключа и текста. По аналогичному принципу идет работа со всеми блоками, а в последствие и со всем текстом. Уход от старого принципа поиска только ключевого запроса во всем тексте, без проработки блоков и анализа документа, открывает новую ступень как в подготовке контента, так и в создании сайтов в целом. Для формирования равных блоков с текстом (для последующей обработки) в основу программы заложен метод GSF (greedy sentence filling), использующий точечный размер блока. В каждой «секции» обычно помещается одно целое предложение, а в случаях когда его длина очень большая, GSF делает перенос оставшейся части в другой блок.
Основное отличие, помимо указанного объёма обрабатываемой информации, это различные модели обучение программ. В Смит заложена система анализа и прогноза как сокрытого смысла в предложении, так и сравнение с другой частью (фрагментом) контента. Столь важная и большая цель потребовала анализа больших библиотек, среди которых упоминается ACL Anthology Network и Wiki. Базы документов этих ресурсов легли в основу обучения SMITH. Задача Берта в свою очередь заключалась в нахождении в предложении скрытых слов и предсказания части слов в случайной подборке. На этом строилась всё обучение действующего алгоритма.
Что Bert, что SMITH направлены на лучшее понимание интента запроса пользователей. Google хочет показывать пользователю релевантную выдачу вне зависимости от того, использовался ли сленг в запросе или нет, технический это язык или разговорная речь. Огромные массивы информации, изученные поисковыми алгоритмами, уже сейчас позволяют понять разговорный лексикон, в данный момент корпорация Гугл работает над большим охватом (всего документа). Как это отражается на поисковой выдаче? В текущее время влияние на коммерческие запросы минимально (в них редко используется сленг и контент в массе своей реливантен ключевикам), но в обычных и информационных запросах уже просматривается работа нового алгоритма. Как скоро это коснется бизнес-тематик вопрос сложный, но видя темпы развития можно предположить, что уже к концу года алгоритмы будут влиять и на коммерческие запросы.