10 октября 2025 года Google запустил Speech-to-Retrieval (S2R), новую архитектуру для голосового поиска, напрямую интерпретирующую устные запросы. Эта технология значительно улучшает точность, обходя ASR-преобразование и изменяя принципы оптимизации контента.
Google has updated its Voice Search models to be powered by Speech-to-Retrieval (S2R). Google said this allows it to "gets answers straight ...
S2R значительно повышает точность поиска, так как исключает ошибки, связанные с транскрипцией. 2. Могу ли я интегрировать S2R в свое приложение?
Our new Speech-to-Retrieval (S2R) model improves how search engines process spoken queries. The approach moves beyond an intermediate text ...
At its core, S2R is a technology that directly interprets and retrieves information from a spoken query without the intermediate, and ...
Unlike traditional systems that first convert spoken queries into text, S2R bypasses transcription entirely. Instead, it directly interprets ...
НЬЮ-ЙОРК, 10 октября 2025 г. - Google запустил новую архитектуру голосового поиска под названием Speech-to-Retrieval (S2R), давая системе возможность напрямую получать ответы из устных запросов, обходя этап преобразования речи в текст. Это нововведение представляет собой коренной архитектурный и концептуальный сдвиг в машинной обработке человеческой речи, переосмысливая взаимодействие пользователя с поисковыми системами.
Обычные системы голосового поиска, включая предыдущие версии Google, использовали каскадный подход, в котором входящий голосовой сигнал сначала переводился в текстовый запрос с помощью технологии автоматического распознавания речи (ASR), а затем по этому текстовому запросу осуществлялся поиск документов. Однако, как указывают исследователи Google Эхсан Вариани и Майкл Райли, «даже небольшие ошибки на этапе распознавания речи могут существенно искажать смысл запроса, приводя к неверным результатам». Это «каскадное моделирование» по своей сути было уязвимо к потерям контекстуальных данных и распространению ошибок.
S2R, в отличие, создан, чтобы отвечать на более фундаментальный вопрос: «Какая информация ищется?», а не «Какие слова были произнесены?». Эта технология напрямую интерпретирует и извлекает сведения из устного запроса без необходимости создания идеальной текстовой расшифровки. Как подчёркивает Гаган Готра, даже если слова совпадают, речевой запрос не тождествен текстовому. Интонация, паузы и прочие невербальные нюансы играют важную роль в передаче смысла, которые традиционные ASR-системы теряют.
«В сущности, S2R - это технология, которая сразу же интерпретирует и извлекает сведения из устного запроса, обходя промежуточный и потенциально ошибочный этап формирования идеальной текстовой расшифровки. Это представляет собой фундаментальный архитектурный и философский сдвиг в машинной обработке человеческой речи», - говорится в блоге Google Research от 7 октября 2025 года.
В основе S2R стоит архитектура с двойным кодировщиком. Один кодировщик обрабатывает аудиозапрос, создавая его семантическое представление, а другой кодировщик работает с документами. Это даёт системе возможность напрямую сопоставлять аудиозапросы с релевантной информацией, устраняя ненадёжный этап транскрипции.
Во время обучения система применяет богатый набор пар аудиозапросов и соответствующих документов, чтобы одновременно настраивать параметры обоих кодировщиков. Задача обучения - чтобы вектор аудиозапроса оказался геометрически близким к векторам соответствующих документов в пространстве представлений. Как только пользователь произносит запрос, аудиопоток поступает в предварительно обученный аудиокодировщик, который генерирует вектор запроса. Этот вектор затем используется для эффективного поиска высокорелевантного набора потенциальных результатов.
Для измерения эффективности S2R Google провёл эксперимент, имитирующий идеальную работу ASR. Собрали репрезентативные тестовые запросы, которые впоследствии вручную транскрибировали, получив сценарий «идеального ASR».
Результаты продемонстрировали, что даже при почти идеальной транскрипции ASR качество поиска не всегда повышалось существенно. Измерение средней обратной величины ранга (MRR) - метрики, оценивающей точность извлечения информации - показало, что S2R не только превзошёл базовую каскадную модель ASR, но и приблизился к показателям «идеальной транскрипции» (так называемой Cascade Groundtruth). Это свидетельствует о том, что качество голосового поиска ограничено ошибками транскрипции, независимо от степени совершенства ASR.
«Хотя результаты обнадеживают, оставшийся разрыв подчёркивает необходимость дальнейших исследований», - отмечают Вариани и Райли, подчёркивая потенциал дальнейшего совершенствования.
Для поддержки дальнейших исследований Google также открыла доступ к набору данных Simple Voice Questions (SVQ), который включает короткие аудиовопросы на 17 различных языках и 26 локалях, и является частью нового бенчмарка Massive Sound Embedding Benchmark (MSEB).
Внедрение S2R уже вышло за рамки теоретических упражнений. В тесном сотрудничестве Google Research и Search эти продвинутые модели уже обслуживают пользователей на нескольких языках, обеспечивая заметный рост точности по сравнению с традиционными каскадными системами.
Для бизнеса и разработчиков это открывает новые возможности:
С переходом к S2R оптимизация контента потребует учёта того, что пользователи формулируют вопросы более естественно. Семантическое содержание запросов станет важнее простого совпадения ключевых слов. Дальнейшие исследования S2R, вероятно, будут сосредоточены на расширении языкового охвата, обработке длительных и сложных голосовых запросов, комбинировании S2R с многомодальными входами и внедрении персонализации для более точного улавливания намерений пользователя. Это свидетельствует о том, что Google продолжает переопределять границы возможного в области поиска и искусственного интеллекта.
Google has updated its Voice Search models to be powered by Speech-to-Retrieval (S2R). Google said this allows it to "gets answers straight ...
S2R значительно повышает точность поиска, так как исключает ошибки, связанные с транскрипцией. 2. Могу ли я интегрировать S2R в свое приложение?
Our new Speech-to-Retrieval (S2R) model improves how search engines process spoken queries. The approach moves beyond an intermediate text ...
At its core, S2R is a technology that directly interprets and retrieves information from a spoken query without the intermediate, and ...
Unlike traditional systems that first convert spoken queries into text, S2R bypasses transcription entirely. Instead, it directly interprets ...
Вопросы и ответы