Logo

Google S2R: Новый Голосовой Поиск Переворачивает SEO!

10 октября 2025 года Google запустил Speech-to-Retrieval (S2R), новую архитектуру для голосового поиска, напрямую интерпретирующую устные запросы. Эта технология значительно улучшает точность, обходя ASR-преобразование и изменяя принципы оптимизации контента.

15 жовтня 2025 р., 14:35
4 мин чтения

Новая эра голосового поиска Google: парадигма Speech-to-Retrieval меняет принцип извлечения информации

НЬЮ-ЙОРК, 10 октября 2025 г. - Google запустил новую архитектуру голосового поиска под названием Speech-to-Retrieval (S2R), давая системе возможность напрямую получать ответы из устных запросов, обходя этап преобразования речи в текст. Это нововведение представляет собой коренной архитектурный и концептуальный сдвиг в машинной обработке человеческой речи, переосмысливая взаимодействие пользователя с поисковыми системами.

Обычные системы голосового поиска, включая предыдущие версии Google, использовали каскадный подход, в котором входящий голосовой сигнал сначала переводился в текстовый запрос с помощью технологии автоматического распознавания речи (ASR), а затем по этому текстовому запросу осуществлялся поиск документов. Однако, как указывают исследователи Google Эхсан Вариани и Майкл Райли, «даже небольшие ошибки на этапе распознавания речи могут существенно искажать смысл запроса, приводя к неверным результатам». Это «каскадное моделирование» по своей сути было уязвимо к потерям контекстуальных данных и распространению ошибок.

От "что было сказано" к "что имелось в виду"

S2R, в отличие, создан, чтобы отвечать на более фундаментальный вопрос: «Какая информация ищется?», а не «Какие слова были произнесены?». Эта технология напрямую интерпретирует и извлекает сведения из устного запроса без необходимости создания идеальной текстовой расшифровки. Как подчёркивает Гаган Готра, даже если слова совпадают, речевой запрос не тождествен текстовому. Интонация, паузы и прочие невербальные нюансы играют важную роль в передаче смысла, которые традиционные ASR-системы теряют.

«В сущности, S2R - это технология, которая сразу же интерпретирует и извлекает сведения из устного запроса, обходя промежуточный и потенциально ошибочный этап формирования идеальной текстовой расшифровки. Это представляет собой фундаментальный архитектурный и философский сдвиг в машинной обработке человеческой речи», - говорится в блоге Google Research от 7 октября 2025 года.

Архитектура S2R: два кодировщика, одно понимание

В основе S2R стоит архитектура с двойным кодировщиком. Один кодировщик обрабатывает аудиозапрос, создавая его семантическое представление, а другой кодировщик работает с документами. Это даёт системе возможность напрямую сопоставлять аудиозапросы с релевантной информацией, устраняя ненадёжный этап транскрипции.

Во время обучения система применяет богатый набор пар аудиозапросов и соответствующих документов, чтобы одновременно настраивать параметры обоих кодировщиков. Задача обучения - чтобы вектор аудиозапроса оказался геометрически близким к векторам соответствующих документов в пространстве представлений. Как только пользователь произносит запрос, аудиопоток поступает в предварительно обученный аудиокодировщик, который генерирует вектор запроса. Этот вектор затем используется для эффективного поиска высокорелевантного набора потенциальных результатов.

Эксперименты и результаты: сокращение разрыва с "идеалом"

Для измерения эффективности S2R Google провёл эксперимент, имитирующий идеальную работу ASR. Собрали репрезентативные тестовые запросы, которые впоследствии вручную транскрибировали, получив сценарий «идеального ASR».

Результаты продемонстрировали, что даже при почти идеальной транскрипции ASR качество поиска не всегда повышалось существенно. Измерение средней обратной величины ранга (MRR) - метрики, оценивающей точность извлечения информации - показало, что S2R не только превзошёл базовую каскадную модель ASR, но и приблизился к показателям «идеальной транскрипции» (так называемой Cascade Groundtruth). Это свидетельствует о том, что качество голосового поиска ограничено ошибками транскрипции, независимо от степени совершенства ASR.

«Хотя результаты обнадеживают, оставшийся разрыв подчёркивает необходимость дальнейших исследований», - отмечают Вариани и Райли, подчёркивая потенциал дальнейшего совершенствования.

Для поддержки дальнейших исследований Google также открыла доступ к набору данных Simple Voice Questions (SVQ), который включает короткие аудиовопросы на 17 различных языках и 26 локалях, и является частью нового бенчмарка Massive Sound Embedding Benchmark (MSEB).

Практические последствия и будущее голосового поиска

Внедрение S2R уже вышло за рамки теоретических упражнений. В тесном сотрудничестве Google Research и Search эти продвинутые модели уже обслуживают пользователей на нескольких языках, обеспечивая заметный рост точности по сравнению с традиционными каскадными системами.

Для бизнеса и разработчиков это открывает новые возможности:

  • Улучшение клиентского опыта: Компании могут интегрировать S2R в свои сервисы, давая возможность пользователям задавать голосовые вопросы и получать мгновенные ответы.
  • Оптимизация процессов: Автоматизация обработки голосовых запросов уменьшает нагрузку на персонал и ускоряет обслуживание клиентов.
  • Снижение ошибок: Исключение этапа транскрипции существенно снижает вероятность ошибок при интерпретации запросов.
  • Многоязычность: S2R поддерживает широкий спектр языков, делая его доступным для обширной аудитории.

С переходом к S2R оптимизация контента потребует учёта того, что пользователи формулируют вопросы более естественно. Семантическое содержание запросов станет важнее простого совпадения ключевых слов. Дальнейшие исследования S2R, вероятно, будут сосредоточены на расширении языкового охвата, обработке длительных и сложных голосовых запросов, комбинировании S2R с многомодальными входами и внедрении персонализации для более точного улавливания намерений пользователя. Это свидетельствует о том, что Google продолжает переопределять границы возможного в области поиска и искусственного интеллекта.

Вопросы и ответы

Новая эра голосового поиска Google: парадигма Speech-to-Retrieval меняет принцип извлечения информации
От "что было сказано" к "что имелось в виду"
Архитектура S2R: два кодировщика, одно понимание
Эксперименты и результаты: сокращение разрыва с "идеалом"
Практические последствия и будущее голосового поиска