Обновление поиска Google с моделью Gemini

Google обновил свой поиск с внедрением Gemini 2.5 Flash Native Audio, что изменяет способ функционирования голосового ввода внутри поиска и расширяет применение этой модели для перевода и голосовых агентов. Обновление внедряет более естественные разговорные ответы в Search Live и отражает стремление Google улучшить обработку голосовых запросов, рассматривая голос как основной интерфейс. Это позволяет пользователям получать ту же информацию, что и при обычном поиске, а также задавать вопросы о физическом мире и получать мгновенные голосовые переводы между двумя людьми, говорящими на разных языках.

Новые голосовые возможности, которые будут доступны в этом месяце в Соединенных Штатах, позволят ответам Google звучать более естественно и могут быть замедлены для учебного контента. В соответствии с заявлением Google: «Когда вы используете Search Live, вы можете вести диалог в режиме AI, чтобы получить актуальную помощь и быстро находить релевантные сайты в интернете. Благодаря нашей последней модели Gemini для родного аудио, ответы в Search Live теперь будут более плавными и выразительными, чем когда-либо ранее.»

Расширение функционала Gemini Native Audio

Это обновление поиска является частью более широкого обновления для Gemini 2.5 Flash Native Audio, которое внедряется во всей экосистеме Google, включая Gemini Live (в приложении Gemini), Google AI Studio и Vertex AI. Модель обрабатывает речевое аудио в реальном времени и выдает тексты говорения, что уменьшает барьеры для естественного общения и снижает трение при живом взаимодействии. Хотя объявление Google не уточняло, что модель является речью в речь (в отличие от «речь-текст, затем текст-речь»), это обновление следует за объявлением Google в октябре о «Speech-to-Retrieval (S2R)», которое представляет собой нейросетевую модель машинного обучения, обученную на обширных наборах данных парных аудиозапросов.

Эти изменения показывают, что Google рассматривает родное аудио как основную возможность в потребительских продуктах, облегчая пользователям задавать вопросы и получать информацию о физическом мире в естественном формате, который ранее был невозможен.

Улучшения для голосовых систем

Для разработчиков и предприятий, создающих голосовые системы, Google заявляет, что обновленная модель улучшает надежность в нескольких ключевых областях. Gemini 2.5 Flash Native Audio более последовательно запускает внешние функции во время диалогов, выполняет сложные инструкции и поддерживает контекст в нескольких итерациях. Эти улучшения делают живых голосовых агентов более надежными в реальных рабочих процессах, где неверно истолкованные команды или нарушенный поток общения снижают удобство использования.

Плавный разговорный перевод

Помимо поиска и голосовых агентов, обновление вводит поддержку «живого перевода речи в речь». Gemini переводит произносимый язык в реальном времени, либо непрерывно переводя фоновую речь на целевой язык, либо управляя диалогами между говорящими на разных языках в обе стороны. Система сохраняет вокальные характеристики, такие как ритм и акцент, поддерживая перевод, который звучит более плавно и разговорно.

Google выделяет несколько возможностей, поддерживающих эту функцию перевода, включая широкий охват языков, автоматическое определение языка, работу с мультиязычными вводами и фильтрацию шума для повседневных условий. Эти функции уменьшают трение при настройке и позволяют переводу происходить пассивно во время разговора, а не через ручное управление. В результате получается опыт перевода, выполняемый так же, как если бы настоящий человек переводил между двумя говорящими.

Голосовой поиск и амбиции Google

Обновление отражает продолжающуюся итерацию Google в сфере голосового поиска, направленную на идеал, который первоначально был вдохновлен научно-фантастическими голосовыми взаимодействиями между людьми и компьютерами в популярном телесериале и фильмах Star Trek.

Это обновление обещает более плавные и выразительные разговоры, когда вы используете Search Live.

Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching

Обновление поиска Google с моделью Gemini

Расширение функционала Gemini Native Audio

Улучшения для голосовых систем

Плавный разговорный перевод

Голосовой поиск и амбиции Google

Больше записей

Google сокращает затраты на искусственный интеллект с помощью запуска новой модели

Бывшие исследователи Google и Apple запустили Trajectory для улучшения обратной связи AI

Основные модели ИИ постоянно нарушают регламенты ЕС, показывает исследование — TechRepublic

Компании сокращают рабочие места из-за ИИ — но не миллиарды, выплачиваемые инвесторам — 24/7 Wall St.