close-btn

Google работает над ИИ, который может озвучивать видео

Новый искусственный интеллект (ИИ) от разработчиков Google использует пиксели видео и текстовые подсказки для создания насыщенных звуковых дорожек

Google представила V2A

Фото: freepik.com

Многие современные ИИ-инструменты могут генерировать только видеозаписи без звука. Одним из следующих важных шагов в Google считают создание звуковых дорожек для этих немых видео.

Команда Google DeepMind представила технологию преобразования видео в аудио (V2A), которая делает возможным синхронизированное аудиовизуальное создание. V2A сочетает видеопиксели с текстовыми подсказками на естественном языке для создания насыщенного звукового ландшафта для действий на экране.

Читайте также: Google Cloud, GlobalLogic и Hitachi объединились для развития ИИ

V2A совместима с такими моделями видеогенерации, как Veo, о которой мы писали ранее. Вместе они могут создавать кадры с драматической партитурой, реалистичными звуковыми эффектами или диалогами, которые соответствуют персонажам и тону видео.

Также новый ИИ может создавать звуковые дорожки для различных традиционных материалов, включая архивные материалы, немые фильмы и тому подобное. V2A может генерировать неограниченное количество звуковых дорожек для любого видеоролика, при этом пользователь может давать ему подсказки. Ниже представлены несколько примеров технологии. Больше вы можете увидеть в блоге DeepMind.

Вас может заинтересовать: В Google с помощью ИИ можно будет подбирать одежду

Разработчики обучали технологию на аннотациях, сгенерированных ИИ, с подробным описанием звука и расшифровками разговорных диалогов, а также на различных видео и аудио. Как результат — нейросеть учится связывать конкретные звуковые события с различными визуальными сценами, реагируя на информацию, предоставленную в аннотациях или стенограммах. При желании можно добавлять текстовые подсказки, но это не является обязательным.

В то же время есть несколько недостатков, которые в Google сейчас пытаются устранить. Среди них снижение качества видео на выходе и плохая синхронизация губ во время сгенерированных диалогов.

Напомним, Google представит свою платформу для 3D-видеозвонков Starline уже в 2025 году. Она разрабатывалась в сотрудничестве с HP. Используя достижения в области искусственного интеллекта, 3D-визуализации и других технологий, Starline работает как «волшебное окно».

Ознакомьтесь с другими популярными материалами:

Google планирует сделать поиск платным: причина

Материнская компания Google впервые в истории выплатит дивиденды: сколько получат акционеры

Google выделил 700 тысяч евро для обучения украинцев — детали программы

google news