Новый искусственный интеллект (ИИ) от разработчиков Google использует пиксели видео и текстовые подсказки для создания насыщенных звуковых дорожек
Многие современные ИИ-инструменты могут генерировать только видеозаписи без звука. Одним из следующих важных шагов в Google считают создание звуковых дорожек для этих немых видео.
Команда Google DeepMind представила технологию преобразования видео в аудио (V2A), которая делает возможным синхронизированное аудиовизуальное создание. V2A сочетает видеопиксели с текстовыми подсказками на естественном языке для создания насыщенного звукового ландшафта для действий на экране.
Читайте также: Google Cloud, GlobalLogic и Hitachi объединились для развития ИИ
V2A совместима с такими моделями видеогенерации, как Veo, о которой мы писали ранее. Вместе они могут создавать кадры с драматической партитурой, реалистичными звуковыми эффектами или диалогами, которые соответствуют персонажам и тону видео.
Также новый ИИ может создавать звуковые дорожки для различных традиционных материалов, включая архивные материалы, немые фильмы и тому подобное. V2A может генерировать неограниченное количество звуковых дорожек для любого видеоролика, при этом пользователь может давать ему подсказки. Ниже представлены несколько примеров технологии. Больше вы можете увидеть в блоге DeepMind.
Вас может заинтересовать: В Google с помощью ИИ можно будет подбирать одежду
Разработчики обучали технологию на аннотациях, сгенерированных ИИ, с подробным описанием звука и расшифровками разговорных диалогов, а также на различных видео и аудио. Как результат — нейросеть учится связывать конкретные звуковые события с различными визуальными сценами, реагируя на информацию, предоставленную в аннотациях или стенограммах. При желании можно добавлять текстовые подсказки, но это не является обязательным.
В то же время есть несколько недостатков, которые в Google сейчас пытаются устранить. Среди них снижение качества видео на выходе и плохая синхронизация губ во время сгенерированных диалогов.
Напомним, Google представит свою платформу для 3D-видеозвонков Starline уже в 2025 году. Она разрабатывалась в сотрудничестве с HP. Используя достижения в области искусственного интеллекта, 3D-визуализации и других технологий, Starline работает как «волшебное окно».
Ознакомьтесь с другими популярными материалами:
Google планирует сделать поиск платным: причина
Материнская компания Google впервые в истории выплатит дивиденды: сколько получат акционеры
Google выделил 700 тысяч евро для обучения украинцев — детали программы