close-btn

Google працює над ШІ, що може озвучувати відео

Новий штучний інтелект (ШІ) від розробників Google використовує пікселі відео та текстові підказки для створення насичених звукових доріжок

Google представила V2A

Фото: freepik.com

Багато сучасних ШІ-інструментів можуть генерувати лише відеозаписи без звуку. Одним із наступних важливих кроків в Google вважають створення звукових доріжок для цих німих відео.

Команда Google DeepMind представила технологію перетворення відео в аудіо (V2A), яка робить можливим синхронізоване аудіовізуальне створення. V2A поєднує відеопікселі з текстовими підказками природною мовою для створення насиченого звукового ландшафту для дій на екрані.

Читайте також: Google Cloud, GlobalLogic та Hitachi об’єднались для розвитку ШІ

V2A сумісна з такими моделями відеогенерації, як Veo, про яку ми писали раніше. Разом вони можуть створювати кадри з драматичною партитурою, реалістичними звуковими ефектами або діалогами, які відповідають персонажам і тону відео.

Також новий ШІ може створювати звукові доріжки для різноманітних традиційних матеріалів, включаючи архівні матеріали, німі фільми тощо. V2A може генерувати необмежену кількість звукових доріжок для будь-якого відеоролика, при цьому користувач має змогу давати йому підказки. Нижче представлені кілька прикладів технології. Більше ви можете побачити в блозі DeepMind.

Вас може зацікавити: В Google за допомогою ШІ можна буде підбирати одяг

Розробники навчали технологію на анотаціях, згенерованих ШІ, із детальним описом звуку та розшифровками розмовних діалогів, а також на різних відео та аудіо. Як результат — нейромережа вчиться пов’язувати конкретні звукові події з різними візуальними сценами, реагуючи на інформацію, надану в анотаціях або стенограмах. За бажанням можна додавати текстові підказки, але це не є обов’язковим.

Водночас є кілька недоліків, які в Google зараз намагаються усунути. Серед них зниження якості відео на виході та погана синхронізація губ під час згенерованих діалогів.

Нагадаємо, Google представить свою платформу для 3D-відеодзвінків Starline уже у 2025 році. Вона розроблялася у співпраці з HP. Використовуючи досягнення в галузі штучного інтелекту, 3D-візуалізації та інших технологій, Starline працює як «чарівне вікно».

Ознайомтеся з іншими популярними матеріалами:

Google планує зробити пошук платним: причина

Материнська компанія Google вперше в історії виплатить дивіденди: скільки отримають акціонери

Google виділив 700 тисяч євро для навчання українців – деталі програми

google news