Сервис создает небольшое видео, после чего ИИ-алгоритм дополняет его графическим контентом на свое усмотрение
Разработчики компании представили новый продукт на основе искусственного интеллекта Imagen Video, который способен трансформировать словесный запрос в видеоролик с разрешением 1280×768 пикселей и частотой 24 кадра в секунду. В основе сервиса лежит технология Imagen, которая повторяет функциональные характеристики DALL-E 2 и Stable Diffusion.
Генератор картинок использует большую предобученную языковую нейросеть и каскадную диффузную модель. По словам разработчиков, первоначально сервис выстраивает на основе поискового запроса 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем «умные» алгоритмы масштабируют полученное видео и «дорисовывают» некоторые фрагменты контента.
В результате получается 128-кадровая анимация с разрешением 1280×768 пикселей и частотой 24 FPS. Для обучения Imagen Video разработчики использовали 14 млн пар фраз «видео-описание» и 60 млн «изображение-текст», а также общедоступный набор данных LAION-400M, что позволило модели применять ряд эстетических аспектов.
«В отличие от Stable Diffusion и DALL-E 2, которые пытаются превратить запрос вроде “логотип для Diffusion” в читаемые слова, Imagen Video воспроизводит его без проблем», — говорится в документе проекта.
ЧИТАЙТЕ ТАКЖЕ: Дуров рассказал, какие опасности подстерегают пользователей WhatsApp
Мы ранее сообщали, что пользователи Reddit и Twitter опубликовали скриншоты, на которых видно, что опция 4K, которая обычно бесплатна для всех пользователей, стала функцией YouTube Premium.
ЧИТАЙТЕ ТАКЖЕ:
Одинаковый зарядный кабель для всех устройств: парламент ЕС одобрил инициативу
TikTok следит за пользователями? Мнение экспертов
По материалам сайта forklog.com