close-btn

Alibaba запустила нейросеть EMO: что умеет

Исследователи из Института интеллектуальных вычислений Alibaba разработали новую систему искусственного интеллекта под названием «EMO», сокращение от Emote Portrait Alive, которая может анимировать одну портретную фотографию и создавать видео человека, который разговаривает или поет, невероятно реалистичным образом

Фото: freepik.com

Фото: freepik.com

Об этом сообщает VentureBeat.

Система способна создавать плавные и выразительные движения лица и позы головы, придавая им реалистичную мимику и движения головы, которые точно соответствуют эмоциональным оттенкам звукового сопровождения.

«Традиционные методы часто не в состоянии охватить полный спектр человеческих выражений и уникальность индивидуальных стилей лица. Чтобы решить эти проблемы, мы предлагаем EMO, новую структуру, которая использует подход прямого синтеза аудио-видео, обходя потребность в промежуточных 3D-моделях или ориентирах лица», — сказал ведущий автор Линруй Тянь в статье.

Вас может заинтересовать: Samsung представила прототип гибкого смартфона-браслета

В отличие от предыдущих методов, которые полагаются на 3D-модели лица или смешивают формы для аппроксимации движений лица, EMO напрямую преобразует аудиосигнал в видеокадры. Это позволяет улавливать едва заметные движения и специфические особенности, связанные с естественной речью.

Согласно экспериментам, описанным в статье, EMO значительно превосходит существующие современные методы по показателям измерения качества видео, сохранения идентичности и выразительности. Исследователи также провели исследование пользователей, которое показало, что видео, сгенерированные EMO, являются более естественными и эмоциональными, чем те, которые создают другие системы.

Читайте популярное: Создана революционная система распознавания эмоций: как работает

Кроме разговорных видео, EMO также может анимировать поющие портреты с соответствующей формой рта и выражением лица, синхронизированным с вокалом. Система поддерживает создание видео произвольной продолжительности на основе продолжительности входного аудио.

Исследование EMO намекает на будущее, где персонализированный видеоконтент можно будет синтезировать только из фотографии и аудиоклипа. Однако остаются этические опасения относительно возможного злоупотребления такой технологией для выдачи себя за людей без согласия или распространения дезинформации. Исследователи говорят, что планируют изучить методы обнаружения синтетического видео.

Напомним, Samsung впервые представила рабочий вариант Galaxy Ring на выставке техники Mobile World Congress (MWC 2024) в испанской Барселоне. Ранее мы писали, что официальный запуск продукта планируется на вторую половину 2024 года. Предварительно известно, что презентация состоится на мероприятии Galaxy Unpacked в июле.

Ознакомьтесь с другими популярными материалами: 

Ученые создали новый чип на световых волнах: как он изменит компьютеры

Meta создаст устройства, которые позволят управлять ИИ силой мысли

Ученые создают технологию, которая значительно ускорит космические полеты

google news