Дослідники з Google представили новий інструмент на основі штучного інтелекту під назвою VLOGGER, здатний трансформувати статичні фотографії у реалістичні відео
Цей інструмент не тільки оживляє обличчя на фотографіях, а й дозволяє зображенням рухатись та виконувати жести, створюючи ілюзію повноцінного відеозапису.
Читайте також: Microsoft, Google та Amazon анонсували обмеження для російських компаній
Відмінною рисою VLOGGER є його здатність працювати без необхідності попереднього навчання для кожної окремої фотографії, відкриваючи широкі перспективи застосування від створення 3D фотореалістичних аватарів для відеоігор та віртуальної реальності до оцифровування акторів для потреб кіноіндустрії.
Google позиціонує VLOGGER як віртуозний інструмент, який знайде застосування в освітніх програмах, презентаціях, при низькошвидкісному інтернет-зв’язку, віртуальному оповіданні та в інтерфейсах комунікації “текст-комп’ютер”. Незважаючи на деякі обмеження, такі як коротка тривалість відео та статичний фон, технологія маркує суттєвий прогрес у сфері анімації зображень.
Вас може зацікавити: Gemini від Google спровокував скандал: що сталось
Однак, новаторство VLOGGER несе з собою й питання етики, зокрема зростання занепокоєнь щодо діпфейків. Завдяки своїм передовим можливостям у точності зображення, збереженні особистості та послідовності дій, модель Google викликає дебати серед законодавців та фахівців у галузі безпеки на глобальному рівні.
Цей прорив Google може кардинально змінити спосіб взаємодії людей із фотографіями, надаючи можливість не лише створювати тривимірні аватари зі своїх фото, але й оживляти цілі сцени, розширюючи кордони креативності.
Нагадаємо, Google оголосив про розробку оновленої великої мовної моделі, або LLM, під назвою Gemini 1.5. Першу версію цієї технології незабаром буде випущено для раннього тестування. Інформація з’явилася всього через два місяці після того, як Google представив оригінальну Gemini, яка має стати відповіддю на GPT-4 OpenAI та інші LLM.
Gemini — це мультимодальна модель ШІ нового покоління. Це означає, що технологія може обробляти більше одного типу даних, включаючи комбінацію зображень, тексту, аудіо, відео та мов кодування. Технологія призначена для використання в якості бізнес-інструменту та особистого асистента.
Ознайомтесь з іншими популярними матеріалами:
Скільки Apple заробляла за секунду у 2023 році – AltIndex.com
Чим зумовлена популярність iPhone 13: 5 факторів
Apple запустила свій перший спортивний застосунок
Джерело: vlogger