Google запустив нейромережу Genie: на що вона здатна

Google DeepMind продемонструвала новий інструмент штучного інтелекту, який здатний створювати ігрові віртуальні світи з одного зображення. Ця презентація Genie є ще одним способом, яким великі технологічні гіганти США реєструють своє домінування в секторі штучного інтелекту через кілька тижнів після шоу NVIDIA «Chat With RTX»

Фото: freepik.com

Genie, скорочення від Generative Interactive Environments, створює 2D-платформери на основі запитів користувачів, використовуючи одне зображення.

Розроблений спільно Google та Університетом Британської Колумбії, Genie навчений створювати інтерактивні ігрові середовища з використанням відео-токенізатора та динамічної моделі. Дослідники зазначають, що Genie не обмежується 2D світами та демонструють перспективний крок до загальних світових моделей для штучного загального інтелекту (AGI).

Google Genie, як його називають, здатний ідентифікувати та розуміти текстову підказку, ескіз чи ідею, а потім переводити їх у віртуальний світ, де користувач може взаємодіяти та грати. Роуен Ченг, засновник найшвидше зростаючого у світі бюлетеня зі штучного інтелекту The Rundown AI, визнав, що запуск Google Genie є великою справою для популярної технологічної компанії.

Читайте також: Google перейменувала свій чат-бот Bard та випустила однойменний застосунок

Наразі модель штучного інтелекту навчена ігровому процесу, а також іншим відео, хоча величезний відсоток цих ігор є 2D-платформерами, а не повною віртуальною реальністю. Тим часом ці ігри все ще знаходяться на стадії попереднього перегляду. За словами Чунга, Джіні навчений 200 000 годин безконтрольних публічних інтернет-ігор відео.

Він зазначив унікальну особливість базової моделі штучного інтелекту, яка полягає в тому, що вона може розпізнавати головного героя в грі навіть без навчання дій або текстових анотацій. Завдяки цьому користувач може легко керувати персонажем у згенерованому світі. Це завдяки дії моделі прихованої дії, відеотокенізера та моделі динаміки, як зазначено в списку X.

Нагадаємо, Google оголосив про розробку оновленої великої мовної моделі, або LLM, під назвою Gemini 1.5. Першу версію цієї технології незабаром буде випущено для раннього тестування. Інформація з’явилася всього через два місяці після того, як Google представив оригінальну Gemini, яка має стати відповіддю на GPT-4 OpenAI та інші LLM.

Gemini — це мультимодальна модель ШІ нового покоління. Це означає, що технологія може обробляти більше одного типу даних, включаючи комбінацію зображень, тексту, аудіо, відео та мов кодування. Технологія призначена для використання в якості бізнес-інструменту та особистого асистента.

Ознайомтеся з іншими популярними матеріалами:

Google оголосив про нові гранти для українських стартапів

Український стартап бере участь у програмі Google

Скільки «податку на Google» заплатили компанії в кінці 2023 року — Гетманцев

Джерело: coingape