close-btn

Google запустил нейросеть Genie: на что она способна

Google DeepMind продемонстрировала новый инструмент искусственного интеллекта, который способен создавать игровые виртуальные миры из одного изображения. Эта презентация Genie является еще одним способом, которым крупные технологические гиганты США регистрируют свое доминирование в секторе искусственного интеллекта через несколько недель после шоу NVIDIA «Chat With RTX»

Фото: freepik.com

Фото: freepik.com

Genie, сокращение от Generative Interactive Environments, создает 2D-платформеры на основе запросов пользователей, используя одно изображение.

Разработанный совместно Google и Университетом Британской Колумбии, Genie обучен создавать интерактивные игровые среды с использованием видео-токенизатора и динамической модели. Исследователи отмечают, что Genie не ограничивается 2D мирами и демонстрируют перспективный шаг к общим мировым моделям для искусственного общего интеллекта (AGI).

Google Genie, как его называют, способен идентифицировать и понимать текстовую подсказку, эскиз или идею, а затем переводить их в виртуальный мир, где пользователь может взаимодействовать и играть. Роуэн Ченг, основатель самого быстро растущего в мире бюллетеня по искусственному интеллекту The Rundown AI, признал, что запуск Google Genie является большим делом для популярной технологической компании.

Вас может заинтересовать: Gemini 1.5 Pro от Google vs GPT-4 Turbo от OpenAI: что выбрать пользователям

В настоящее время модель искусственного интеллекта обучена игровому процессу, а также другим видео, хотя огромный процент этих игр является 2D-платформерами, а не полной виртуальной реальностью. Между тем эти игры все еще находятся на стадии предварительного просмотра. По словам Чунга, Джини обучен 200 000 часов бесконтрольных публичных интернет-игр видео.

Он отметил уникальную особенность базовой модели искусственного интеллекта, которая заключается в том, что она может распознавать главного героя в игре даже без обучения действий или текстовых аннотаций. Благодаря этому пользователь может легко управлять персонажем в сгенерированном мире. Это благодаря действию модели скрытого действия, видеокенизатора и модели динамики, как указано в списке X.

Напомним, Google объявил о разработке обновленной большой языковой модели, или LLM, под названием Gemini 1.5. Первая версия этой технологии вскоре будет выпущена для раннего тестирования. Информация появилась всего через два месяца после того, как Google представил оригинальную Gemini, которая должна стать ответом на GPT-4 OpenAI и другие LLM.

Gemini — это мультимодальная модель ИИ нового поколения. Это означает, что технология может обрабатывать более одного типа данных, включая комбинацию изображений, текста, аудио, видео и языков кодирования. Технология предназначена для использования в качестве бизнес-инструмента и личного ассистента.

Ознакомьтесь с другими популярными материалами:

Google объявил о новых грантах для украинских стартапов

Украинский стартап участвует в программе Google

Сколько «налога на Google» заплатили компании в конце 2023 года — Гетманцев

Источник: coingape

google news