Google запустила собственную нейросеть Gemini: чем она особенна

Google представила свою большую языковую модель (LLM) Gemini, которую в компании называют самой мощной и эффективной моделью искусственного интеллекта (ИИ) среди всех существующих

Фото: blog.google

Впервые Gemini анонсировали еще в мае этого года на мероприятии I/O 2023. Как рассказали в корпорации, в целом нейросеть нацелена на простую интеграцию с API и другими инструментами.

Gemini содержит три компоненты, каждая из которых поддерживает фото, аудио и видео:

Ultra — самая большая и функциональная, в основном предназначенная для использования в центрах обработки данных и интеграции с корпоративными приложениями;
Pro — для решения широкого круга задач, в будущем она станет основой для сервисов Google;
Nano — для конкретных задач и автономной работы на Android.

Наиболее мощной среди них является Ultra, которая включает информацию по 57 предметам (математике, физике, истории, праву, медицине, этике и другим). Также она способна самостоятельно проверять факты и решать проблемы, возникающие в процессе. В общем доступе эта модель появится только в следующем году.

«Gemini — это результат совместных усилий различных команд Google. Эта модель была создана с нуля. Она может обобщать и легко понимать, обрабатывать и комбинировать различные типы информации, включая текст, код, аудио, изображения и видео», — заявил Сундар Пичаи, генеральный директор Alphabet Inc., материнской компании Google.

Начиная с 7 декабря, Google Bard использует Gemini Pro для помощи пользователям в планировании, понимании сложных тем и других задач. Также с 13 декабря разработчики и корпоративные клиенты смогут получить доступ к модели Pro через Google Generative AI Studio или Vertex AI в облачной платформе Google Cloud.

Gemini против ChatGPT

Сейчас Gemini может обрабатывать запросы только на английском, но в будущем планируется добавить поддержку других языков.

Во время презентации Gemini гендиректор Google DeepMind Демис Гассабис сообщил, что компания провела тщательное сравнение своей языковой модели с GPT-4, последней версией нейросети, лежащей в основе ChatGPT.

По его словам, Gemini опережает конкурента по 30 из 32 показателей. В некоторых тестах нейросеть Google опережает GPT-4 минимально, тогда как в других — более ощутимо.

Наибольшим преимуществом Gemini во время тестирований стала его способность понимать видео и аудио, а также взаимодействовать с ними. В целом Google придерживается идеи интегрировать эти возможности непосредственно в Gemini, в отличие от OpenAI, которая создала отдельные ИИ-модели для обработки изображений и аудио, такие как DALL-E и Whisper.

На данный момент базовые версии Gemini поддерживают только текстовый ввод и вывод, но более мощные версии алгоритма, включая Gemini Ultra, способны работать с изображениями, видео и аудио.

Напомним, Google активно работает над развитием как программного обеспечения, так и аппаратной части этой технологии. Недавно компания объявила о создании новых специализированных процессоров и разработке инновационного «гиперкомпьютера», предназначенного для искусственного интеллекта нового поколения.

Ознакомьтесь с другими популярными материалами:

Виталик Бутерин: ИИ может превзойти человека как «высший» вид

Google объявила лучшие приложения и игры 2023 года

Google Ukraine ищет нового директора в украинский офис: какие требования