AI-стартап Илона Маска xAI, который занимается разработкой больших языковых моделей (LLM), объявил о выпуске Grok-1.5, обновленной версии чат-бота
Об этом сообщила пресс-служба xAI.
Эта усовершенствованная версия чат-бота Grok доступна для первых тестировщиков и текущих пользователей Grok на платформе социальных сетей X (бывший Twitter).
Усовершенствования Grok-1.5
Grok-1.5 от xAI демонстрирует улучшения в работе с кодированием и математическими задачами. Метрики показывают значительное увеличение точности на математическом тесте: с 23,9% до 50,6%. Хотя это приближает Grok-1.5 к таким конкурентам, как Gemini от Google (58,5%) и ChatGPT от OpenAI (52,9%), он все еще отстает от этих ведущих моделей по общей производительности.
«В наших тестах Grok-1.5 показал результат 50,6% в тесте по математике и 90% в тесте GSM8K — двух математических тестах, охватывающих широкий спектр олимпиадных заданий от начальной школы до старших классов. Кроме того, он набрал 74,1% в тесте HumanEval, который оценивает умение генерировать код и решать проблемы», — отмечает xAI в своем блоге.
В тесте MMLU, который оценивает способность ИИ-моделей понимать язык в различных задачах, новая модель набрала 81,3%, со значительным отрывом опередив Grok-1, которая набрала 73%.
Интересное по теме: Илон Маск создаст собственную 5G сеть: детали
Кроме того, xAI также подтвердил, что Grok-1.5 имеет контекстное окно до 128 000 токенов (токены — это целые части или подразделы слов, изображений, видео, аудио или кода). Это позволяет модели принимать и обрабатывать огромные объемы информации за один раз — в 16 раз больше, чем Grok-1, что делает ее более подходящей для анализа, обобщения и извлечения информации из длинных документов. Он даже может обрабатывать более длинные и сложные подсказки, сохраняя при этом способность следовать инструкциям.
Благодаря улучшенным возможностям рассуждения и решения проблем, Grok-1.5 не только превосходит своего предшественника в бенчмарках, но и приближается к популярным моделям с открытым и закрытым кодом, включая Gemini 1.5 Pro, GPT-4 и Claude 3.
Например, на MMLU Грок-1.5 с показателем 81,3% опережает недавно представленный Mistral Large, но отстает от Gemini 1.5 Pro (83,7%), GPT-4 (86,4%, по состоянию на март 2023 года) и Claude 3 Opus (86,8%). Аналогичный разрыв был отмечен и в бенчмарке GSM8K, где модель xAI оказалась сразу за предложениями от Google, OpenAI и Anthropic.
Примечательно, что единственным бенчмарком, где Grok-1.5 имел преимущество, был HumanEval, где он опередил все модели, кроме Claude 3 Opus. xAI ожидает продолжения этих улучшений и дальнейшего роста производительности с Grok-2, который, по словам Маска, должен превзойти текущий ИИ по всем показателям. В настоящее время модель проходит обучение.
Брайан Реммеле, технический консультант, сказал, что на основе его работы с Grok-1, Grok-2 «будет одной из самых мощных платформ искусственного интеллекта LLM, когда она будет выпущена. Она превзойдет OpenAI практически по всем показателям».
🔮 Based on my research of open source Grok-1, I am confident in saying that Grok-2 will be one of the most powerful LLM AI platforms when it is released. It will surpass OpenAI on just about every metric.
— Brian Roemmele (@BrianRoemmele) March 29, 2024
Несмотря на признание текущих ограничений Grok-1.5, компания xAI остается оптимистично настроенной на будущее.
С момента своего запуска в 2023 году xAI стремится закрепиться на рынке ИИ, используя влияние и ресурсы Маска. Выпуск Grok-1.5 свидетельствует об их усилиях, направленных на привлечение большего количества пользователей и укрепление своих позиций в стремительно развивающейся отрасли LLM.
Выпуск Grok-1.5 может усилить конкуренцию и потенциально стимулировать дальнейшие инновации на рынке чат-ботов с искусственным интеллектом.
Важно отметить, что, несмотря на всплеск интереса, купить акции xAI пока что невозможно. Однако инвесторы все еще могут рисковать, вкладывая средства в альтернативные предприятия, принадлежащие Илону Маску.
Ознакомьтесь с другими популярными материалами:
Илон Маск больше не самый богатый человек в мире
Neuralink впервые вживила имплант в человеческий мозг — Маск
Tesla и SpaceX могут стать банкротами из-за действий Маска: что произошло
Вспомогательные материалы: venturebeat.com, finbold.com.