Огляд Grok-1.5 від Ілона Маска: чи краще від Google Gemini та ChatGPT

AI-стартап Ілона Маска xAI, який займається розробкою великих мовних моделей (LLM), оголосив про випуск Grok-1.5, оновленої версії чат-бота

Огляд Grok-1.5 від Ілона Маска: чи краще від Google Gemini та ChatGPT Фото: freepik.com, pngwing.com

Про це повідомила пресслужба xAI.

Ця вдосконалена версія чат-бота Grok доступна для перших тестувальників і поточних користувачів Grok на платформі соціальних мереж X (колишній Twitter).

Удосконалення Grok-1.5

Grok-1.5 від xAI демонструє покращення в роботі з кодуванням та математичними завданнями. Метрики показують значне збільшення точності на математичному тесті: з 23,9% до 50,6%. Хоча це наближає Grok-1.5 до таких конкурентів, як Gemini від Google (58,5%) і ChatGPT від OpenAI (52,9%), він все ще відстає від цих провідних моделей за загальною продуктивністю.

«У наших тестах Grok-1.5 показав результат 50,6% у тесті з математики та 90% у тесті GSM8K — двох математичних тестах, що охоплюють широкий спектр олімпіадних завдань від початкової школи до старших класів. Крім того, він набрав 74,1% у тесті HumanEval, який оцінює вміння генерувати код і вирішувати проблеми», — зазначає xAI у своєму блозі.

У тесті MMLU, який оцінює здатність АІ-моделей розуміти мову в різних завданнях, нова модель набрала 81,3%, зі значним відривом випередивши Grok-1, яка набрала 73%.

Цікаве по темі: Ілон Маск створить власну 5G мережу: деталі

Крім того, xAI також підтвердив, що Grok-1.5 має контекстне вікно до 128 000 токенів (токени — це цілі частини або підрозділи слів, зображень, відео, аудіо або коду). Це дозволяє моделі приймати і обробляти величезні обсяги інформації за один раз — в 16 разів більше, ніж Grok-1, що робить її більш придатною для аналізу, узагальнення та вилучення інформації з довгих документів. Він навіть може обробляти довші та складніші підказки, зберігаючи при цьому здатність слідувати інструкціям.

Завдяки покращеним можливостям міркування та вирішення проблем, Grok-1.5 не тільки перевершує свого попередника в бенчмарках, але й наближається до популярних моделей з відкритим та закритим кодом, включаючи Gemini 1.5 Pro, GPT-4 та Claude 3.

Наприклад, на MMLU Грок-1.5 з показником 81,3% випереджає нещодавно представлений Mistral Large, але відстає від Gemini 1.5 Pro (83,7%), GPT-4 (86,4%, станом на березень 2023 року) та Claude 3 Opus (86,8%). Аналогічний розрив був відзначений і в бенчмарку GSM8K, де модель xAI опинилася одразу за пропозиціями від Google, OpenAI та Anthropic.

Огляд Grok-1.5 від Ілона Маска: чи краще від Google Gemini та ChatGPT Фото: x.ai

Примітно, що єдиним бенчмарком, де Grok-1.5 мав перевагу, був HumanEval, де він випередив усі моделі, крім Claude 3 Opus. xAI очікує продовження цих поліпшень і подальшого зростання продуктивності з Grok-2, який, за словами Маска, повинен перевершити поточний ШІ за всіма показниками. Наразі модель проходить навчання.

Брайан Реммеле, технічний консультант, сказав, що на основі його роботи з Grok-1, Grok-2 «буде однією з найпотужніших платформ штучного інтелекту LLM, коли вона буде випущена. Вона перевершить OpenAI практично за всіма показниками».

🔮 Based on my research of open source Grok-1, I am confident in saying that Grok-2 will be one of the most powerful LLM AI platforms when it is released. It will surpass OpenAI on just about every metric.
— Brian Roemmele (@BrianRoemmele) March 29, 2024

Незважаючи на визнання поточних обмежень Grok-1.5, компанія xAI залишається оптимістично налаштованою на майбутнє.

З моменту свого запуску в 2023 році xAI прагне закріпитися на ринку ШІ, використовуючи вплив і ресурси Маска. Випуск Grok-1.5 свідчить про їхні зусилля, спрямовані на залучення більшої кількості користувачів і зміцнення своїх позицій у галузі LLM, що стрімко розвивається.

Випуск Grok-1.5 може посилити конкуренцію і потенційно стимулювати подальші інновації на ринку чат-ботів зі штучним інтелектом.

Важливо зазначити, що, незважаючи на сплеск інтересу, купити акції xAI поки що неможливо. Однак інвестори все ще можуть ризикувати, вкладаючи кошти в альтернативні підприємства, що належать Ілону Маску.

Ознайомтеся з іншими популярними матеріалами:

Ілон Маск показав роботу Starlink через смартфон без спецобладнання

Neuralink вперше вживила імплант у людський мозок – Маск

Tesla та SpaceX можуть стати банкрутами через дії Маска: що сталось

Допоміжні матеріали: venturebeat.com, finbold.com.