AI-стартап Ілона Маска xAI, який займається розробкою великих мовних моделей (LLM), оголосив про випуск Grok-1.5, оновленої версії чат-бота
Про це повідомила пресслужба xAI.
Ця вдосконалена версія чат-бота Grok доступна для перших тестувальників і поточних користувачів Grok на платформі соціальних мереж X (колишній Twitter).
Удосконалення Grok-1.5
Grok-1.5 від xAI демонструє покращення в роботі з кодуванням та математичними завданнями. Метрики показують значне збільшення точності на математичному тесті: з 23,9% до 50,6%. Хоча це наближає Grok-1.5 до таких конкурентів, як Gemini від Google (58,5%) і ChatGPT від OpenAI (52,9%), він все ще відстає від цих провідних моделей за загальною продуктивністю.
«У наших тестах Grok-1.5 показав результат 50,6% у тесті з математики та 90% у тесті GSM8K — двох математичних тестах, що охоплюють широкий спектр олімпіадних завдань від початкової школи до старших класів. Крім того, він набрав 74,1% у тесті HumanEval, який оцінює вміння генерувати код і вирішувати проблеми», — зазначає xAI у своєму блозі.
У тесті MMLU, який оцінює здатність АІ-моделей розуміти мову в різних завданнях, нова модель набрала 81,3%, зі значним відривом випередивши Grok-1, яка набрала 73%.
Цікаве по темі: Ілон Маск створить власну 5G мережу: деталі
Крім того, xAI також підтвердив, що Grok-1.5 має контекстне вікно до 128 000 токенів (токени — це цілі частини або підрозділи слів, зображень, відео, аудіо або коду). Це дозволяє моделі приймати і обробляти величезні обсяги інформації за один раз — в 16 разів більше, ніж Grok-1, що робить її більш придатною для аналізу, узагальнення та вилучення інформації з довгих документів. Він навіть може обробляти довші та складніші підказки, зберігаючи при цьому здатність слідувати інструкціям.
Завдяки покращеним можливостям міркування та вирішення проблем, Grok-1.5 не тільки перевершує свого попередника в бенчмарках, але й наближається до популярних моделей з відкритим та закритим кодом, включаючи Gemini 1.5 Pro, GPT-4 та Claude 3.
Наприклад, на MMLU Грок-1.5 з показником 81,3% випереджає нещодавно представлений Mistral Large, але відстає від Gemini 1.5 Pro (83,7%), GPT-4 (86,4%, станом на березень 2023 року) та Claude 3 Opus (86,8%). Аналогічний розрив був відзначений і в бенчмарку GSM8K, де модель xAI опинилася одразу за пропозиціями від Google, OpenAI та Anthropic.
Примітно, що єдиним бенчмарком, де Grok-1.5 мав перевагу, був HumanEval, де він випередив усі моделі, крім Claude 3 Opus. xAI очікує продовження цих поліпшень і подальшого зростання продуктивності з Grok-2, який, за словами Маска, повинен перевершити поточний ШІ за всіма показниками. Наразі модель проходить навчання.
Брайан Реммеле, технічний консультант, сказав, що на основі його роботи з Grok-1, Grok-2 «буде однією з найпотужніших платформ штучного інтелекту LLM, коли вона буде випущена. Вона перевершить OpenAI практично за всіма показниками».
🔮 Based on my research of open source Grok-1, I am confident in saying that Grok-2 will be one of the most powerful LLM AI platforms when it is released. It will surpass OpenAI on just about every metric.
— Brian Roemmele (@BrianRoemmele) March 29, 2024
Незважаючи на визнання поточних обмежень Grok-1.5, компанія xAI залишається оптимістично налаштованою на майбутнє.
З моменту свого запуску в 2023 році xAI прагне закріпитися на ринку ШІ, використовуючи вплив і ресурси Маска. Випуск Grok-1.5 свідчить про їхні зусилля, спрямовані на залучення більшої кількості користувачів і зміцнення своїх позицій у галузі LLM, що стрімко розвивається.
Випуск Grok-1.5 може посилити конкуренцію і потенційно стимулювати подальші інновації на ринку чат-ботів зі штучним інтелектом.
Важливо зазначити, що, незважаючи на сплеск інтересу, купити акції xAI поки що неможливо. Однак інвестори все ще можуть ризикувати, вкладаючи кошти в альтернативні підприємства, що належать Ілону Маску.
Ознайомтеся з іншими популярними матеріалами:
Ілон Маск показав роботу Starlink через смартфон без спецобладнання
Neuralink вперше вживила імплант у людський мозок – Маск
Tesla та SpaceX можуть стати банкрутами через дії Маска: що сталось
Допоміжні матеріали: venturebeat.com, finbold.com.