close-btn

Meta випустила свою найбільшу модель ШІ з відкритим кодом

Компанія Meta оголосила про випуск Llama 3.1 405B — моделі, що містить 405 мільярдів параметрів. Моделі з більшою кількістю параметрів, як правило, працюють краще, ніж моделі з меншою кількістю параметрів

Meta випустила свою найбільшу модель ШІ з відкритим кодом

Meta випустила свою найбільшу модель ШІ з відкритим кодом Фото: unsplash.com

Маючи 405 мільярдів параметрів, Llama 3.1 405B не є абсолютною найбільшою моделлю з відкритим вихідним кодом, але вона є найбільшою за останні роки. Навчена за допомогою 16 000 графічних процесорів Nvidia H100, вона також використовує новітні методи навчання і розробки, які, як стверджують в Meta, роблять її конкурентоспроможною з провідними моделями, такими як GPT-4o від OpenAI і Claude 3.5 Sonnet від Anthropic.

Як і попередні моделі Meta, Llama 3.1 405B доступний для завантаження або використання на хмарних платформах, таких як AWS, Azure і Google Cloud. Він також використовується в WhatsApp і Meta.ai, де він забезпечує роботу чат-ботів для користувачів.

Як і інші моделі генеративного ШІ з відкритим і закритим кодом, Llama 3.1 405B може виконувати різні завдання — від кодування і відповідей на базові математичні питання до узагальнення документів вісьмома мовами (англійською, німецькою, французькою, італійською, португальською, гінді, іспанською та тайською). Він працює лише з текстом, тобто не може, наприклад, відповісти на запитання про зображення, але більшість текстових завдань — наприклад, аналіз файлів PDF і електронних таблиць — входять до його компетенції. Llama 3.1 405B має більше контекстне вікно, ніж попередні моделі Llama: приблизно довжина 50 сторінок.

Дослідники компанії заявляють, що вони активно розробляють моделі Llama, які можуть розпізнавати зображення і відео. Проте ці моделі ще не готові до публічного релізу.

Цікаве по темі: Google почав протистояння з Meta через ШІ-окуляри

Для навчання Llama 3.1 405B компанія Meta використала набір даних з 15 трильйонів токенів до 2024 року (токени — це частини слів, які моделям легше засвоїти, ніж цілі слова, а 15 трильйонів токенів — це 750 мільярдів слів). Це не новий навчальний набір, оскільки Meta використовувала базовий набір для навчання попередніх моделей Llama, але компанія стверджує, що вдосконалила свої конвеєри курації даних і застосувала «більш суворі» підходи до забезпечення якості та фільтрації даних при розробці цієї моделі.

Компанія також використовувала синтетичні дані (дані, згенеровані іншими моделями ШІ) для доопрацювання Llama 3.1 405B. Більшість великих постачальників АІ, зокрема OpenAI та Anthropic, вивчають можливості використання синтетичних даних для масштабування навчання АІ, але деякі експерти вважають, що синтетичні дані мають бути крайнім засобом через їхній потенціал посилювати упередженість моделі.

Якщо вірити бенчмаркам, Llama 3.1 405B дійсно є дуже потужною моделлю. Це було б добре, враховуючи деякі обмеження моделей Llama попереднього покоління. Llama 3 405B працює нарівні з GPT-4 від OpenAI і досягає «змішаних результатів» у порівнянні з GPT-4o і Claude 3.5 Sonnet. Хоча Llama 3 405B краще виконує код і генерує сюжети, ніж GPT-4o, її багатомовні можливості в цілому слабші, і Llama 3 405B поступається Claude 3.5 Sonnet у програмуванні та загальних міркуваннях.

Ознайомтеся з іншими популярними матеріалами:

Meta хоче інтегрувати ШІ в ігри для метавсесвіту

Meta представила новий ШІ-інструмент: чим особливий

Coinbase, Meta і власник Tinder разом боротимуться з шахраями

За матеріалами: Tech Crunch.

google news