close-btn

Meta выпустила свою самую большую модель ИИ с открытым кодом

Компания Meta объявила о выпуске Llama 3.1 405B — модели, содержащей 405 миллиардов параметров. Модели с большим количеством параметров, как правило, работают лучше, чем модели с меньшим количеством параметров

Meta выпустила свою самую большую модель ИИ с открытым кодом

Meta выпустила свою самую большую модель ИИ с открытым кодом Фото: unsplash.com

Имея 405 миллиардов параметров, Llama 3.1 405B не является абсолютной самой большой моделью с открытым исходным кодом, но она является самой большой за последние годы. Обученная с помощью 16 000 графических процессоров Nvidia H100, она также использует новейшие методы обучения и разработки, которые, как утверждают в Meta, делают ее конкурентоспособной с ведущими моделями, такими как GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic.

Как и предыдущие модели Meta, Llama 3.1 405B доступен для загрузки или использования на облачных платформах, таких как AWS, Azure и Google Cloud. Он также используется в WhatsApp и Meta.ai, где он обеспечивает работу чат-ботов для пользователей.

Как и другие модели генеративного ИИ с открытым и закрытым кодом, Llama 3.1 405B может выполнять различные задачи — от кодирования и ответов на базовые математические вопросы до обобщения документов на восьми языках (английском, немецком, французском, итальянском, португальском, хинди, испанском и тайском). Он работает только с текстом, то есть не может, например, ответить на вопрос об изображениях, но большинство текстовых задач — например, анализ файлов PDF и электронных таблиц — входят в его компетенцию. Llama 3.1 405B имеет большее контекстное окно, чем предыдущие модели Llama: примерно длина 50 страниц.

Исследователи компании заявляют, что они активно разрабатывают модели Llama, которые могут распознавать изображения и видео. Однако эти модели еще не готовы к публичному релизу.

Интересное по теме: Google начал противостояние с Meta из-за ИИ-очков

Для обучения Llama 3.1 405B компания Meta использовала набор данных из 15 триллионов токенов до 2024 года (токены — это части слов, которые моделям легче усвоить, чем целые слова, а 15 триллионов токенов — это 750 миллиардов слов). Это не новый учебный набор, поскольку Meta использовала базовый набор для обучения предыдущих моделей Llama, но компания утверждает, что усовершенствовала свои конвейеры курации данных и применила «более строгие» подходы к обеспечению качества и фильтрации данных при разработке этой модели.

Компания также использовала синтетические данные (данные, сгенерированные другими моделями ИИ) для доработки Llama 3.1 405B. Большинство крупных поставщиков ИИ, в частности OpenAI и Anthropic, изучают возможности использования синтетических данных для масштабирования обучения ИИ, но некоторые эксперты считают, что синтетические данные должны быть крайним средством из-за их потенциала усиливать предвзятость модели.

Если верить бенчмаркам, Llama 3.1 405B действительно является очень мощной моделью. Это было бы хорошо, учитывая некоторые ограничения моделей Llama предыдущего поколения. Llama 3 405B работает наравне с GPT-4 от OpenAI и достигает «смешанных результатов» по сравнению с GPT-4o и Claude 3.5 Sonnet. Хотя Llama 3 405B лучше выполняет код и генерирует сюжеты, чем GPT-4o, ее многоязычные возможности в целом слабее, и Llama 3 405B уступает Claude 3.5 Sonnet в программировании и общих соображениях.

Ознакомьтесь с другими популярными материалами:

Meta хочет интегрировать ИИ в игры для метавселенной

Meta представила новый ИИ-инструмент: чем особенный

Coinbase, Meta и владелец Tinder вместе будут бороться с мошенниками

По материалам: Tech Crunch.

google news
credit link image