Поскольку AMD планирует занять лидирующие позиции в сфере искусственного интеллекта, она не только разрабатывает новое оборудование, но и делает ставку на программное обеспечение, пытаясь завоевать новые сегменты рынка, в которых еще не доминирует Nvidia
Так, согласно официальному сообщению, компания представила свою первую малую языковую модель AMD-135M, которая принадлежит к семейству Llama и предназначена для развертывания в частном бизнесе. Неясно, связана ли новая модель с недавним приобретением компанией Silo AI, но это явный шаг в направлении удовлетворения потребностей многих клиентов.
Создание и главное преимущество AMD-135M
AMD-135M — это первая малая языковая модель семейства Llama, которая была обучена с нуля на ускорителях AMD Instinct™ MI250, используя 670 миллиардов токенов. Модель разделена на две версии: AMD-Llama-135M и AMD-Llama-135M-code.
Большие языковые модели обычно используют авторегрессивный подход для выполнения запросов. Однако основным ограничением этого подхода является то, что каждый проход вперед может генерировать только один токен, что приводит к низкой эффективности доступа к памяти и влияет на общую скорость выполнения.
Интересное по теме: Эксперты с Уолл-стрит спрогнозировали стоимость акций AMD на следующие 12 месяцев
Появление так называемого «спекулятивного декодирования» решило эту проблему. Основной принцип заключается в использовании малой черновиковой модели для генерирования набора токенов-кандидатов, которые затем проверяются большей целевой моделью. Этот подход позволяет каждому проходу вперед генерировать несколько токенов без потери производительности, значительно уменьшая потребление памяти и обеспечивая улучшение скорости в несколько раз.
Ускорение производительности вывода
«Используя код AMD-Llama-135M в качестве черновой модели для CodeLlama-7b, мы протестировали производительность вывода со спекулятивным декодированием и без него на ускорителе MI250 для дата-центра и AI-процессоре Ryzen™ (с NPU) для AI ПК. Для конкретных конфигураций, которые мы тестировали, используя код AMD-Llama-135M в качестве черновой модели, мы увидели ускорение на Instinct MI250, процессоре Ryzen AI, а также на Ryzen AI NPU по сравнению с выводом без спекулятивного декодирования. AMD-135M SLM обеспечивает сквозной рабочий процесс, охватывая как обучение, так и вывод, на выбранных платформах AMD», — говорится в отчете AMD.
Кроме того, тесты производительности модели не зависят от аппаратной среды.
Ознакомьтесь с другими популярными материалами:
OpenAI представила инновационные ИИ-модели: чем особенны
Apple и Nvidia планируют инвестировать в OpenAI: детали
ИИ может стать умнее человека раньше, чем ожидалось — Сэм Альтман