Сравнительный анализ ChatGPT, Bard, Claude 2 и Llama 2: какая из нейронок самая глупая

Компьютерный инженер столкнул лбами ChatGPT, Bard, Claude 2 и Llama 2, с целью определить их относительные сильные и слабые стороны в различных задачах

Фото: twitter.com/dr_cintas

Профессор, компьютерный инженер и доктор наук, Альваро Кинтас, провел сравнение между моделями искусственного интеллекта, такими как ChatGPT, Bard, Claude 2 и Llama 2. Его целью было определить сильные и слабые стороны каждой из них в разнообразных задачах.

Сводка результатов

Логика и критическое мышление. Победитель — Claude 2. Чат-ботам задали вопрос: «Где находится алмаз, который положили в чашку, которую положили на кровать вверх дном, а затем отнесли ее в холодильник?» Только Claude 2 понял, что алмаз остался на кровати.
Математическое мышление. Победители — ChatGPT, Bard и Claude 2. А вот Llama 2 не справилась. Нейронка не смогла посчитать массу картошки после того, как ее высушат (задачка из старшей школы), и не назвала 10 простых чисел.
Кодинг. Победители — ChatGPT и Bard. Claude 2 и Llama 2 не смогли написать простой код на языке Python для поиска первых двух недостающих чисел в списке.
Разгадывание загадок. Победители — ChatGPT, Bard и Claude 2. Llama 2 не смогла найти ответ на загадку: «У отца Дэвида есть сын. Как его зовут?» (ответ: Дэвид)
Креативное письмо. Победители — Bard и Llama 2. Остальные чат-боты не смогли написать стихотворение, каждая строчка которого оканчивалась бы на букву «е».

Итоги

Альваро Кинтас отметил, что его исследование не является окончательным или полным. Его целью было развлечение и проверка нейронок с помощью различных простых вопросов, чтобы оценить, как модели искусственного интеллекта справляются с ними.

Кинтас не включил в отчет вопросы, на которые все модели правильно ответили, так как таких вопросов было много. Некоторые из моделей могли бы справиться со всеми вопросами, если бы им задали их во второй раз или сформулировали по-другому. Однако он не стал делать этого, ограничившись тестированием нейронок на одинаковых подсказках.

Альваро решил использовать ChatGPT-3.5, поскольку он бесплатный и доступен для всех пользователей. Кроме того, профессор применил модель Llama 2 с параметрами 70B через Hugging Space в своем исследовании.

У ChatGPT, Bard и Claude 2 по 22 балла из 24, а у Llama 2 — 19 из 24. Цукерберг и тут не смог стать первым.

Ранее мы сравнили Bard и ChatGPT 4 и попытались ответить на вопрос: что лучше?

Полезное про чат-боты:

Сравнительный анализ ChatGPT, Bard, Claude 2 и Llama 2: какая из нейронок самая глупая

Сводка результатов

Итоги

Как криптотрейдеры используют ИИ: обзор возможностей, рисков и сервисов

Кто из финансовых компаний лишился права работать в Украине: самые громкие кейсы последних лет

Мир звуков: как выбрать наушники, которые подойдут именно вам

Какой сервис возврата спреда безопасный

xAI Илона Маска представил Grok 4

На фоне стремительного роста Биткоина шорт-трейдеры потеряли более $1 млрд

Сеть «Аврора» открыла свой первый магазин в Бухаресте

UGB получил от ЕИБ €120 млн для поддержки украинского бизнеса

Как криптотрейдеры используют ИИ: обзор возможностей, рисков и сервисов

Сравнительный анализ ChatGPT, Bard, Claude 2 и Llama 2: какая из нейронок самая глупая

Сводка результатов

Итоги

Как криптотрейдеры используют ИИ: обзор возможностей, рисков и сервисов

Кто из финансовых компаний лишился права работать в Украине: самые громкие кейсы последних лет

Мир звуков: как выбрать наушники, которые подойдут именно вам

Какой сервис возврата спреда безопасный

xAI Илона Маска представил Grok 4

На фоне стремительного роста Биткоина шорт-трейдеры потеряли более $1 млрд

Сеть «Аврора» открыла свой первый магазин в Бухаресте

UGB получил от ЕИБ €120 млн для поддержки украинского бизнеса

Как криптотрейдеры используют ИИ: обзор возможностей, рисков и сервисов

Хочу получать: