close-btn

Сравнительный анализ ChatGPT, Bard, Claude 2 и Llama 2: какая из нейронок самая глупая

Компьютерный инженер столкнул лбами ChatGPT, Bard, Claude 2 и Llama 2, с целью определить их относительные сильные и слабые стороны в различных задачах

Сравнительный анализ ChatGPT, Bard, Claude 2 и Llama 2

Фото: twitter.com/dr_cintas

Профессор, компьютерный инженер и доктор наук, Альваро Кинтас, провел сравнение между моделями искусственного интеллекта, такими как ChatGPT, Bard, Claude 2 и Llama 2. Его целью было определить сильные и слабые стороны каждой из них в разнообразных задачах.

Сводка результатов

  • Логика и критическое мышление. Победитель — Claude 2. Чат-ботам задали вопрос: «Где находится алмаз, который положили в чашку, которую положили на кровать вверх дном, а затем отнесли ее в холодильник?» Только Claude 2 понял, что алмаз остался на кровати.
  • Математическое мышление. Победители — ChatGPT, Bard и Claude 2. А вот Llama 2 не справилась. Нейронка не смогла посчитать массу картошки после того, как ее высушат (задачка из старшей школы), и не назвала 10 простых чисел.
  • Кодинг. Победители — ChatGPT и Bard. Claude 2 и Llama 2 не смогли написать простой код на языке Python для поиска первых двух недостающих чисел в списке.
  • Разгадывание загадок. Победители — ChatGPT, Bard и Claude 2. Llama 2 не смогла найти ответ на загадку: «У отца Дэвида есть сын. Как его зовут?» (ответ: Дэвид)
  • Креативное письмо. Победители — Bard и Llama 2. Остальные чат-боты не смогли написать стихотворение, каждая строчка которого оканчивалась бы на букву «е».

Итоги

Альваро Кинтас отметил, что его исследование не является окончательным или полным. Его целью было развлечение и проверка нейронок с помощью различных простых вопросов, чтобы оценить, как модели искусственного интеллекта справляются с ними.

Кинтас не включил в отчет вопросы, на которые все модели правильно ответили, так как таких вопросов было много. Некоторые из моделей могли бы справиться со всеми вопросами, если бы им задали их во второй раз или сформулировали по-другому. Однако он не стал делать этого, ограничившись тестированием нейронок на одинаковых подсказках.

Альваро решил использовать ChatGPT-3.5, поскольку он бесплатный и доступен для всех пользователей. Кроме того, профессор применил модель Llama 2 с параметрами 70B через Hugging Space в своем исследовании.

У ChatGPT, Bard и Claude 2 по 22 балла из 24, а у Llama 2 — 19 из 24. Цукерберг и тут не смог стать первым.

Ранее мы сравнили Bard и ChatGPT 4 и попытались ответить на вопрос: что лучше?

Полезное про чат-боты:

google news
credit link image
×
Подписывайтесь на нас в Telegram и Viber!