close-btn

Порівняльний аналіз ChatGPT, Bard, Claude 2 і Llama 2: яка з нейронок найдурніша

Комп’ютерний інженер зіштовхнув лобами ChatGPT, Bard, Claude 2 та Llama 2, щоб визначити їхні відносно сильні та слабкі сторони в різних завданнях

Порівняльний аналіз ChatGPT, Bard, Claude 2 і Llama 2

Фото: twitter.com/dr_cintas

Професор, комп’ютерний інженер та доктор наук, Альваро Кінтас, зробив порівняння між моделями штучного інтелекту, такими як ChatGPT, Bard, Claude 2 та Llama 2. Його метою було визначити сильні та слабкі сторони кожної з них у різноманітних завданнях.

Зведення результатів

  • Логіка та критичне мислення. Переможець ─ Claude 2.
    Чат-ботам поставили запитання: “Де знаходиться алмаз, який поклали в чашку, яку поклали на ліжко догори дном, а потім віднесли її в холодильник?” Тільки Claude 2 зрозумів, що алмаз залишився на ліжку.
  • Математичне мислення. Переможці ─ ChatGPT, Bard і Claude 2.
    А ось Llama 2 не впоралася. Нейронка не змогла порахувати масу картоплі після того, як її висушать (задачка зі старшої школи), та не назвала 10 простих чисел.
  • Кодинг. Переможці ─ ChatGPT та Bard. Claude 2 і Llama 2 не змогли написати простий код мовою Python для пошуку перших двох чисел, яких бракує у списку.
  • Розгадування загадок. Переможці ─ ChatGPT, Bard і Claude 2.
    Llama 2 не змогла знайти відповідь на загадку: “У батька Девіда є син. Як його звуть?” (відповідь: Девід)
  • Креативний лист. Переможці ─ Bard і Llama 2. Решта чат-ботів не змогли написати вірш, кожен рядок якого закінчувався б на букву “е”.

Підсумки

Альваро Кінтас зазначив, що його дослідження не є остаточним або повним. Його метою була розвага та перевірка нейронок за допомогою різних простих запитань, щоб оцінити, як моделі штучного інтелекту справляються з ними.

Кінтас не включив у звіт питання, на які всі моделі правильно відповіли, оскільки таких запитань було багато. Деякі з моделей могли б впоратися з усіма питаннями, якби їм поставили їх вдруге або сформулювали по-іншому. Однак він не став робити цього, обмежившись тестуванням нейронок на однакових підказках.

Альваро вирішив використовувати ChatGPT-3.5, оскільки він безплатний і доступний для всіх користувачів. Крім того, професор застосував модель Llama 2 з параметрами 70B через Hugging Space у своєму дослідженні.

ChatGPT, Bard та Claude 2 набрали по 22 бали з 24, а у Llama 2 лише 19 з 24. Цукерберг і тут не зміг стати першим.

Раніше ми порівняли Bard та ChatGPT 4 й спробували відповісти на запитання: що краще?

Корисне про чат-боти:

google news