Порівняльний аналіз ChatGPT, Bard, Claude 2 і Llama 2: яка з нейронок найдурніша

Комп’ютерний інженер зіштовхнув лобами ChatGPT, Bard, Claude 2 та Llama 2, щоб визначити їхні відносно сильні та слабкі сторони в різних завданнях

Фото: twitter.com/dr_cintas

Професор, комп’ютерний інженер та доктор наук, Альваро Кінтас, зробив порівняння між моделями штучного інтелекту, такими як ChatGPT, Bard, Claude 2 та Llama 2. Його метою було визначити сильні та слабкі сторони кожної з них у різноманітних завданнях.

Зведення результатів

Логіка та критичне мислення. Переможець ─ Claude 2.
Чат-ботам поставили запитання: “Де знаходиться алмаз, який поклали в чашку, яку поклали на ліжко догори дном, а потім віднесли її в холодильник?” Тільки Claude 2 зрозумів, що алмаз залишився на ліжку.
Математичне мислення. Переможці ─ ChatGPT, Bard і Claude 2.
А ось Llama 2 не впоралася. Нейронка не змогла порахувати масу картоплі після того, як її висушать (задачка зі старшої школи), та не назвала 10 простих чисел.
Кодинг. Переможці ─ ChatGPT та Bard. Claude 2 і Llama 2 не змогли написати простий код мовою Python для пошуку перших двох чисел, яких бракує у списку.
Розгадування загадок. Переможці ─ ChatGPT, Bard і Claude 2.
Llama 2 не змогла знайти відповідь на загадку: “У батька Девіда є син. Як його звуть?” (відповідь: Девід)
Креативний лист. Переможці ─ Bard і Llama 2. Решта чат-ботів не змогли написати вірш, кожен рядок якого закінчувався б на букву “е”.

Підсумки

Альваро Кінтас зазначив, що його дослідження не є остаточним або повним. Його метою була розвага та перевірка нейронок за допомогою різних простих запитань, щоб оцінити, як моделі штучного інтелекту справляються з ними.

Кінтас не включив у звіт питання, на які всі моделі правильно відповіли, оскільки таких запитань було багато. Деякі з моделей могли б впоратися з усіма питаннями, якби їм поставили їх вдруге або сформулювали по-іншому. Однак він не став робити цього, обмежившись тестуванням нейронок на однакових підказках.

Альваро вирішив використовувати ChatGPT-3.5, оскільки він безплатний і доступний для всіх користувачів. Крім того, професор застосував модель Llama 2 з параметрами 70B через Hugging Space у своєму дослідженні.

ChatGPT, Bard та Claude 2 набрали по 22 бали з 24, а у Llama 2 лише 19 з 24. Цукерберг і тут не зміг стати першим.

Раніше ми порівняли Bard та ChatGPT 4 й спробували відповісти на запитання: що краще?

Корисне про чат-боти:

Порівняльний аналіз ChatGPT, Bard, Claude 2 і Llama 2: яка з нейронок найдурніша

Зведення результатів

Підсумки

В Україні можуть запровадити «народні IPO» для інвестування

Крипто проти традиційного ринку: хто виживе в епоху штучного інтелекту

Fullset Blockchain Conference 2025 збирає Web3-лідерів у Києві для дня нетворкінгу, інновацій та колаборацій

Сільпо може вийти на ринок Польщі

Крипторинок стрімко летить в прірву: Біткоїн тестує $104 тис.

Скільки грошей задекларували українці у 2025: огляд

Хто з фінкомпаній отримав штраф від НБУ та втратив ліцензію у вересні 2025 — аналітика

Де шукати гроші для стартапу: огляд венчурних фондів, відкритих для українців

В Україні можуть запровадити «народні IPO» для інвестування

Крипто проти традиційного ринку: хто виживе в епоху штучного інтелекту

Fullset Blockchain Conference 2025 збирає Web3-лідерів у Києві для дня нетворкінгу, інновацій та колаборацій

Сільпо може вийти на ринок Польщі

Крипторинок стрімко летить в прірву: Біткоїн тестує $104 тис.

Скільки грошей задекларували українці у 2025: огляд

У яких банках найвищі відсотки за депозитами

Порівняльний аналіз ChatGPT, Bard, Claude 2 і Llama 2: яка з нейронок найдурніша

Зведення результатів

Підсумки

В Україні можуть запровадити «народні IPO» для інвестування

Крипто проти традиційного ринку: хто виживе в епоху штучного інтелекту

Fullset Blockchain Conference 2025 збирає Web3-лідерів у Києві для дня нетворкінгу, інновацій та колаборацій

Сільпо може вийти на ринок Польщі

Крипторинок стрімко летить в прірву: Біткоїн тестує $104 тис.

Скільки грошей задекларували українці у 2025: огляд

Хто з фінкомпаній отримав штраф від НБУ та втратив ліцензію у вересні 2025 — аналітика

Де шукати гроші для стартапу: огляд венчурних фондів, відкритих для українців

В Україні можуть запровадити «народні IPO» для інвестування

Крипто проти традиційного ринку: хто виживе в епоху штучного інтелекту

Fullset Blockchain Conference 2025 збирає Web3-лідерів у Києві для дня нетворкінгу, інновацій та колаборацій

Сільпо може вийти на ринок Польщі

Крипторинок стрімко летить в прірву: Біткоїн тестує $104 тис.

Скільки грошей задекларували українці у 2025: огляд

У яких банках найвищі відсотки за депозитами

Хочу отримувати: