Комп’ютерний інженер зіштовхнув лобами ChatGPT, Bard, Claude 2 та Llama 2, щоб визначити їхні відносно сильні та слабкі сторони в різних завданнях
Професор, комп’ютерний інженер та доктор наук, Альваро Кінтас, зробив порівняння між моделями штучного інтелекту, такими як ChatGPT, Bard, Claude 2 та Llama 2. Його метою було визначити сильні та слабкі сторони кожної з них у різноманітних завданнях.
Зведення результатів
- Логіка та критичне мислення. Переможець ─ Claude 2.
Чат-ботам поставили запитання: “Де знаходиться алмаз, який поклали в чашку, яку поклали на ліжко догори дном, а потім віднесли її в холодильник?” Тільки Claude 2 зрозумів, що алмаз залишився на ліжку. - Математичне мислення. Переможці ─ ChatGPT, Bard і Claude 2.
А ось Llama 2 не впоралася. Нейронка не змогла порахувати масу картоплі після того, як її висушать (задачка зі старшої школи), та не назвала 10 простих чисел. - Кодинг. Переможці ─ ChatGPT та Bard. Claude 2 і Llama 2 не змогли написати простий код мовою Python для пошуку перших двох чисел, яких бракує у списку.
- Розгадування загадок. Переможці ─ ChatGPT, Bard і Claude 2.
Llama 2 не змогла знайти відповідь на загадку: “У батька Девіда є син. Як його звуть?” (відповідь: Девід) - Креативний лист. Переможці ─ Bard і Llama 2. Решта чат-ботів не змогли написати вірш, кожен рядок якого закінчувався б на букву “е”.
Підсумки
Альваро Кінтас зазначив, що його дослідження не є остаточним або повним. Його метою була розвага та перевірка нейронок за допомогою різних простих запитань, щоб оцінити, як моделі штучного інтелекту справляються з ними.
Кінтас не включив у звіт питання, на які всі моделі правильно відповіли, оскільки таких запитань було багато. Деякі з моделей могли б впоратися з усіма питаннями, якби їм поставили їх вдруге або сформулювали по-іншому. Однак він не став робити цього, обмежившись тестуванням нейронок на однакових підказках.
Альваро вирішив використовувати ChatGPT-3.5, оскільки він безплатний і доступний для всіх користувачів. Крім того, професор застосував модель Llama 2 з параметрами 70B через Hugging Space у своєму дослідженні.
ChatGPT, Bard та Claude 2 набрали по 22 бали з 24, а у Llama 2 лише 19 з 24. Цукерберг і тут не зміг стати першим.
Раніше ми порівняли Bard та ChatGPT 4 й спробували відповісти на запитання: що краще?
Корисне про чат-боти:
- У ChatGPT з’явилася нова важлива функція
- Apple запускає конкурента ChatGPT
- Новий Telegram-бот завоював величезну популярність серед криптотрейдерів: у чому його особливість