ChatGPT-4 став працювати у 49 разів гірше: причина

Стенфордське дослідження виявило коливання продуктивності в задачах ChatGPT з плином часу, що викликає побоювання щодо загальних можливостей ШІ та необхідності його постійного тонкого налаштування.

Фото: freepik.com

Після запуску ChatGPT неодноразово оновлювали, щоб зробити його кращим. Однак користувачі помітили, що в останній версії ChatGPT результати виконання різних завдань стали помітно гіршими.

Усього за кілька місяців ChatGPT перейшов від правильної відповіді на просту математичну задачу в 98% випадків до всього лише 2%, показало недавнє дослідження.

У результаті ChatGPT-4 став працювати в 49 разів гірше за свою колишню версію.

Деталі

Дослідження Стенфордського університету показало, що в період з березня по червень 2023 року навички ChatGPT у деяких завданнях знизилися.

Джеймс Зоу, професор інформатики Стенфордського університету і автор дослідження, був здивований значними змінами в ChatGPT. Під час дослідження було виявлено значні відмінності в результатах з березня по червень, а також між GPT-3.5 і GPT-4, двома останніми моделями. Це викликало питання про причини зниження продуктивності та сумніви в загальних можливостях ШІ.

Спостереження за роботою ChatGPT протягом декількох місяців. Основна увага приділялася чотирьом завданням – математичним, відповідям на делікатні запитання, створенню програмного коду та візуальному сприйняттю.

Під час дослідження виявили помітні відмінності в продуктивності GPT-3.5 і GPT-4. У деяких завданнях спостерігалося значне падіння продуктивності з плином часу.

Майстерність GPT-4 під час розв’язання певної математичної задачі різко знизилася. Його успішність впала з 97,6% у березні до 2,4% у червні. У той час як у GPT-3.5 цей показник значно покращився: він зріс із 7,4 до 86,8%.

Відповіді GPT-4 стали коротшими: з 821,2 символу в березні до лише 3,8 у червні. Водночас у GPT-3.5 довжина відповіді зросла приблизно на 40%. При цьому відповіді обох моделей мало схожі одна на одну.

Цікаве на тему: Чому користувачі скаржаться на GPT-4?

Дослідники припустили, що ці зміни можуть бути пов’язані з ефектом дрейфу в методах міркувань, що використовуються в цих завданнях.

У березні GPT-4 ретельно виконував покроковий процес пошуку простого числа 17077. Він розділив завдання на чотири кроки, виконав кожен крок і отримував правильну відповідь, у червні GPT-4 давав лише коротку відповідь “Ні”, не показавши свою роботу.

У GPT-3.5 спостерігався інший характер дрейфу. У березні він часто спочатку давав відповідь “Ні”, а потім показував свої міркування, що призводило до неправильних відповідей. До червня GPT-3.5 спочатку показував свої міркування, а потім давав правильну відповідь.

Дослідники також помітили зміни, коли моделям було запропоновано написати код і виконати тести на візуальне мислення. І в GPT-4, і в GPT-3.5 спостерігалося зниження частки безпосередньо виконуваного коду. У GPT-4 цей показник знизився з 52,0% до 10,0%, а в GPT-3.5 – з 22,0% до 2,0% у період з березня по червень. Крім того, код GPT-4 став на 20% довшим.

Для завдань візуального мислення GPT-4 і GPT-3.5 поліпшили свої показники приблизно на 2%. Однак довжина генерації залишилася колишньою. Приблизно в 90% завдань на візуальне мислення не змінилася з березня по червень.