Стэнфордское исследование выявило колебания производительности в задачах ChatGPT с течением времени, что вызывает опасения относительно общих возможностей ИИ и необходимости его постоянной тонкой настройки.
После запуска ChatGPT неоднократно обновляли, чтобы сделать его лучше. Однако пользователи заметили, что в последней версии ChatGPT результаты выполнения различных задач стал заметно хуже.
Всего за несколько месяцев ChatGPT перешел от правильного ответа на простую математическую задачу в 98% случаев к всего лишь 2%, показало недавнее исследование.
В результате ChatGPT-4 стал работать в 49 раз хуже своей прежней версии.
Детали
Исследование Стэнфордского университета показало, что в период с марта по июнь 2023 года навыки ChatGPT в некоторых задачах снизились.
Джеймс Зоу, профессор информатики Стэнфордского университета и автор исследования, был удивлен значительными изменениями в ChatGPT. В ходе исследования были обнаружены значительные различия в результатах с марта по июнь, а также между GPT-3.5 и GPT-4, двумя последними моделями. Это вызвало вопросы о причинах снижения производительности и сомнения в общих возможностях ИИ.
Наблюдение за работой ChatGPT в течение нескольких месяцев. Основное внимание уделялось четырем задачам — математическим, ответам на деликатные вопросы, созданию программного кода и визуальному восприятию.
В ходе исследования обнаружили заметные различия в производительности GPT-3.5 и GPT-4. В некоторых задачах наблюдалось значительное падение производительности с течением времени.
Мастерство GPT-4 при решении определенной математической задачи резко снизилось. Его успешность упала с 97,6% в марте до 2,4% в июне. В то время как у GPT-3.5 этот показатель значительно улучшился: он вырос с 7,4 до 86,8%.
Ответы GPT-4 стали короче: с 821,2 символа в марте до всего 3,8 в июне. В то же время у GPT-3.5 длина ответа выросла примерно на 40%. При этом ответы обеих моделей мало похожи друг на друга.
Интересное по теме: Почему пользователи жалуются на GPT-4?
Исследователи предположили, что эти изменения могут быть связаны с эффектом дрейфа в методах рассуждений, используемых в этих задачах.
В марте GPT-4 тщательно выполнял пошаговый процесс поиска простого числа 17077. Он разделил задачу на четыре шага, выполнил каждый шаг и получал правильный ответ, в июне GPT-4 давал лишь короткий ответ «Нет», не показав свою работу.
У GPT-3.5 наблюдался другой характер дрейфа. В марте он часто сначала давал ответ «Нет», а затем показывал свои рассуждения, что приводило к неправильным ответам. К июню GPT-3.5 сначала показывал свои рассуждения, а затем давал правильный ответ.
Исследователи также заметили изменения, когда моделям было предложено написать код и выполнить тесты на визуальное мышление. И в GPT-4, и в GPT-3.5 наблюдалось снижение доли непосредственно исполняемого кода. У GPT-4 этот показатель снизился с 52,0% до 10,0%, а в GPT-3.5 — с 22,0% до 2,0% в период с марта по июнь. Кроме того, код GPT-4 стал на 20% длиннее.
Для задач визуального мышления GPT-4 и GPT-3.5 улучшили свои показатели примерно на 2%. Однако длина генерации осталась прежней. Примерно в 90% задач на визуальное мышление не изменилась с марта по июнь.
Другие статьи на эту тему:
- Создатель ChatGPT нашел способ изменить банковскую систему;
- Когда ChatGPT станет доступен на Android;
- Создатель ChatGPT запускает криптопроект.