Дослідники з університету Цінхуа, Пекінського інституту загального штучного інтелекту (BIGAI) та Університету штату Пенсильванія розповіли: мовні моделі можуть поліпшувати власну логіку без людських підказок — генеруючи завдання та перевіряючи себе через код

Фото: chatgpt.com
У дослідженні зазначається, що навіть найсильніші сучасні ШІ-моделі переважно залишаються «копіювальниками»: вони навчаються або на прикладах людської роботи, або на задачах, які для них спеціально підготували інженери. Але, як пише WIRED, у науковців з’являється інший підхід — змусити ШІ навчатися, як людина: помічати прогалини, формулювати запитання та самостійно шукати відповіді.
Команда з університету Цінхуа, BIGAI та Penn State розробила систему Absolute Zero Reasoner (AZR). Її суть у тому, що одна й та сама мовна модель виконує одразу три ролі: спочатку генерує складні, але розв’язувані завдання з програмування на Python, потім сама їх розв’язує, а далі перевіряє результат — просто запускаючи код. Після цього AZR використовує успіхи та помилки як сигнал для донавчання: модель поступово вчиться ставити кращі питання і давати кращі відповіді.
У тестах цей підхід підвищив навички кодування та міркування у відкритих моделей Qwen із 7 млрд і 14 млрд параметрів. У низці сценаріїв такі моделі показали результати вищі за системи, які тренувалися на підібраних людьми датасетах.
Читайте також: 5 головних трендів у ШІ у 2026 році — Мінцифри
Один із авторів ідеї, аспірант університету Цінхуа Ендрю Чжао, порівнює це з людським навчанням: на початку ми наслідуємо вчителів і батьків, а потім починаємо ставити власні питання — і зрештою можемо навіть перевершити тих, хто нас навчав. Дослідники також відзначають, що концепція «самогри» (self-play) у ШІ не нова: її обговорювали і раніше, зокрема Юрґен Шмідгубер і П’єр-Ів Удеєр.
Втім, зараз у підходу є обмеження. Найкраще він працює там, де результат легко перевірити автоматично — наприклад у математиці та програмуванні. Але в перспективі дослідники припускають, що подібне самонавчання можна масштабувати і на «агентні» задачі — коли модель взаємодіє з браузером, програмами чи виконує офісні дії, а правильність кроків оцінюється окремими механізмами.
За оцінкою експертів, пошук нових способів навчання ШІ може стати одним із ключових трендів 2026 року: якісні людські дані стають дорожчими та дефіцитнішими, а лабораторії шукають підходи, які дозволять моделям «підтягувати» логіку без нескінченного ручного курування. У такій логіці AZR може бути кроком до систем, що поводяться менше як «копіювальники» і більше як учні, здатні самі формувати навчальну траєкторію.
Ознайомтеся з іншими популярними матеріалами:
Коли в Україні запустять національну LLM — Мінцифри
Ми можемо ніколи не дізнатися, чи є штучний інтелект свідомим — філософ з Кембриджа
OpenAI додає нові правила безпеки для підлітків у ChatGPT
Допоміжні матеріали: claudecode.jp.