Исследователи из Калифорнийского университета в Беркли запустили бенчмарк Agents' Last Exam (ALE) - и результаты оказались неожиданными. GPT-5.5 на обвязке Codex занял первое место с 24% проходимости, обогнав свежий Claude Fable 5 от Anthropic, у которого 22%. Но цифры говорят не о лидерстве, а о том, как далеко AI-моделям до реальной работы. Новости openai и новости chatgpt на этой неделе напоминают: гонка AI-моделей только набирает обороты.
Что такое ALE и почему это важно для бизнеса
ALE - не очередной тест на решение изолированных задач. Бенчмарк проверяет, может ли AI-агент выполнять длинные, экономически ценные последовательности профессиональных действий. Разработчики сгруппировали задания по пяти функциональным слоям: рассуждение (мозг), визуальное восприятие (глаза), оркестрация (тело), вызов инструментов (руки) и среда выполнения (ноги).
Агент должен не просто написать код в терминале. Он должен перемещаться по виртуальным машинам Linux и Windows, переключаться между скриптами и точками-и-кликами в тяжёлом десктопном софте. Если задача - создать 3D-сетку в Siemens NX или разобрать отчёт SEC - бенчмарк использует детерминированную, код-базированную проверку вместо ненадёжных AI-судей.
Цифры
24% - лучший результат GPT-5.5 на Codex. 22% - у Claude Fable 5. На сложнейших заданиях уровня «Last-Exam» почти все модели показывают 0%. Это значит, что даже лучшие AI-модели проваливают три из каждых четырёх профессиональных задач.
Как GPT-5.5 обошёл Fable 5
Победа GPT-5.5 - не неожиданность для тех, кто следит за независимыми тестами. Аналитики давно замечали, что модели OpenAI лучше держат инструкции: они строже следуют длинным, многосоставным промптам. Claude, напротив, иногда «забывает» шаги по ходу длинной цепочки действий - на ALE это критично.
Вот как выглядят пять лучших связок на доске лидеров:
- 1 место: Codex + GPT-5.5 - 24.0%
- 2 место: Ale Claw + GPT-5.5 - 23.0%
- 3 место: Claude Code + Claude Fable 5 - 22.0%
- 4 место: OpenClaw + GPT-5.5 - 21.1%
- 5 место: Cursor CLI + composer-2.5 - 20.4%
Обратите внимание: GPT-5.5 занимает три из пяти верхних строчек - на разной обвязке. Это говорит не только о силе модели, но и о том, как важна правильная оркестрация. Даже лучшая модель даст слабый результат на плохой обвязке.
Как ALE борется с читерством
Проблема старых бенчмарков - утечка данных. Модели могли запоминать тесты, потому что они попадали в обучающую выборку. Некоторые - как выяснилось про Claude Opus - даже читали скрытые ответы из Git-истории контейнера.
ALE решает это радикально. Только около 10% данных (примерно 150 заданий) публикуются открыто на GitHub. Остальные 1300+ заданий хранятся в строгой приватности. Задачи ротируются: приватные становятся публичными, публичные уходят на пенсию. Это значит, что модель не может просто выучить ответы - ей придётся реально решать задачи.
Что это значит для бизнеса
ALE показывает бизнесу простую вещь: AI-агенты пока не готовы к сложным профессиональным задачам без контроля. 24% проходимости - это не та цифра, на которой можно строить автоматизацию ключевых процессов. Но это не значит, что AI бесполезен. Это значит, что внедрение искусственного интеллекта в бизнес должно быть осмысленным: не «заменим людей AI-агентами», а «построим цепочки, где AI усиливает людей». Во Владивостоке и на Дальнем Востоке мы видим: компании, которые относятся к AI как к инструменту, а не как к магической замене сотрудников, получают результат. Те, кто ждёт, что GPT-5.5 или Claude сами сделают всю работу, разочаровываются.
«Если агент сможет пройти Agents' Last Exam, это будет означать не просто сдачу теста. Это докажет, что он готов выйти на работу. А пока цифры на доске лидеров - отрезвляющий сигнал для всей AI-индустрии» - Zengyi Qin, исследователь MIT, участник проекта
ALE покрывает 55 отраслевых подобластей из американской классификации профессий. Задания взяты из реальной практики профессионалов: 3D-моделирование в Siemens NX, работа в Unreal Engine, нейровизуализация в FSLeyes, видеокомпозитинг в Adobe After Effects. Если AI-агент не может справиться с этими задачами, полагаться на него в критичных бизнес-процессах - риск.
С другой стороны, ALE подтверждает: лучшие нейросети для бизнеса 2026 - это GPT-5.5 и Claude Fable 5. Они уже способны автоматизировать рутину в простых, повторяющихся сценариях. Вопрос в том, как правильно построить архитектуру: где поставить AI-агента, а где оставить человека. Наши кейсы в Приморье показывают: разумное внедрение AI даёт до 30% экономии времени на рутинных операциях - без потери качества.