Microsoft SkillOpt: обучение AI-агентов без весов

До сих пор настройка навыков AI-агентов была игрой в угадайку: написал инструкцию в markdown-файле, запустил, посмотрел, стало ли лучше. Microsoft Research Asia решила, что пора внедрить математику. Их новый open-source фреймворк SkillOpt переносит концепции глубокого обучения - learning rate, validation gates, momentum - прямо в текстовые документы с инструкциями для агентов. Это и есть ии агенты новости, которые меняют подход к автоматизации.

Проблема: навыки AI-агентов не умели учиться

Навыки AI-агентов - это текстовые документы (обычно .md-файлы) с инструкциями, которые агент загружает перед выполнением задачи. Они задают доменные эвристики, политики использования инструментов, ограничения на вывод и известные сценарии отказов.

Главная проблема - эти навыки нельзя тренировать как веса модели. Пользователи обновляют их вручную, перепечатывая инструкции, и никогда не могут гарантировать, что изменение - это улучшение. Yifan Yang, Senior Research SDE в Microsoft Research Asia, описал три типовых сценария отказа: «Нет контроля шага - навыки дрейфуют. Нет валидации - изменение, которое выглядит разумным, может незаметно ухудшить результат. Нет негативной памяти - одна и та же неудачная правка возвращается снова и снова».

Три ошибки ручной оптимизации навыков

Дрейф - нет контроля шага → навыки уходят от цели. Ложные улучшения - нет валидации → правки, которые «выглядят правильно», регрессируют производительность. Повтор ошибок - нет негативной памяти → та же неудачная правка возвращается.

Как SkillOpt привносит математику в текст

SkillOpt работает через итеративный цикл «предложи и проверь», который разделяет модель, выполняющую задачи, от модели, оптимизирующей навык. Процесс разворачивается в несколько шагов: стартовый документ навыка подаётся на целевую модель, которая выполняет пакет задач и генерирует траектории. Офлайн-оптимизатор анализирует эти траектории, разделяя успехи и неудачи на мини-батчи.

На основе найденных паттернов оптимизатор предлагает структурные изменения: добавить, удалить или заменить части документа. SkillOpt не применяет все изменения сразу - он ограничивает количество правок на шаг через «edit budget» (аналог learning rate) и проверяет кандидата на отложенном валидационном наборе. Если результат улучшился - правка принимается. Если нет - отправляется в буфер отвергнутых, чтобы оптимизатор знал, какую ошибку не повторять.

В конце эпохи SkillOpt делает «slow update» - сравнивает результаты под навыком предыдущей эпохи и текущей. Это работает как momentum: долгосрочные процедурные уроки переносятся вперёд, изолированные от быстрых пошаговых правок.

Результаты: +23.5 пункта на GPT-5.5 и перенос навыков между моделями

Исследователи протестировали SkillOpt на 52 комбинациях моделей, бенчмарков и сред выполнения - от GPT-5.5 до маленьких моделей вроде GPT-5.4-nano и Qwen3.5-4B. Фреймворк показал среднее улучшение +23.5 пункта на GPT-5.5 против базовой линии без навыков.

Особенно впечатляют результаты на маленьких моделях: GPT-5.4-nano почти удвоил свой результат на мультимодальном документном QA и утроил на задачах с последовательным принятием решений. Один компактный текстовый файл может дать маленькой модели процедурные знания, которых нет в её весах.

«Извлечение данных из документов - точных цифр из контрактов, счетов, форм - AP-автоматизация, страхование, комплаенс. SkillOpt улучшает надёжность: точное форматирование, самопроверка, аудируемые результаты. И улучшение идёт через изучение процедуры, а не запоминание ответов» - Yifan Yang, Microsoft Research Asia

Ключевая особенность SkillOpt - переносимость. Навык, обученный в среде Codex CLI, можно развернуть в Claude Code без изменений и получить +59.7 пункта к его базовой линии. Навыки переносятся между масштабами моделей: то, что оптимизировано под GPT-5.4, работает на GPT-5.4-mini и GPT-5.4-nano.

Финальные навыки никогда не превышают 2000 токенов (медиана - 920 токенов). Это читаемые, аудируемые артефакты, которые человек может проверить за минуты. Стоимость обучения одного навыка - от 1 до 5 долларов (через Claude Sonnet), и это одноразовая инвестиция, которая амортизируется при развёртывании.

Что это значит для бизнеса

SkillOpt решает проблему, которая тормозит внедрение AI-агентов в enterprise: настройка поведения агента под конкретную задачу. Раньше это была ручная работа на уровне «промпт-инжиниринга». Теперь - автоматизированная оптимизация с математической гарантией, что каждое изменение - улучшение.

Для компаний во Владивостоке и на Дальнем Востоке это означает, что внедрение искусственного интеллекта в бизнес-процессы становится предсказуемым: вы не гадаете, сработает ли инструкция - фреймворк сам находит оптимальную формулировку под вашу задачу. Навыки можно обучать на исторических данных вашего бизнеса и развёртывать в любых agentic-средах.

Три вывода для бизнеса:

Предсказуемое качество AI-агентов - больше не нужно гадать, какая инструкция сработает. SkillOpt математически гарантирует, что каждое изменение - улучшение.
Переносимость навыков - обучили навык на одной модели, развернули на другой. Не нужно переписывать инструкции при смене AI-провайдера.
Низкий порог входа - 1-5 долларов за обучение навыка, 920 токенов - финальный артефакт. Любая компания может позволить себе кастомизировать AI-агента под свои процессы.

Microsoft открыла SkillOpt - AI-агенты теперь учатся на своих ошибках как нейросети

Проблема: навыки AI-агентов не умели учиться

Три ошибки ручной оптимизации навыков

Как SkillOpt привносит математику в текст

Результаты: +23.5 пункта на GPT-5.5 и перенос навыков между моделями

Что это значит для бизнеса

Готовы к внедрению AI-агентов в ваш бизнес?

Читайте также