Test-time scaling - когда модель получает дополнительные вычислительные ресурсы прямо во время ответа - давно зарекомендовал себя как рабочий способ повысить качество LLM. Но всю эту механику до сих пор проектировали вручную, полагаясь на интуицию инженеров. Исследователи из Meta, Google и нескольких университетов решили это исправить. Они представили AutoTTS - фреймворк, который сам находит оптимальные стратегии рассуждения. Результат: расход токенов сократился на 69,5% без потери точности.
Проблема: ручной подбор стратегий
Test-time scaling (TTS) даёт LLM дополнительное время на размышления при генерации ответа. Модель может перебрать несколько вариантов рассуждения, проверить промежуточные шаги - и только потом выдать финальный ответ. Звучит круто, но есть нюанс: как именно распределять эти ресурсы, раньше решал человек.
Инженерам приходилось вручную придумывать правила: когда модели стоит ветвиться на новые цепочки рассуждений, когда углубляться в существующую, а когда обрубать бесперспективную ветку и вообще останавливаться. Это чистый guesswork - догадки и эвристики.
Потому что человеческая интуиция штука ограниченная, огромное количество потенциально полезных подходов остаётся неисследованным. В результате компании получают неоптимальный баланс между точностью модели и затратами на вычисления.
Современные TTS-алгоритмы можно описать в координатах «ширина-глубина». Ширина - сколько цепочек рассуждений модель перебирает параллельно. Глубина - как далеко каждая цепочка развивается. Self-consistency запускает фиксированное число траекторий и берёт ответ большинством голосов. Adaptive-consistency экономит ресурсы, останавливаясь раньше, когда уверенность достигает порога. Parallel-probe подходит более аккуратно: режет слабые ветки и углубляет перспективные. Все три сделаны вручную. И AutoTTS как раз пришёл это поменять.
Как AutoTTS автоматизирует поиск
AutoTTS переворачивает подход. Вместо того чтобы доверять проектирование стратегии человеку, он превращает эту задачу в алгоритмический поиск в контролируемой среде.
Роль инженера теперь другая: не выдумывать конкретные правила ветвления, а строить среду для поиска. Человек задаёт границы - какие состояния и действия возможны, какие метрики оптимизируем (баланс точности и стоимости), какую обратную связь получает система.
А сами стратегии проектирует LLM-исследователь - например, Claude Code. Он работает как автономный агент: итеративно предлагает «контроллеры» - это код, который описывает политику распределения бюджета вычислений. Потом тестирует их, анализирует результаты и переписывает код, пока не найдёт оптимальный вариант.
Чтобы такой поиск не обходился в астрономические суммы, AutoTTS использует офлайн-среду воспроизведения. Если бы агенту каждый раз приходилось запускать базовую модель и генерировать новые токены для проверки очередной стратегии, стоимость была бы запредельной. Вместо этого он работает на тысячах заранее собранных траекторий рассуждений, включая промежуточные ответы - «пробные сигналы», которые помогают оценить прогресс на разных ветках.
В цикле поиска агент предлагает контроллер, прогоняет его на этих данных и смотрит, как распределялись вычисления во времени. Если контроллер, скажем, слишком агрессивно обрубал ветки в каком-то сценарии - агент это видит, диагностирует и переписывает код, чтобы улучшить баланс точности и затрат.
Контроллер, который придумал AI
Поскольку агент-исследователь не ограничен человеческой интуицией, он может находить неочевидные, сложные правила, которые инженер в жизни не закодировал бы вручную. Один из лучших контроллеров, найденных AutoTTS, назвали Confidence Momentum Controller. Он использует несколько нетривиальных механик:
- Остановка по тренду, а не по порогу. Ручные стратегии часто говорят модели: «остановись, когда уверенность достигнет X%». Но мгновенная уверенность может обманчиво скакнуть. Контроллер отслеживает экспоненциальное скользящее среднее (EMA) уверенности и останавливается только если уровень уверенности высок и тренд не падает.
- Связанные ширина и глубина. В ручных алгоритмах «расширение» (создание новых веток) и «углубление» (развитие текущих) - отдельные решения. AutoTTS нашёл замкнутую обратную связь: если уверенность текущих веток застопорилась или падает, контроллер сам запускает порождение новых веток.
- Приоритетное финансирование консенсуса. Вместо того чтобы давать всем активным веткам равный бюджет вычислений, контроллер динамически определяет, какие ветки согласуются с текущим лидирующим ответом, и даёт им приоритетные «всплески» вычислений. Так бюджет концентрируется на формирующемся консенсусе - быстрее проверить, правильный ли путь.
Экономия и точность на реальных бенчмарках
Исследователи провели строгое тестирование. Основные эксперименты ставили на моделях Qwen3 от 0,6B до 8B параметров. Проверили и систему на дистиллированной 8B-версии DeepSeek-R1.
Агент-исследователь сначала искал оптимальную стратегию на бенчмарке математических рассуждений AIME24. Потом полученную стратегию прогоняли на двух отложенных математических тестах - AIME25 и HMMT25, а также на общеакадемическом бенчмарке GPQA-Diamond.
Контроллер от AutoTTS соревновался с четырьмя ручными алгоритмами TTS: Self-Consistency с 64 параллельными цепочками (SC@64), Adaptive-Consistency (ASC), Parallel-Probe и Early-Stopping Self-Consistency (ESC).
В сбалансированном, экономичном режиме контроллер от AutoTTS сократил общий расход токенов примерно на 69,5% по сравнению с SC@64. И при этом сохранил ту же среднюю точность на всех четырёх моделях Qwen. Когда бюджет вычислений увеличивали, AutoTTS выталкивал пиковую точность выше всех ручных алгоритмов в пяти из восьми тестовых случаев.
На бенчмарке GPQA-Diamond сбалансированная версия AutoTTS урезала стоимость инференса с 510K токенов до 151K - то есть в 3,4 раза - и при этом даже немного улучшила точность. На модели DeepSeek AutoTTS показал самую высокую точность на HMMT25, сократив расход токенов почти вдвое.
Что это значит для бизнеса, который строит AI-продукты:
- Пиковая производительность растёт. AutoTTS не просто экономит токены. Он активно повышает потолок возможностей базовой модели. Контроллер отлично на лету отлавливает шумные и бесполезные цепочки рассуждений и перенаправляет бюджет на те ветки, которые генерируют действительно полезные сигналы.
- Дёшево и быстро. Весь процесс поиска занял 160 минут и обошёлся в $39,90 благодаря офлайн-среде. Команды могут адаптировать стратегии рассуждения под свои проприетарные модели и внутренние задачи без выделенного исследовательского бюджета.
Оба компонента - фреймворк AutoTTS и Confidence Momentum Controller - доступны на GitHub. CMC можно использовать как готовую замену другим TTS-контроллерам.
📊 Суть
AutoTTS меняет подход к оптимизации рассуждений LLM. Вместо ручного проектирования эвристик - автоматический поиск. ИИ проектирует алгоритмы распределения вычислений, и делает это лучше людей. Результат: минус 69,5% токенов при той же точности, а при увеличении бюджета - рекордная производительность. И всё это за $40 и 2,5 часа.