AutoTTS: автоматизация стратегий рассуждения LLM

Test-time scaling - когда модель получает дополнительные вычислительные ресурсы прямо во время ответа - давно зарекомендовал себя как рабочий способ повысить качество LLM. Но всю эту механику до сих пор проектировали вручную, полагаясь на интуицию инженеров. Исследователи из Meta, Google и нескольких университетов решили это исправить. Они представили AutoTTS - фреймворк, который сам находит оптимальные стратегии рассуждения. Результат: расход токенов сократился на 69,5% без потери точности.

Проблема: ручной подбор стратегий

Test-time scaling (TTS) даёт LLM дополнительное время на размышления при генерации ответа. Модель может перебрать несколько вариантов рассуждения, проверить промежуточные шаги - и только потом выдать финальный ответ. Звучит круто, но есть нюанс: как именно распределять эти ресурсы, раньше решал человек.

Инженерам приходилось вручную придумывать правила: когда модели стоит ветвиться на новые цепочки рассуждений, когда углубляться в существующую, а когда обрубать бесперспективную ветку и вообще останавливаться. Это чистый guesswork - догадки и эвристики.

Потому что человеческая интуиция штука ограниченная, огромное количество потенциально полезных подходов остаётся неисследованным. В результате компании получают неоптимальный баланс между точностью модели и затратами на вычисления.

Современные TTS-алгоритмы можно описать в координатах «ширина-глубина». Ширина - сколько цепочек рассуждений модель перебирает параллельно. Глубина - как далеко каждая цепочка развивается. Self-consistency запускает фиксированное число траекторий и берёт ответ большинством голосов. Adaptive-consistency экономит ресурсы, останавливаясь раньше, когда уверенность достигает порога. Parallel-probe подходит более аккуратно: режет слабые ветки и углубляет перспективные. Все три сделаны вручную. И AutoTTS как раз пришёл это поменять.

Как AutoTTS автоматизирует поиск

AutoTTS переворачивает подход. Вместо того чтобы доверять проектирование стратегии человеку, он превращает эту задачу в алгоритмический поиск в контролируемой среде.

Роль инженера теперь другая: не выдумывать конкретные правила ветвления, а строить среду для поиска. Человек задаёт границы - какие состояния и действия возможны, какие метрики оптимизируем (баланс точности и стоимости), какую обратную связь получает система.

А сами стратегии проектирует LLM-исследователь - например, Claude Code. Он работает как автономный агент: итеративно предлагает «контроллеры» - это код, который описывает политику распределения бюджета вычислений. Потом тестирует их, анализирует результаты и переписывает код, пока не найдёт оптимальный вариант.

Чтобы такой поиск не обходился в астрономические суммы, AutoTTS использует офлайн-среду воспроизведения. Если бы агенту каждый раз приходилось запускать базовую модель и генерировать новые токены для проверки очередной стратегии, стоимость была бы запредельной. Вместо этого он работает на тысячах заранее собранных траекторий рассуждений, включая промежуточные ответы - «пробные сигналы», которые помогают оценить прогресс на разных ветках.

В цикле поиска агент предлагает контроллер, прогоняет его на этих данных и смотрит, как распределялись вычисления во времени. Если контроллер, скажем, слишком агрессивно обрубал ветки в каком-то сценарии - агент это видит, диагностирует и переписывает код, чтобы улучшить баланс точности и затрат.

Контроллер, который придумал AI

Поскольку агент-исследователь не ограничен человеческой интуицией, он может находить неочевидные, сложные правила, которые инженер в жизни не закодировал бы вручную. Один из лучших контроллеров, найденных AutoTTS, назвали Confidence Momentum Controller. Он использует несколько нетривиальных механик:

Остановка по тренду, а не по порогу. Ручные стратегии часто говорят модели: «остановись, когда уверенность достигнет X%». Но мгновенная уверенность может обманчиво скакнуть. Контроллер отслеживает экспоненциальное скользящее среднее (EMA) уверенности и останавливается только если уровень уверенности высок и тренд не падает.
Связанные ширина и глубина. В ручных алгоритмах «расширение» (создание новых веток) и «углубление» (развитие текущих) - отдельные решения. AutoTTS нашёл замкнутую обратную связь: если уверенность текущих веток застопорилась или падает, контроллер сам запускает порождение новых веток.
Приоритетное финансирование консенсуса. Вместо того чтобы давать всем активным веткам равный бюджет вычислений, контроллер динамически определяет, какие ветки согласуются с текущим лидирующим ответом, и даёт им приоритетные «всплески» вычислений. Так бюджет концентрируется на формирующемся консенсусе - быстрее проверить, правильный ли путь.

Экономия и точность на реальных бенчмарках

Исследователи провели строгое тестирование. Основные эксперименты ставили на моделях Qwen3 от 0,6B до 8B параметров. Проверили и систему на дистиллированной 8B-версии DeepSeek-R1.

Агент-исследователь сначала искал оптимальную стратегию на бенчмарке математических рассуждений AIME24. Потом полученную стратегию прогоняли на двух отложенных математических тестах - AIME25 и HMMT25, а также на общеакадемическом бенчмарке GPQA-Diamond.

Контроллер от AutoTTS соревновался с четырьмя ручными алгоритмами TTS: Self-Consistency с 64 параллельными цепочками (SC@64), Adaptive-Consistency (ASC), Parallel-Probe и Early-Stopping Self-Consistency (ESC).

В сбалансированном, экономичном режиме контроллер от AutoTTS сократил общий расход токенов примерно на 69,5% по сравнению с SC@64. И при этом сохранил ту же среднюю точность на всех четырёх моделях Qwen. Когда бюджет вычислений увеличивали, AutoTTS выталкивал пиковую точность выше всех ручных алгоритмов в пяти из восьми тестовых случаев.

На бенчмарке GPQA-Diamond сбалансированная версия AutoTTS урезала стоимость инференса с 510K токенов до 151K - то есть в 3,4 раза - и при этом даже немного улучшила точность. На модели DeepSeek AutoTTS показал самую высокую точность на HMMT25, сократив расход токенов почти вдвое.

Что это значит для бизнеса, который строит AI-продукты:

Пиковая производительность растёт. AutoTTS не просто экономит токены. Он активно повышает потолок возможностей базовой модели. Контроллер отлично на лету отлавливает шумные и бесполезные цепочки рассуждений и перенаправляет бюджет на те ветки, которые генерируют действительно полезные сигналы.
Дёшево и быстро. Весь процесс поиска занял 160 минут и обошёлся в $39,90 благодаря офлайн-среде. Команды могут адаптировать стратегии рассуждения под свои проприетарные модели и внутренние задачи без выделенного исследовательского бюджета.

Оба компонента - фреймворк AutoTTS и Confidence Momentum Controller - доступны на GitHub. CMC можно использовать как готовую замену другим TTS-контроллерам.

📊 Суть

AutoTTS меняет подход к оптимизации рассуждений LLM. Вместо ручного проектирования эвристик - автоматический поиск. ИИ проектирует алгоритмы распределения вычислений, и делает это лучше людей. Результат: минус 69,5% токенов при той же точности, а при увеличении бюджета - рекордная производительность. И всё это за $40 и 2,5 часа.

Исследователи автоматизировали дизайн стратегий рассуждения LLM - расход токенов упал на 69,5%

Проблема: ручной подбор стратегий

Как AutoTTS автоматизирует поиск

Контроллер, который придумал AI

Экономия и точность на реальных бенчмарках

📊 Суть

Хотите применить AI в своём бизнесе?