Stanford DeLM: AI-агенты без босса экономят 50% и работают точнее

Одно из ключевых допущений современных AI-фреймворков - что агентам нужен «начальник» в центре. Оркестратор командует, распределяет задачи и следит, чтобы система не развалилась. Стэнфордский фреймворк DeLM (decentralized language model) утверждает, что это допущение может быть ошибочным - и за него платят в прямом смысле: лишними долларами на инференс и задержками координации. Ии агенты новости, автоматизация ии новости - эта тема сейчас горячее всего.

DeLM построен на простой идее: агенты могут координироваться напрямую, без маршрутизации каждого обновления через центральный контроллер. Вместо этого - общая база знаний, которая служит «коммуникационной подложкой». Агенты пишут туда свои находки и читают находки других.

«Агенты могут строить на предыдущих находках, избегать повторных ошибок, сохранять ограничения и извлекать детальные доказательства только когда нужно» - Южэнь Мао и Азалия Мирхосейни, соавторы DeLM, Стэнфорд

Проблема традиционной оркестрации

В типичной централизованной многоагентной системе главный агент разбивает задачу на подзадачи, назначает суб-агентам, ждёт ответов, объединяет и обобщает промежуточные результаты, затем запускает следующую волну на основе собранного контекста.

Проблема: каждая находка, частичный результат и даже ошибка должны быть доложены главному агенту, который решает, что объединять и ретранслировать. Когда подзадач становится много, контроллер превращается в бутылочное горлышко.

Почему центральный оркестратор дорогой

Главный агент может «размывать, пропускать или искажать» полезную информацию. Суб-агенты получают недостаточный контекст, путаются, возвращаются к главному - начинается новый раунд запросов. «Эта переписка делает координацию медленнее и зацикленнее», - пишут исследователи.

Как работает DeLM

DeLM построен на трёх компонентах: параллельные агенты, общий контекст и очередь задач.

Общий контекст - это хранилище «гистов» (gists), кратких сводок информации, которые могут быть полезны другим агентам. Сюда попадают верифицированные находки, частичные результаты и документально подтверждённые ошибки. Каждый гис указывает на детальные доказательства, к которым агент может обратиться при необходимости.

Очередь задач - набор ожидающих подзадач, которые агенты могут забирать независимо.

Конвейер выглядит так:

Инициализация: входные данные разбиваются на единицы работы и добавляются в очередь
Параллельное выполнение: агенты работают независимо, забирая задачи и читая общий контекст по ходу
Компрессия и верификация: результаты сжимаются в гисты, которые проверяются на соответствие доказательствам. В общий контекст попадают только подтверждённые
Финальный шаг: последний агент проверяет, все ли решено, и возвращает ответ

Результаты: точнее +10.5%, дешевле на 50%

На SWE-bench Verified DeLM показал на 10.5% лучший результат, чем сильнейший бейзлайн, и сократил cost per task примерно на 50%. На LongBench-v2 Multi-Doc QA (сложные мнгодокументные задачи с длинным контекстом) DeLM показал лучшую точность среди четырёх семейств моделей, включая GPT-5.4, Claude Sonnet, Gemini Flash и DeepSeek-V4-Pro.

Почему DeLM работает лучше? Во-первых, агенты делятся ошибками. В обычных параллельных запусках, когда один агент пошёл по ложному пути, этот сбой остаётся приватным - и следующие агенты могут потратить деньги на тот же тупик. DeLM записывает неудачные гипотезы в общий контекст - «последующие агенты читают их как ограничения, избегают повторных изысканий и перенаправляют поиск», - говорит Мао.

Во-вторых, верифицированные ограничения мгновенно становятся частью общего состояния. «Последующие агенты наследуют их, строят вокруг них и избегают глобально неверных упрощений».

В-третьих, DeLM держит прогресс компактным. Агенты видят короткие гисты по умолчанию, но могут «развернуть» их в подробные сводки и исходные данные. Это решает дилемму: полные трейсы перегружают контекстное окно, компактные сводки теряют детали. «Разворачивание» даёт coarse-to-fine доступ - точность растёт без перегрузки.

Что это значит для бизнеса

DeLM бросает вызов фундаментальному допущению: что каждый многоагентный воркфлоу требует центрального контроллера. Результаты на SWE-bench и LongBench показывают, что децентрализованная модель не просто «чище» теоретически - она быстрее, точнее и примерно вдвое дешевле.

Для компаний, строящих многоагентные системы, это практический вывод: возможно, архитектура с «главным агентом-диспетчером» - не единственный и не лучший вариант. Децентрализованные схемы с общим контекстом и очередью задач могут дать лучшие результаты при меньших затратах. Особенно это актуально для малого и среднего бизнеса, где каждый доллар на счету.

Если вы во Владивостоке строите AI-агентов для бизнеса - стоит посмотреть на DeLM не как на академическую работу, а как на готовый архитектурный паттерн. Агенты без босса, которые делятся находками через общую память - это не просто экономия. Это другой уровень устойчивости системы.

Внедрение искусственного интеллекта в бизнес часто упирается в стоимость инференса. DeLM показывает, что правильная архитектура может сократить её вдвое без потери качества.