Agentic Reckoning: Runtime, Not Models, Is The Issue

VentureBeat Pulse Research опросила 132 технологических лидера из enterprise-компаний. И вопрос был простой: когда AI-агенты сбоят, кто виноват? Модель или инфраструктура, на которой она работает? Ответ оказался неожиданным даже для тех, кто следит за новостями ии ежедневно. Только 17% респондентов назвали модель главной проблемой. Остальные 83% указали на рантайм и интеграцию.

Если говорить прямо: AI-агенты упираются не в интеллект, а в позвоночник. Компании строят сложные многошаговые агенты, но их stateless-инфраструктура разваливается на втором десятке шагов. Контейнеры перезагружаются и стирают контекст. Ошибки на третьем шаге превращаются в катастрофу на двенадцатом. И 77% команд тратят большую часть инженерного времени не на логику агента, а на то, чтобы эта логика просто не упала.

Ключевые цифры

47% - главная проблема не модель, а разрыв между интеграцией и управлением (Integration/Governance Gap). Нет стандартизированной «соединительной ткани» (MCP) между агентами и корпоративными системами.

37% - проблема в Spine (рантайме): stateless-инфраструктура слишком хрупкая для production.

17% - проблема всё-таки в Brain (модели): frontier-модели не хватает надёжности для сложных сценариев с 10+ шагами рассуждения.

Мозг против позвоночника: почему спор окончен

Исследователи VentureBeat сформулировали это как «spine vs brain» - позвоночник против мозга. Вопрос в том, от чего гибнут AI-агенты в продакшне: от недостатка интеллекта модели или от хрупкости инфраструктуры. Данные говорят однозначно: рантайм - слабое звено.

Только 17% респондентов считают, что модель не дотягивает. Для остальных война фронт-моделей - GPT-5 против Claude - просто шум на периферии. Модели уже достаточно умны. А вот инфраструктура вокруг них - нет.

«Модели достаточно умны, но наша stateless-инфраструктура слишком хрупкая, чтобы управлять долгими, многошаговыми агентными процессами» - Director of Engineering/IT, Financial Services

Налог на самодельщину: 77% команд в ловушке

Дальше - интереснее. VentureBeat спросили: сколько инженерного времени уходит не на логику агента, а на «сантехнику»? Ручные повторные попытки, сохранение состояния, контрольные точки?

Распределение пугающее. Только 23% команд находятся в «эффективной зоне» (менее 10% времени на инфраструктуру). Остальные 77% платят налог:

24% команд - в кризисе: больше половины инженерного времени уходит на plumbing, а не на логику
27% - в ловушке сложности: 25-50% каждого спринта уходит на инфраструктурные накладные расходы
26% - платят налог на обслуживание: примерно один день в неделю на отладку зависших скриптов

Каждый час, потраченный на написание retry-логики или отладку тихого тайм-аута - это час, не потраченный на то, ради чего AI-агент вообще затевался. Для небольших компаний во Владивостоке и Дальнем Востоке это критично: ресурсов на эксперименты почти нет, а каждый час инженера на счету.

Амнезия состояний - главный убийца продакшна

Когда AI-агенты не доходят до продакшна или не масштабируются, что их останавливает? VentureBeat назвали пять кандидатов:

29% - потолок ROI: токен-косты и инфраструктурные накладные превышают бизнес-ценность проекта
24% - размножение галлюцинаций: ошибки на ранних шагах рассуждения накапливаются и разрушают систему
20% - ghost failures: тихие тайм-ауты API, где агент зависает без трейсбека
17% - амнезия состояний: агенты теряют контекст при перезагрузке контейнера
10% - нарушения SLA по задержке

Самое показательное: потолок ROI обогнал амнезию состояний. Это значит, что инфраструктурная проблема стала не просто технической - она превратилась в бизнес-проблему. Руководители проектов убивают инициативы не потому, что агенты плохие, а потому что они слишком дороги в эксплуатации.

Что это значит для бизнеса

Экономика токенов и накладные расходы на оркестрацию теперь съедают столько бизнес-ценности, что спонсоры проектов принимают решение об остановке раньше, чем инженеры успевают решить проблему долговечности. Для компаний, которые думают о внедрении искусственного интеллекта, это сигнал: начинать нужно не с выбора модели, а с архитектуры рантайма.

Кто платит самый высокий налог на наблюдаемость

VentureBeat спросили: какая платформа требует больше всего кастомной телеметрии, ручного инструментирования и logging-клея для достижения базовой видимости?

42% назвали Microsoft (GitHub Copilot Workspaces / Agent Framework). OpenAI - 30%, Google - 16%, Anthropic - 12%. Microsoft лидирует не случайно - это структурная характеристика их экосистемы. Компании, которые глубже всего завязаны на Azure/Copilot, платят самую высокую цену за то, чтобы заглянуть внутрь.

Что это значит на практике: если вы выбираете платформу для AI-агентов, смотрите не только на цену API, но и на стоимость телеметрии. Платформа, которая кажется дешёвой на уровне API, может оказаться значительно дороже на уровне наблюдаемости.

Разрыв между маркетингом и реальностью

Ещё один показательный вопрос: чей маркетинг агентного кодинга больше всего оторван от реальной технической надёжности?

45% назвали Microsoft (GitHub Copilot Workspaces / AutoGen). OpenAI - 22%, Google - 12%, Anthropic - 11%. Разрыв слишком велик, чтобы списать его только на размер внедрения. GitHub Copilot Workspaces и AutoGen генерируют конкретную категорию разочарования - вероятно, вокруг надёжности многолетней оркестрации в продакшне.

Маркетинг всех крупных платформ описывает агентную автономию и надёжность на уровне, которого production-развёртывания пока не достигают. Компании, которые вышли за рамки пилотов, сталкиваются с разницей напрямую. И это - повторение того же сценария, что был с RPA десять лет назад: красивые обещания, хрупкая реальность.

Архитектура безопасности строится с нуля

Предприятия не ждут, пока вендоры решат проблему безопасности AI-агентов. Они строят защиту сами. И здесь нет доминирующего подхода - рынок фрагментирован:

30% - Policy-as-Code: жёсткие правила в слое оркестрации
25% - детерминированное маскирование данных
23% - принцип наименьших привилегий (NHI): уникальные, короткоживущие идентификаторы на каждый поток агента
22% - sandboxing с блокировкой исходящего трафика

Для компаний во Владивостоке, которые задумываются об автоматизации с помощью ии, это не просто техническая деталь. Безопасность AI-агентов - это вопрос доверия к системе. Если агент имеет доступ к терминалу и репозиториям, архитектура защиты должна быть спроектирована до того, как код попадёт в продакшн.

Миграция к durable execution: кто уже перестраивается

Центральный вывод исследования Agentic Reckoning: stateless-архитектуры не выдерживают «уступ сложности» - точку, где многошаговые агенты начинают сыпаться с неприемлемой частотой.

32% уже в активной миграции - переносят логику агентов в durable-слои оркестрации. 27% оценивают архитектуру с приоритетом управления. 21% принимают Policy-as-Code. И 20% остаются на stateless - пробуют решить структурную проблему лучшим промптингом.

Эти 20% - те же самые люди, которые десять лет назад пытались «донастроить» RPA более хитрыми правилами вместо того, чтобы перепроектировать архитектуру. История повторяется. Хотя некоторые из них просто работают на managed-платформах, которые абстрагируют управление состоянием - и это честный путь.

Полиглот-оркестрация: ставка большинства

Какую архитектурную стратегию выбирают предприятия? 39% ставят на Polyglot Bet - гибридную слоистую оркестрацию, где model-native рассуждение работает для недетерминированного планирования, а детерминированные движки - для критически важного выполнения.

28% - полностью на managed-стеке облачного провайдера. 16% - на монолите frontier-лаборатории (OpenAI/Anthropic берут на себя весь стек). 16% - на независимом durable-рантайме (LangGraph, Temporal, Restate) для полной суверенности данных.

Polyglot Bet объясняет, почему проблемы наблюдаемости и управления настолько устойчивы. Когда архитектура сознательно охватывает несколько слоёв оркестрации и несколько провайдеров, ни одна вендорская телеметрия не даёт полной картины. Единая платформа наблюдаемости становится не просто желательной, а структурно необходимой.

User Acceptance Rate - главный production-стандарт

Как компании определяют, готов ли AI-агент к продакшну? 47% используют User Acceptance Rate - процент автономных действий, принятых человеком без исправлений. Это метрика человеческого доверия, а не технической производительности. Она не спрашивает «быстро ли агент отработал» - она спрашивает «доверился ли человек его результату».

30% используют Context Fidelity - способность агента поддерживать состояние и память в течение 48+ часов. Это напрямую связано с данными миграции: те, кто решил проблему амнезии, теперь фокусируются на долговременной памяти.

UAR как доминирующая метрика отражает реальность: большинство enterprise-агентов всё ещё работают в режиме human-in-the-loop. Человек проверяет каждое действие агента перед выполнением. Это разумная реакция на галлюцинации и ghost failures - но это и ограничение масштабирования.

Итог: расплата - это рантайм, а не рассуждение

Исследование VentureBeat рисует чёткую картину. Enterprise-агенты упираются не в интеллект - они упираются в рантайм. Компании тратят больше времени на инфраструктурную сантехнику, чем на интеллект агента. Амнезия состояний и стоимость токенов убивают проекты до того, как инженеры успевают починить durability.

Модели, по оценке большинства респондентов, достаточно умны. Но инфраструктура вокруг них - управление состоянием, отказоустойчивость, наблюдаемость, управление идентификацией и детерминированный слой выполнения - ещё нет. И те, кто ставят на stateless-архитектуры и лучший промптинг, рискуют повторить путь RPA: кладбище гениальных пилотов, которые не пережили второй день в продакшне.

Для бизнеса во Владивостоке и на Дальнем Востоке вывод простой: нейросети для бизнеса - это не только про выбор модели. Это про то, как вы строите инфраструктуру вокруг неё. И если вы только начинаете внедрение искусственного интеллекта, начните не с выбора модели, а с архитектуры рантайма.

Agentic Reckoning: проблема AI-агентов не в модели, а в рантайме