Исследователи из UIUC, UC Berkeley и компании Chroma выпустили Harness-1 - open source AI-агента для поиска на 20 млрд параметров. Он обходит GPT-5.4 по точности извлечения информации и предлагает принципиально иной подход к архитектуре поиска. Open source ии новости этой недели показывают: размер модели уже не главное.

Что такое Harness-1 и почему это важно

Harness-1 построен на базе открытой модели gpt-oss-20B от OpenAI, но его суть не в модели. Главное - это окружение, в котором модель работает. Разработчики назвали его «state-externalizing harness» - по-русски это внешняя обвязка для состояния, которая берет на себя всю рутинную работу по запоминанию того, что уже нашли, что проверили и что отвергли.

Результаты говорят сами за себя. Harness-1 набрал 73% точности на тестах по извлечению релевантной информации. GPT-5.4 показал 70.9%, Sonnet-4.6 и Kimi-K2.5 оказались ниже. Только Opus-4.6 от Anthropic смог обойти Harness-1 в средних показателях, но сделал это с небольшим отрывом.

Ключевой факт

20 млрд параметров против сотен миллиардов. Harness-1 укладывает конкурентов с моделями в десятки раз больше. Секрет не в весе модели, а в том, как её окружение управляет состоянием поиска. Open weights модели достаточно, если дать им правильные инструменты.

Проблема: AI-амнезия в поиске

Любой, кто пробовал заставить AI-агента перерыть 100 документов и выдать сводку, знает эту боль. Модель забывает, что искала. Начинает ходить по кругу. Потеряет контекст на середине задачи. Исследователи называют это «search amnesia».

«В какой-то момент модель перестает просто искать. Она должна быть и памятью, и стенографистом, и верификатором, и библиотекарем одновременно» - Патрик Цзян, ведущий исследователь проекта

Раньше это лечили грубой силой: заставляли модель перечитывать расшифровку каждого своего действия, накапливая гигантский контекст. Чем дольше работал агент - тем больше контекст, тем выше затраты, тем хуже точность. Тупиковый путь, если честно.

Решение: дать AI стол и бумагу

Представьте, что вы наняли гениального ассистента, посадили его в пустую комнату без стола, записной книжки и шкафа. И попросили написать отчёт по сложной теме. Он должен держать все ссылки, даты и отброшенные варианты в голове. Рано или поздно он сломается.

Именно так работают обычные поисковые AI-агенты. Harness-1 даёт агенту стол и картотеку - внешнюю среду, которая хранит: пул кандидатов на включение в ответ, проверенные факты с отметками важности, компактные ссылки на источники и записи о проверках. Модель просто решает, что искать и когда остановиться. Всё остальное делает окружение.

Обучение: 4400 примеров вместо 220 тысяч

Самое неожиданное - как мало данных потребовалось для обучения. Harness-1 учили на 899 SFT-траекториях и 3453 RL-запросах. Это примерно 4400 уникальных примеров. Для сравнения: конкурента Search-R1 потребовалось 221 300.

Разница на порядки. И это не случайно - когда «обвязка» берет на себя бухгалтерию, модели остаётся научиться только одному: как пользоваться интерфейсом поиска. Как форматировать вызовы инструментов, как помечать документы по важности, как проверять факты перед включением в ответ.

После SFT применили RL-алгоритм CISPO с умной функцией награды. Модель получала баллы не просто за то, что нашла релевантный документ, а за то, что успешно включила его в итоговый набор. И штрафовалась, если нашла ответ, но забыла его оформить. Без этого, как отмечают авторы, модель скатывалась к ленивой стратегии: спамить поисковыми запросами, но не проверять результаты.

Что это значит для бизнеса

Честно скажу: меня эта новость впечатлила. Но не цифрами - они ожидаемы. Впечатлила архитектурная смелость. В индустрии, где все гонятся за размером контекстного окна (1 млн токенов, 2 млн, 10 млн), Harness-1 говорит: не надо пихать всё в контекст - дайте модели нормальный рабочий инструмент.

Для бизнеса это прямой сигнал. Внедрение искусственного интеллекта в процессы поиска и анализа данных не обязательно требует аренды GPT-5.5 за десятки тысяч долларов в месяц. Open source решение на 20 млрд параметров с правильной архитектурой даёт тот же или лучший результат - за стоимость, сопоставимую с Context-1 (бюджетный вариант).

Лицензия Apache 2.0 - ещё один плюс. Никаких проблем с открытием своего кода или ограничений на коммерческое использование. Компании из Владивостока и Дальнего Востока могут спокойно встраивать Harness-1 в свои продукты и внутренние системы. Нейросети для бизнеса перестают быть прерогативой гигантов.

Мы в AG Branding видим эту тенденцию: на смену «чем больше модель, тем лучше» приходит «чем умнее окружение, тем эффективнее». И это меняет правила игры. Автоматизация с помощью ии теперь доступна без миллионных контрактов с облачными провайдерами.