Обучение фундаментальной LLM с нуля стоит миллионы долларов и требует интернет-масштабных данных. Поэтому большинство предприятий даже не пробуют. Sapient Intelligence считает, что нашла более дешёвый путь. Их модель HRM-Text с 1 млрд параметров обучена за 1,9 дня на 16 GPU и обошлась примерно в 1500 долларов. При этом она показывает результаты, сопоставимые с Qwen, Gemma и Llama. Новости ии сегодня об этом: open source ии и новости нейросетей сдвигают границы доступного.
Проблема: обучение LLM - это перебор с памятью
Когда мы обучаем LLM, нам на самом деле не важно, запомнила ли модель точную последовательность слов из случайного тредов на Reddit 2014 года. Нам нужно, чтобы она понимала язык, логику, факты и рассуждения. Но современный подход - грубая сила: скрапим интернет, триллионы раз предсказываем следующий токен и надеемся, что модель сама выстроит внутреннюю модель мира.
По сути, мы тратим миллионы долларов вычислительной мощности на то, чтобы модели запоминали всё подряд с интернета, только ради того, чтобы они косвенно научились думать. Guan Wang, CEO Sapient Intelligence, называет это «экономикой итераций»:
«Предприятия сегодня сталкиваются с тремя проблемами: обучение дорого, инфраструктура тяжела, а циклы экспериментов слишком медленные. Зависимость индустрии от масштаба говорит: "Когда модель проваливается - сделай её больше. Добавь данных. Добавь GPU." Это работало, но подходит к пределу отдачи. Больший масштаб часто означает больше запоминания, больше задержки, больше инфраструктуры и больше зависимости от вендора. Но не обязательно лучший движок рассуждений».
Архитектура HRM-Text: как это работает
Sapient разработала Hierarchical Recurrent Model (HRM), которая разделяет вычисления на медленно эволюционирующий стратегический слой и быстро меняющийся исполнительный. Модуль L (быстрый) делает локальные итеративные уточнения, а модуль H (медленный) поддерживает стабильный семантический контекст между циклами. Обработка состоит из двух больших циклов, каждый с тремя быстрыми обновлениями L и одним медленным H.
Вместо стандартной стратегии «предскажи следующий токен», HRM-Text обучается на парах инструкция-ответ. Модель получает награду только за полный ответ, а не за отдельные токены. Это гораздо ближе к тому, как люди реально используют AI: дают задачу и ждут полезный ответ.
Чтобы справиться с нестабильностью рекуррентных сетей на больших объёмах языковых данных, исследователи внедрили две инновации: MagicNorm (специализированная нормализация для стабильности сигналов в циклах) и метод разогрева (на ранних этапах модель оценивается только на коротких цепочках рассуждений).
Ключевые цифры
1500 долларов - стоимость обучения HRM-Text 1B с нуля. 40 млрд токенов - вместо триллионов. 16 GPU - вместо тысяч. 60.7% на MMLU, 84.5% на GSM8K, 56.2% на MATH. Модель использует в 100-900 раз меньше токенов и в 96-432 раза меньше вычислений, чем Qwen, Gemma и Llama.
Что это значит для бизнеса
HRM-Text разделяет рассуждение и запоминание знаний. Модель не должна помнить весь интернет, чтобы хорошо рассуждать. Компании смогут развернуть компактное «ядро рассуждений», специализированное на бизнес-логике, а фактические знания подгружать через внешние системы поиска. Для предприятия с чувствительными данными (хедж-фонд, страховщик, банк) это значит, что не нужно отправлять проприетарные данные во внешние модели.
«Представьте хедж-фонд, страховщика или банк с внутренними исследовательскими заметками, транзакционной логикой, комплаенс-правилами, аналитическими меморандумами. Они не хотят отправлять эти данные внешней модели. Что им нужно - компактное ядро рассуждений, которое понимает структуру их задач и работает в контролируемой среде» - Guan Wang, CEO Sapient Intelligence
Для Владивостока и Дальнего Востока этот подход особенно актуален: локальное развёртывание моделей без привязки к облачным провайдерам снижает задержки и риски. Компании могут начать с внедрения искусственного интеллекта через компактные модели, обучая их на своих данных без многомиллионных бюджетов.
CEO Sapient резюмирует: «Когда стоимость обучения модели падает до 1500 долларов, AI перестаёт быть вопросом инфраструктуры и становится вопросом стратегии. Fortune 500 больше не спрашивает "Можем ли мы позволить себе фундаментальную модель?" - он спрашивает "Что наша модель должна знать о нашем бизнесе и для каких рассуждений её оптимизировать?"».