Apple решила проблему памяти для on-device AI

Apple на WWDC26 представила AFM 3 Core Advanced - модель на 20 млрд параметров, которая хранит веса не в DRAM, а в NAND-флеше. Это ломает главное ограничение on-device AI: раньше размер модели упирался в объём оперативной памяти устройства. Теперь порог сдвигается. Новости ии и новости gemini google на этой неделе показывают: Apple и Google не просто обновляют модели - они пересматривают саму архитектуру инференса.

AFM 3 создавалась совместно с Google. В семейство входят пять моделей: две on-device и три серверных, работающих в Private Cloud Compute на Nvidia GPU в Google Cloud. Но on-device архитектура - полностью собственная разработка Apple. И это, пожалуй, самый интересный технический анонс WWDC26.

Ключевой факт

20 млрд параметров - 0 в DRAM. AFM 3 Core Advanced хранит полный набор весов в NAND-флеше. Маршрутизация экспертов происходит один раз на запрос, а не на каждый токен. Активные параметры: от 1 до 4 млрд в зависимости от сложности задачи. Для предприятий, которые не могут отправлять данные в облако, это принципиально новый вариант.

Как работает флеш-маршрутизация

Проблема on-device моделей всегда была простой: DRAM в телефоне или ноутбуке ограничена. 20 млрд параметров в разумной точности в неё не помещаются. Apple решила хранить веса в NAND-флеше (которого в устройствах многократно больше) и загружать в DRAM только нужные эксперты для каждого запроса.

Ключевое отличие от обычных Mixture of Experts моделей: маршрутизация происходит один раз на запрос, а не на каждый токен. Если бы модель переключала экспертов на каждом токене, скорость NAND-to-DRAM была бы недостаточной. Вместо этого маленькая модель-роутер предсказывает по промпту, какие эксперты понадобятся, загружает их в DRAM вместе с постоянно активными общими экспертами - и вся генерация идёт из этой фиксированной конфигурации.

«Вы не можете поместить 20B параметров в RAM в разумной точности. Чтобы это работало, они используют довольно экзотическую архитектуру по сегодняшним меркам. Маленькая модель предсказывает из запроса, какие эксперты загружать из NAND в RAM» - Awni Hannun, исследователь Anthropic, бывший Apple Research Scientist

Активные параметры: от 1 до 4 млрд

Интересная деталь: AFM 3 Core Advanced не использует фиксированный размер модели для каждого запроса. Для простых операций активируется 1 млрд параметров, для сложных - до 4 млрд. При этом модель может выбирать из пула в 20 млрд. Такой подход Apple называет Instruction-Following Pruning (IFP).

Что Apple не раскрыла

Технический доклад подробен по части архитектуры памяти и механизма разреженной активации. Но он гораздо менее откровенен в вопросах практического развёртывания. Инструменты профилирования Apple показывают время выполнения, но не метрики, которые решают production-жизнеспособность: энергопотребление, пропускную способность памяти, тепловыделение.

Marco Abis, который строит Ziraph - профайлер для локального AI на Apple Silicon, отметил: «Энергия, пропускная способность памяти, тепловыделение? В документации этого нет. Заметный пробел, учитывая, что именно эти метрики определяют on-device производительность».

Также неясно, когда on-device запрос прозрачно уходит в облако - и видно ли это разработчику или пользователю. Для предприятий, которым нужно документировать, где выполняется инференс, это прямой compliance-проблема.

Что это значит для бизнеса

Для регулируемых отраслей (медицина, финансы, оборона) это меняет расклад. Раньше выбор был простым: либо слабая on-device модель, либо мощная, но в облаке с рисками для данных. AFM 3 Core Advanced даёт третий вариант: 20 млрд параметров локально, без облачного round-trip, с приватностью Apple Private Cloud Compute для сложных случаев.

Важный нюанс: серверный слой AFM 3 Cloud Pro работает на Nvidia GPU в Google Cloud. Гарантия Private Cloud Compute покрывает приватность данных. Но она не устраняет зависимость от Google Cloud для серверного инференса. Организациям, которые хотят полностью избежать облака, придётся полагаться только на on-device возможности.

Для компаний во Владивостоке и Дальнем Востоке это означает появление реальной альтернативы облачным AI-сервисам. Если ваши сотрудники работают на Mac с Apple Silicon, вы можете развернуть AI-агентов с 20 млрд параметров прямо на их устройствах - без ежемесячных подписок, без отправки данных на серверы, с полным контролем.

Мы в AG Branding видим, как рынок локального AI ускоряется. Ещё год назад 7 млрд параметров на устройстве считались достижением. Сегодня Apple показывает 20 млрд. Нейросети для бизнеса становятся инфраструктурой уровня устройства - как Wi-Fi или Bluetooth. Внедрение искусственного интеллекта в корпоративные процессы выходит на новый уровень доступности и приватности.

20 млрд параметров на устройстве: Apple решила проблему памяти для on-device AI-агентов

Ключевой факт

Как работает флеш-маршрутизация

Активные параметры: от 1 до 4 млрд

Что Apple не раскрыла

Что это значит для бизнеса

Готовы к внедрению AI-решений на своих устройствах?

Читайте также