Когда у тебя 620 миллионов активных пользователей в месяц, дёргать frontier-модель на каждую рекомендацию картинки - это не стратегия, а счёт из ресторана. Pinterest CTO Мэтт Мадригал решил проблему радикально: вырезал vision encoder из Qwen3-VL и переписал всё на собственных эмбеддингах. Итог - минус 90% расходов и плюс 30% к точности.

Команда Мадригала давно и плотно кастомизирует opensource-модели «фундаментально, внутри компании». В интервью для подкаста VB Beyond the Pilot он объяснил, почему подход с открытыми весами даёт Pinterest преимущество.

«Если у вас есть по-настоящему уникальные данные, и вы можете дообучить на них opensource-модель - качество данных, честно говоря, перевешивает размер модели.»

- Мэтт Мадригал, CTO Pinterest

Как Pinterest перекроил Qwen под визуальный поиск

Pinterest уже много лет использует opensource-модели для визуального поиска - начинали с BERT от Google, потом перешли на CLIP от OpenAI и дообучили собственный Pin CLIP на проприетарных визуальных эмбеддингах с метаданными.

Их разговорный шопинг-ассистент Navigator 1 построен на Qwen3-VL и кастомизирован «очень существенно». Команда Мадригала буквально «вырвала» vision encoder из Qwen и дообучила модель на собственных мультимодальных эмбеддингах. Это позволило захватывать метаданные пинов и изображений, которые можно предвычислять офлайн и регулярно дообучать на новых данных - чтобы выдавать персонализированный результат.

«Opensource-модели с открытыми Apache-лицензиями, где можно реально копаться в весах и кастомизировать под свои задачи - вот где opensource раскрывается для нас максимально.»

- Мэтт Мадригал, CTO Pinterest

Свои эмбеддинги дают контекст по метаданным, пинам и изображениям. И, что важно, модель работает быстрее на инференсе. Без таких эмбеддингов разработчикам пришлось бы вызывать и кодировать каждое изображение по одному прямо в рантайме. По словам Мадригала, это даёт задержку «в 20 раз хуже» с точки зрения инференса.

🔑 Ключевая цифра

Свои эмбеддинги вместо vision encoder - это -90% стоимости инференса и +30% точности. И никакой магии, просто правильная архитектура под свою data-специфику.

«Если это критично для наших пользователей, это будет двигать вовлечение и масштабироваться на 600+ миллионов активных пользователей - мы либо построим это сами, либо возьмём opensource и выкастомизируем до неузнаваемости.»

- Мэтт Мадригал, CTO Pinterest

Taste Graph: как граф вкусов ловит меняющиеся интересы

Чтобы вести пользователя от вдохновения к покупке, команда Мадригала построила «taste graph» - динамическую карту того, что реально нравится людям, а не просто того, по чему они кликают.

«Это представление меняющихся вкусов миллиардов людей.»

- Мэтт Мадригал, CTO Pinterest

Обычно люди идут в Google или другие поисковики, когда уже знают, что хотят. Pinterest - для фазы открытия, когда человек ещё исследует. Задача Pinterest - «латеральное исследование»: превратить открытие в намерение (клик по рекламе или покупка).

Под капотом - графовая структура с обучением представлений. User embeddings фиксируют меняющиеся вкусы пользователя. Они постоянно обновляются на основе активности, нового контента и сигналов.

«Это не социальный граф. Это граф предпочтений: что вас вдохновит? Что вы попробуете сделать дальше?»

- Мэтт Мадригал, CTO Pinterest

Пример: один пользователь фанатеет от mid-century modern дизайна, другой - от эстетики Нантакета. Эти предпочтения фиксируются в user embeddings, и taste graph выдаёт релевантные товары. «Ты идёшь от верхней воронки - открытия и вдохновения - до нижней воронки, до намерения», - говорит Мадригал.

📊 Что в итоге?

История Pinterest - отличный пример того, как opensource-модели можно превратить в конкурентное преимущество, если у вас есть свои данные и вы готовы копаться в архитектуре. Экономия 90% на инференсе - не чудо, а результат инженерной мысли: вырезать ненужное, оставить нужное, докрутить под свои данные. Когда модель обучена на том, что реально релевантно вашим пользователям - она работает и дешевле, и точнее.