Self-hostedLlamaпротивClaudeAPI:реальныецифры
Когда проблема в счёте за токены, а когда в GPU. Месячные цифры из живого агентства.
У всех студий и агентств, с которыми мы сейчас разговариваем, одна и та же тихая тревога: AI-воркфлоу, с которыми ещё год назад экспериментировали бесплатно, скоро начнут присылать счёт. Перед этим счётом полезно честно посчитать.
Мы гоняем AI внутри собственных процессов и в ежедневной работе OHM Agency — тексты, саммари, тегирование ассетов, обработка брифов. В сумме получается около 18M input-токенов и 4M output-токенов в месяц. Это реалистичный объём для агентства среднего размера.
На Claude Sonnet и GPT-4-классе такой объём стоит примерно $170–$260 в месяц в зависимости от микса моделей. Не катастрофа. Но если завести клиентский продукт, это масштабируется с использованием, а не с размером команды. Вот это страшная форма графика.
Те же нагрузки мы протестировали на self-hosted: Llama 3 8B и Mistral Small на одной RTX 4090 (потребительская карта, уже стояла в студии) через Ollama. Операционные расходы: примерно €40 в месяц на электричество, счётчика токенов нет. Качество на суммаризации и тегировании неотличимо от Sonnet. На сложных многошаговых рассуждениях frontier-модели всё ещё впереди — поэтому держим небольшой Claude-бюджет на сложные 10%.
Честный вывод: self-host выигрывает там, где объём большой, а задачи структурно простые (тегирование, классификация, саммари, первые драфты). API выигрывает где потолок качества важнее цены. Большая часть работы агентства — первый тип.
Есть скрытые расходы, про которые не говорят: свой inference — это твои же evals, твой drift и твой день когда модель забагует. Неделя инженера в квартал на это. Но по сравнению с бесконечным счётом за токены, привязанным к росту клиента, €40 электричества и одна инженерная неделя в квартал — выбор, который большинство студий сделают.
Если у вас в воркфлоу AI чаще чем редко — вопрос уже не в том, self-host вообще или нет. Вопрос: какие 80% нагрузки идут на твой GPU, и какие 20% остаются на frontier-API.