teardown·07 Apr 2026·6 мин чтения

Self-hostedLlamaпротивClaudeAPI:реальныецифры

Когда проблема в счёте за токены, а когда в GPU. Месячные цифры из живого агентства.

У всех студий и агентств, с которыми мы сейчас разговариваем, одна и та же тихая тревога: AI-воркфлоу, с которыми ещё год назад экспериментировали бесплатно, скоро начнут присылать счёт. Перед этим счётом полезно честно посчитать.

Мы гоняем AI внутри собственных процессов и в ежедневной работе OHM Agency — тексты, саммари, тегирование ассетов, обработка брифов. В сумме получается около 18M input-токенов и 4M output-токенов в месяц. Это реалистичный объём для агентства среднего размера.

На Claude Sonnet и GPT-4-классе такой объём стоит примерно $170–$260 в месяц в зависимости от микса моделей. Не катастрофа. Но если завести клиентский продукт, это масштабируется с использованием, а не с размером команды. Вот это страшная форма графика.

Те же нагрузки мы протестировали на self-hosted: Llama 3 8B и Mistral Small на одной RTX 4090 (потребительская карта, уже стояла в студии) через Ollama. Операционные расходы: примерно €40 в месяц на электричество, счётчика токенов нет. Качество на суммаризации и тегировании неотличимо от Sonnet. На сложных многошаговых рассуждениях frontier-модели всё ещё впереди — поэтому держим небольшой Claude-бюджет на сложные 10%.

Честный вывод: self-host выигрывает там, где объём большой, а задачи структурно простые (тегирование, классификация, саммари, первые драфты). API выигрывает где потолок качества важнее цены. Большая часть работы агентства — первый тип.

Есть скрытые расходы, про которые не говорят: свой inference — это твои же evals, твой drift и твой день когда модель забагует. Неделя инженера в квартал на это. Но по сравнению с бесконечным счётом за токены, привязанным к росту клиента, €40 электричества и одна инженерная неделя в квартал — выбор, который большинство студий сделают.

Если у вас в воркфлоу AI чаще чем редко — вопрос уже не в том, self-host вообще или нет. Вопрос: какие 80% нагрузки идут на твой GPU, и какие 20% остаются на frontier-API.

Self-hostedLlamaпротивClaudeAPI:реальныецифры

Продолжить чтение

Почему каждой строительной фирме из Иваньицы нужен сайт — и что он должен содержать

Маркетплейс подержанной хоккейной экипировки для Сербии за три недели

Наши пакеты AI и автоматизации — от одного n8n-потока до self-hosted Llama-стека.

Естьчтопостроить?