← Dnevnik
teardown·07 Apr 2026·6 min čitanja

Self-hostedLlamaprotivClaudeAPI-ja:našstvarnitrošak

Kad je problem token-račun, a kad GPU. Mesec dana realnih brojeva iz žive agencije.

Svaki studio i svaka agencija s kojom pričamo ovih dana ima istu tihu strepnju: AI workflow-i koji su prošle godine bili besplatni za eksperimentisanje, uskoro dobijaju račun. Pre nego što taj račun stigne, vredi iskreno izračunati.

Pokrećemo AI unutar naših workflow-a i u OHM Agency svakodnevnom radu — tekst, sažeci, tagovanje materijala, obrada brifova. Zajedno, to je oko 18M input tokena i 4M output tokena mesečno. Realan otisak agencije srednje veličine.

Na Claude Sonnet i GPT-4 klasi API-ja, taj obim košta otprilike $170 do $260 mesečno, zavisno od mix-a modela. Ne katastrofa. Ali dodajte klijentski proizvod i to skalira s korišćenjem, a ne sa veličinom tima. To je strašni oblik grafika.

Iste poslove smo testirali na self-hosted stack-u: Llama 3 8B i Mistral Small na jednoj RTX 4090 (potrošačka kartica koja je već u studiju) preko Ollama. Operativni trošak: oko €40 mesečno na struju, bez brojila tokena. Kvalitet na sažimanju i tagovanju je nerazlučiv od Sonnet-a. Na složenim višekoracnim rezonovanjima frontier modeli su još uvek bolji — zato držimo mali Claude budžet za teških 10%.

Pošten zaključak: self-host pobeđuje kad je posao volumenski velik i strukturno jednostavan (tagovanje, klasifikacija, sažeci, prve verzije). API pobeđuje kad plafon kvaliteta znači više nego cena. Veliki deo agencijskog rada je prva vrsta.

Postoje skriveni troškovi o kojima niko ne govori: svoj inference znači vaši eval-i, vaš drift i vaš dan kad model zabaguje. Inženjerska nedelja po kvartalu. Ali u poređenju sa otvorenim računom za tokene vezanim za rast klijenta, €40 struje i jedna inženjerska nedelja po kvartalu je trade koji bi većina studija uzela.

Ako u workflow-u imate AI češće nego povremeno, pitanje više nije da li self-host uopšte. Pitanje je koja 80% posla ide na vaš GPU, i kojih 20% ostaje na frontier API-ju.

Spremni smo

Imateštadasegradi?

Recite nam na čemu radite. Čitamo svaku poruku i odgovaramo u roku od jednog radnog dana — sa konkretnim stavom i okvirnom procenom.

Popuni brief