05 · Modelo de negocio y monetización¶
Pricing, estructura de costos, break-even self-hosting, y los 4 argumentos de venta defensibles.
Pricing recomendado por categoría¶
| Categoría | Modelo de pricing | Rango |
|---|---|---|
| API B2B (general) | Pay-per-call | $0.001-0.01/llamada |
| API B2B (premium vertical) | Suscripción + overage | €99-999/mes base + €0.05/sobre-uso |
| SaaS vertical PYME | Suscripción por puestos | €29-99/usuario/mes |
| Apps consumidor | Freemium → suscripción | €2.99-9.99/mes; o pago único €19-49 |
| GovTech / Enterprise | Contrato anual | €10K-100K/año + setup |
| Herramientas dev | Suscripción / licencia | €15-49/dev/mes |
Reglas heurísticas¶
- B2B SaaS PYME: si tu producto ahorra 10× su precio en tiempo al cliente, el precio es justo.
- APIs: cobra 2-3× tu costo marginal (incluyendo amortización de hardware/dev).
- Apps consumer: freemium con límite real, no truco. Conversión esperada: 2-5%.
- Enterprise: no vendas <€10K/año, no compensa el ciclo de venta.
Estructura de costos con Gemma local¶
Etapa 1 — Validación (0-50 clientes)¶
- Servidor: M4 Pro como servidor → coste marginal $0.
- Setup:
ollama serve+ FastAPI + Cloudflare Tunnel → API pública gratis. - Storage: ~50 GB para vectores y datos.
- Total mensual: ~€10 (dominios + email + SSL).
Etapa 2 — Tracción (50-500 clientes)¶
Opción A: VPS dedicado con GPU - L4 / RTX 4090 en Hetzner GPU o Lambda Cloud: $300-500/mes. - Sostiene ~5M tokens/día con Gemma 4 26B-A4B.
Opción B: Mac Mini M4 Pro 48 GB como servidor headless - Hardware: ~$1,800 one-time. - Electricidad + internet: ~$50/mes. - Sostiene ~3M tokens/día con E4B + 1M con 26B-A4B.
Recomendación: Opción B si crees que tu producto va a durar 2+ años; Opción A si quieres flexibilidad.
Etapa 3 — Escala (>500 clientes)¶
A. Cloud Run con NIM
- RTX PRO 6000 (Blackwell, 96 GB vGPU, serverless, scale-to-zero).
- Regiones: us-central1 o europe-west4.
- Pay-per-use, automatic scaling.
- Ventaja: scale-to-zero, sin invertir en hardware.
B. Vertex AI Model Garden - 26B-A4B managed (anunciado en lanzamiento de Gemma 4). - Pricing predecible por TPS reservado.
C. Colocation propio (2× H100 SXM amortizado a 36 meses)
| Concepto | Costo mensual |
|---|---|
| Hardware (2× H100, amortización) | ~$1,000 |
| Electricidad/colo (8U) | ~$800 |
| 0.25 FTE ingeniero | ~$4,000 |
| Total | ~$5,900/mes |
Capacidad: ~5M tokens/día → $0.40/M tokens.
Comparación con GPT-4.1 al mismo volumen (según SitePoint TCO 2026): $7,500-15,000/mes.
Break-even: 6-7 meses desde el momento que sostienes 5M tokens/día.
Break-even self-hosting vs OpenAI (analysis)¶
VentureBeat ("OpenAI or DIY? Unveiling the true cost of self-hosting LLMs") calculó:
Para alcanzar $180/día en autohospedaje se necesitan ~22,2 millones de palabras diarias enviadas por la API (≈ 30M tokens). Eso es más de 74,000 páginas de datos, cada página de 300 palabras.
Regla práctica: - <2M tokens/día sostenidos → API es más barata. - 2-5M tokens/día → zona gris, depende de tu engineering cost. - >5M tokens/día sostenidos → self-hosting gana.
No te autohostees hasta llegar a 2-5M tokens/día sostenidos.
Los 4 argumentos de venta defensibles¶
1. Soberanía de datos¶
"Tus datos nunca salen de tu infraestructura."
Mata objeciones en: legal, salud, gobierno, finanzas. Apuesta más fuerte en: EU (DORA, AI Act, GDPR). Métrica: pregunta al cliente cuánto le cobraría su compliance officer "si subiéramos esto a OpenAI". La respuesta es tu precio piso.
2. Costo predecible¶
"Pagas $99/mes fijos, no $99 + $0.02/token con sorpresas."
Funciona porque: PYMES odian costos variables. CFOs quieren forecasting. Compara con: GPT-4 cuesta entre $30-3,000/mes a la misma empresa según uso. Tu cliente quiere previsibilidad.
3. Sin rate limits¶
"Tu cliente puede procesar 10K documentos un domingo si quiere."
Funciona porque: workflows reales tienen picos. Cierre fiscal, Black Friday, etc. OpenAI/Anthropic te tier-limitan; tú no.
4. Personalización profunda¶
"Fine-tuning sobre los datos del cliente sin enviar a terceros."
Es un moat real que la competencia API-wrapper no puede igualar. Implementación: Unsloth/LoRA local; entregable es un modelo derivado que sólo el cliente posee.
Modelo híbrido (recomendado para casi todo)¶
┌─────────────────────────────────────────────────┐
│ Query del usuario │
└──────────────────┬──────────────────────────────┘
│
┌──────────▼──────────┐
│ Router (LiteLLM) │
└──────────┬──────────┘
│
┌───────────┼───────────┐
│ │ │
▼ ▼ ▼
[80% queries] [15%] [5%]
Gemma 4 E4B Gemma 4 31B Gemini 3 /
local vía Google Claude / GPT-5
AI Studio vía API
(gratis)
Ahorro estimado: 1/10 del costo total vs all-API, manteniendo calidad equivalente o superior en lo importante.
Cuándo se justifica routing a API: - Query con >10K tokens de contexto. - Tarea agentic con >5 steps de tool-calling. - Generación de código complejo (>200 líneas). - Razonamiento matemático multi-step.
Métricas que monitorear¶
| Métrica | Target inicial | Target mes 6 |
|---|---|---|
| MRR | €0 → €3K | €15K |
| Churn mensual | <10% | <5% |
| CAC (cost of acquisition) | <€100 | <€200 |
| LTV (lifetime value) | >€500 | >€2K |
| LTV/CAC ratio | >3 | >5 |
| Latencia p95 inferencia | <2s | <1s |
| Costo por respuesta | <€0.02 | <€0.005 |
| Trial → paid conversion | 10% | 20%+ |
| NPS | >30 | >50 |
Unit economics ejemplo (LegalTech, vertical 2)¶
Producto: Revisor de contratos PYME, €149/usuario/mes.
| Concepto | Valor mensual |
|---|---|
| Revenue por cliente | €149 |
| Costo de inferencia (300 contratos/mes × €0.005) | €1.50 |
| Costo de hosting (parte alícuota) | €5 |
| Costo de soporte | €15 |
| Gross margin | €127.50 (85.5%) |
Con 50 clientes: €7,450 MRR, €6,375 gross profit/mes. Con 200 clientes: €29,800 MRR, €25,500 gross profit/mes.
Justifica: contratar 1 customer success ($3K/mes) a los 50 clientes. Justifica: contratar 1 dev full-time ($6K/mes) a los 100 clientes.
Estrategias de pricing avanzadas¶
Land & expand (recomendado para SaaS PYME)¶
- Trial 14 días sin tarjeta.
- Plan inicial barato (€29/usuario) con un solo módulo.
- Upgrade a Pro (€99) con módulos premium después de 30 días de uso.
Annual discount¶
- 20% descuento anual upfront. Mejora cash flow.
Founding members¶
- Primeros 20 clientes: 50% off de por vida a cambio de testimonio + caso de estudio.
Outcome-based (avanzado, solo después de 100 clientes)¶
- "Pagas €1 por cada contrato revisado en menos de 5 min."
- Solo cuando ya tienes datos para fijar el precio correcto.