05 · Modelo de negocio y monetización¶

Pricing, estructura de costos, break-even self-hosting, y los 4 argumentos de venta defensibles.

Pricing recomendado por categoría¶

Categoría	Modelo de pricing	Rango
API B2B (general)	Pay-per-call	$0.001-0.01/llamada
API B2B (premium vertical)	Suscripción + overage	€99-999/mes base + €0.05/sobre-uso
SaaS vertical PYME	Suscripción por puestos	€29-99/usuario/mes
Apps consumidor	Freemium → suscripción	€2.99-9.99/mes; o pago único €19-49
GovTech / Enterprise	Contrato anual	€10K-100K/año + setup
Herramientas dev	Suscripción / licencia	€15-49/dev/mes

Reglas heurísticas¶

B2B SaaS PYME: si tu producto ahorra 10× su precio en tiempo al cliente, el precio es justo.
APIs: cobra 2-3× tu costo marginal (incluyendo amortización de hardware/dev).
Apps consumer: freemium con límite real, no truco. Conversión esperada: 2-5%.
Enterprise: no vendas <€10K/año, no compensa el ciclo de venta.

Estructura de costos con Gemma local¶

Etapa 1 — Validación (0-50 clientes)¶

Servidor: M4 Pro como servidor → coste marginal $0.
Setup: ollama serve + FastAPI + Cloudflare Tunnel → API pública gratis.
Storage: ~50 GB para vectores y datos.
Total mensual: ~€10 (dominios + email + SSL).

Etapa 2 — Tracción (50-500 clientes)¶

Opción A: VPS dedicado con GPU - L4 / RTX 4090 en Hetzner GPU o Lambda Cloud: $300-500/mes. - Sostiene ~5M tokens/día con Gemma 4 26B-A4B.

Opción B: Mac Mini M4 Pro 48 GB como servidor headless - Hardware: ~$1,800 one-time. - Electricidad + internet: ~$50/mes. - Sostiene ~3M tokens/día con E4B + 1M con 26B-A4B.

Recomendación: Opción B si crees que tu producto va a durar 2+ años; Opción A si quieres flexibilidad.

Etapa 3 — Escala (>500 clientes)¶

A. Cloud Run con NIM - RTX PRO 6000 (Blackwell, 96 GB vGPU, serverless, scale-to-zero). - Regiones: us-central1 o europe-west4. - Pay-per-use, automatic scaling. - Ventaja: scale-to-zero, sin invertir en hardware.

B. Vertex AI Model Garden - 26B-A4B managed (anunciado en lanzamiento de Gemma 4). - Pricing predecible por TPS reservado.

C. Colocation propio (2× H100 SXM amortizado a 36 meses)

Concepto	Costo mensual
Hardware (2× H100, amortización)	~$1,000
Electricidad/colo (8U)	~$800
0.25 FTE ingeniero	~$4,000
Total	~$5,900/mes

Capacidad: ~5M tokens/día → $0.40/M tokens.

Comparación con GPT-4.1 al mismo volumen (según SitePoint TCO 2026): $7,500-15,000/mes.

Break-even: 6-7 meses desde el momento que sostienes 5M tokens/día.

Break-even self-hosting vs OpenAI (analysis)¶

VentureBeat ("OpenAI or DIY? Unveiling the true cost of self-hosting LLMs") calculó:

Para alcanzar $180/día en autohospedaje se necesitan ~22,2 millones de palabras diarias enviadas por la API (≈ 30M tokens). Eso es más de 74,000 páginas de datos, cada página de 300 palabras.

Regla práctica: - <2M tokens/día sostenidos → API es más barata. - 2-5M tokens/día → zona gris, depende de tu engineering cost. - >5M tokens/día sostenidos → self-hosting gana.

No te autohostees hasta llegar a 2-5M tokens/día sostenidos.

Los 4 argumentos de venta defensibles¶

1. Soberanía de datos¶

"Tus datos nunca salen de tu infraestructura."

Mata objeciones en: legal, salud, gobierno, finanzas. Apuesta más fuerte en: EU (DORA, AI Act, GDPR). Métrica: pregunta al cliente cuánto le cobraría su compliance officer "si subiéramos esto a OpenAI". La respuesta es tu precio piso.

2. Costo predecible¶

"Pagas $99/mes fijos, no $99 + $0.02/token con sorpresas."

Funciona porque: PYMES odian costos variables. CFOs quieren forecasting. Compara con: GPT-4 cuesta entre $30-3,000/mes a la misma empresa según uso. Tu cliente quiere previsibilidad.

3. Sin rate limits¶

"Tu cliente puede procesar 10K documentos un domingo si quiere."

Funciona porque: workflows reales tienen picos. Cierre fiscal, Black Friday, etc. OpenAI/Anthropic te tier-limitan; tú no.

4. Personalización profunda¶

"Fine-tuning sobre los datos del cliente sin enviar a terceros."

Es un moat real que la competencia API-wrapper no puede igualar. Implementación: Unsloth/LoRA local; entregable es un modelo derivado que sólo el cliente posee.

Modelo híbrido (recomendado para casi todo)¶

┌─────────────────────────────────────────────────┐
│   Query del usuario                              │
└──────────────────┬──────────────────────────────┘
                   │
        ┌──────────▼──────────┐
        │  Router (LiteLLM)   │
        └──────────┬──────────┘
                   │
       ┌───────────┼───────────┐
       │           │           │
       ▼           ▼           ▼
  [80% queries]  [15%]      [5%]
  Gemma 4 E4B   Gemma 4 31B  Gemini 3 /
  local         vía Google   Claude / GPT-5
                AI Studio    vía API
                (gratis)

Ahorro estimado: 1/10 del costo total vs all-API, manteniendo calidad equivalente o superior en lo importante.

Cuándo se justifica routing a API: - Query con >10K tokens de contexto. - Tarea agentic con >5 steps de tool-calling. - Generación de código complejo (>200 líneas). - Razonamiento matemático multi-step.

Métricas que monitorear¶

Métrica	Target inicial	Target mes 6
MRR	€0 → €3K	€15K
Churn mensual	<10%	<5%
CAC (cost of acquisition)	<€100	<€200
LTV (lifetime value)	>€500	>€2K
LTV/CAC ratio	>3	>5
Latencia p95 inferencia	<2s	<1s
Costo por respuesta	<€0.02	<€0.005
Trial → paid conversion	10%	20%+
NPS	>30	>50

Unit economics ejemplo (LegalTech, vertical 2)¶

Producto: Revisor de contratos PYME, €149/usuario/mes.

Concepto	Valor mensual
Revenue por cliente	€149
Costo de inferencia (300 contratos/mes × €0.005)	€1.50
Costo de hosting (parte alícuota)	€5
Costo de soporte	€15
Gross margin	€127.50 (85.5%)

Con 50 clientes: €7,450 MRR, €6,375 gross profit/mes. Con 200 clientes: €29,800 MRR, €25,500 gross profit/mes.

Justifica: contratar 1 customer success ($3K/mes) a los 50 clientes. Justifica: contratar 1 dev full-time ($6K/mes) a los 100 clientes.

Estrategias de pricing avanzadas¶

Land & expand (recomendado para SaaS PYME)¶

Trial 14 días sin tarjeta.
Plan inicial barato (€29/usuario) con un solo módulo.
Upgrade a Pro (€99) con módulos premium después de 30 días de uso.

Annual discount¶

20% descuento anual upfront. Mejora cash flow.

Founding members¶

Primeros 20 clientes: 50% off de por vida a cambio de testimonio + caso de estudio.

Outcome-based (avanzado, solo después de 100 clientes)¶

"Pagas €1 por cada contrato revisado en menos de 5 min."
Solo cuando ya tienes datos para fijar el precio correcto.