Saltar a contenido

05 · Modelo de negocio y monetización

Pricing, estructura de costos, break-even self-hosting, y los 4 argumentos de venta defensibles.


Pricing recomendado por categoría

Categoría Modelo de pricing Rango
API B2B (general) Pay-per-call $0.001-0.01/llamada
API B2B (premium vertical) Suscripción + overage €99-999/mes base + €0.05/sobre-uso
SaaS vertical PYME Suscripción por puestos €29-99/usuario/mes
Apps consumidor Freemium → suscripción €2.99-9.99/mes; o pago único €19-49
GovTech / Enterprise Contrato anual €10K-100K/año + setup
Herramientas dev Suscripción / licencia €15-49/dev/mes

Reglas heurísticas

  • B2B SaaS PYME: si tu producto ahorra 10× su precio en tiempo al cliente, el precio es justo.
  • APIs: cobra 2-3× tu costo marginal (incluyendo amortización de hardware/dev).
  • Apps consumer: freemium con límite real, no truco. Conversión esperada: 2-5%.
  • Enterprise: no vendas <€10K/año, no compensa el ciclo de venta.

Estructura de costos con Gemma local

Etapa 1 — Validación (0-50 clientes)

  • Servidor: M4 Pro como servidor → coste marginal $0.
  • Setup: ollama serve + FastAPI + Cloudflare Tunnel → API pública gratis.
  • Storage: ~50 GB para vectores y datos.
  • Total mensual: ~€10 (dominios + email + SSL).

Etapa 2 — Tracción (50-500 clientes)

Opción A: VPS dedicado con GPU - L4 / RTX 4090 en Hetzner GPU o Lambda Cloud: $300-500/mes. - Sostiene ~5M tokens/día con Gemma 4 26B-A4B.

Opción B: Mac Mini M4 Pro 48 GB como servidor headless - Hardware: ~$1,800 one-time. - Electricidad + internet: ~$50/mes. - Sostiene ~3M tokens/día con E4B + 1M con 26B-A4B.

Recomendación: Opción B si crees que tu producto va a durar 2+ años; Opción A si quieres flexibilidad.

Etapa 3 — Escala (>500 clientes)

A. Cloud Run con NIM - RTX PRO 6000 (Blackwell, 96 GB vGPU, serverless, scale-to-zero). - Regiones: us-central1 o europe-west4. - Pay-per-use, automatic scaling. - Ventaja: scale-to-zero, sin invertir en hardware.

B. Vertex AI Model Garden - 26B-A4B managed (anunciado en lanzamiento de Gemma 4). - Pricing predecible por TPS reservado.

C. Colocation propio (2× H100 SXM amortizado a 36 meses)

Concepto Costo mensual
Hardware (2× H100, amortización) ~$1,000
Electricidad/colo (8U) ~$800
0.25 FTE ingeniero ~$4,000
Total ~$5,900/mes

Capacidad: ~5M tokens/día → $0.40/M tokens.

Comparación con GPT-4.1 al mismo volumen (según SitePoint TCO 2026): $7,500-15,000/mes.

Break-even: 6-7 meses desde el momento que sostienes 5M tokens/día.


Break-even self-hosting vs OpenAI (analysis)

VentureBeat ("OpenAI or DIY? Unveiling the true cost of self-hosting LLMs") calculó:

Para alcanzar $180/día en autohospedaje se necesitan ~22,2 millones de palabras diarias enviadas por la API (≈ 30M tokens). Eso es más de 74,000 páginas de datos, cada página de 300 palabras.

Regla práctica: - <2M tokens/día sostenidos → API es más barata. - 2-5M tokens/día → zona gris, depende de tu engineering cost. - >5M tokens/día sostenidos → self-hosting gana.

No te autohostees hasta llegar a 2-5M tokens/día sostenidos.


Los 4 argumentos de venta defensibles

1. Soberanía de datos

"Tus datos nunca salen de tu infraestructura."

Mata objeciones en: legal, salud, gobierno, finanzas. Apuesta más fuerte en: EU (DORA, AI Act, GDPR). Métrica: pregunta al cliente cuánto le cobraría su compliance officer "si subiéramos esto a OpenAI". La respuesta es tu precio piso.

2. Costo predecible

"Pagas $99/mes fijos, no $99 + $0.02/token con sorpresas."

Funciona porque: PYMES odian costos variables. CFOs quieren forecasting. Compara con: GPT-4 cuesta entre $30-3,000/mes a la misma empresa según uso. Tu cliente quiere previsibilidad.

3. Sin rate limits

"Tu cliente puede procesar 10K documentos un domingo si quiere."

Funciona porque: workflows reales tienen picos. Cierre fiscal, Black Friday, etc. OpenAI/Anthropic te tier-limitan; tú no.

4. Personalización profunda

"Fine-tuning sobre los datos del cliente sin enviar a terceros."

Es un moat real que la competencia API-wrapper no puede igualar. Implementación: Unsloth/LoRA local; entregable es un modelo derivado que sólo el cliente posee.


Modelo híbrido (recomendado para casi todo)

┌─────────────────────────────────────────────────┐
│   Query del usuario                              │
└──────────────────┬──────────────────────────────┘
        ┌──────────▼──────────┐
        │  Router (LiteLLM)   │
        └──────────┬──────────┘
       ┌───────────┼───────────┐
       │           │           │
       ▼           ▼           ▼
  [80% queries]  [15%]      [5%]
  Gemma 4 E4B   Gemma 4 31B  Gemini 3 /
  local         vía Google   Claude / GPT-5
                AI Studio    vía API
                (gratis)

Ahorro estimado: 1/10 del costo total vs all-API, manteniendo calidad equivalente o superior en lo importante.

Cuándo se justifica routing a API: - Query con >10K tokens de contexto. - Tarea agentic con >5 steps de tool-calling. - Generación de código complejo (>200 líneas). - Razonamiento matemático multi-step.


Métricas que monitorear

Métrica Target inicial Target mes 6
MRR €0 → €3K €15K
Churn mensual <10% <5%
CAC (cost of acquisition) <€100 <€200
LTV (lifetime value) >€500 >€2K
LTV/CAC ratio >3 >5
Latencia p95 inferencia <2s <1s
Costo por respuesta <€0.02 <€0.005
Trial → paid conversion 10% 20%+
NPS >30 >50

Unit economics ejemplo (LegalTech, vertical 2)

Producto: Revisor de contratos PYME, €149/usuario/mes.

Concepto Valor mensual
Revenue por cliente €149
Costo de inferencia (300 contratos/mes × €0.005) €1.50
Costo de hosting (parte alícuota) €5
Costo de soporte €15
Gross margin €127.50 (85.5%)

Con 50 clientes: €7,450 MRR, €6,375 gross profit/mes. Con 200 clientes: €29,800 MRR, €25,500 gross profit/mes.

Justifica: contratar 1 customer success ($3K/mes) a los 50 clientes. Justifica: contratar 1 dev full-time ($6K/mes) a los 100 clientes.


Estrategias de pricing avanzadas

Land & expand (recomendado para SaaS PYME)

  • Trial 14 días sin tarjeta.
  • Plan inicial barato (€29/usuario) con un solo módulo.
  • Upgrade a Pro (€99) con módulos premium después de 30 días de uso.

Annual discount

  • 20% descuento anual upfront. Mejora cash flow.

Founding members

  • Primeros 20 clientes: 50% off de por vida a cambio de testimonio + caso de estudio.

Outcome-based (avanzado, solo después de 100 clientes)

  • "Pagas €1 por cada contrato revisado en menos de 5 min."
  • Solo cuando ya tienes datos para fijar el precio correcto.