GEMMA4 — Commercial Product Playbook¶

Investigación, planificación y scaffolding para construir productos comerciales sobre la familia de modelos Gemma (foco en Gemma 4, mayo 2026).

TL;DR¶

Gemma 4 existe desde el 2 de abril de 2026 bajo Apache 2.0 (cambio crítico vs Gemma 1-3). Tamaños: E2B, E4B, 26B-A4B (MoE) y 31B Dense, más 18+ variantes especializadas.
M4 Pro 24 GB es óptimo para E4B (~57 tok/s) y E2B (~95 tok/s) vía Ollama. El 26B carga pero rinde mal; el 31B no entra — usar API gratuita de Google AI Studio o cloud.
Estrategia: vertical estrecho (legal-PYME, e-commerce, reseñas, real-estate, contabilidad freelancers) + MVP local-first sobre Gemma 4 E4B + EmbeddingGemma + Qdrant/LanceDB, monetizado en SaaS €29-99/usuario/mes.
Diferencial real: "datos nunca salen del dispositivo/servidor del cliente" → soberanía de datos como argumento de venta cuantificable en LegalTech, HealthTech, FinTech, GovTech.

Mapa del repositorio¶

GEMMA4/
├── README.md                ← este archivo
├── LICENSE                  ← Apache 2.0
├── NOTICE                   ← atribuciones + restricciones de marca
├── .env.example             ← plantilla de variables de entorno
├── .gitignore
│
├── docs/                    ← documentación completa (10 secciones)
│   ├── 00-overview.md           TL;DR ampliado + key findings
│   ├── 01-models-gemma4.md      Estado de modelos Gemma (mayo 2026)
│   ├── 02-legal-commercial.md   Análisis legal: Apache 2.0 vs Gemma ToU
│   ├── 03-hardware-m4pro.md     Capacidades reales en M4 Pro 24 GB
│   ├── 04-product-ideas.md      30+ ideas comercializables por categoría
│   ├── 05-business-model.md     Pricing, costos, diferenciación
│   ├── 06-tech-stack.md         Stack recomendado (FastAPI + Ollama + ...)
│   ├── 07-alternatives.md       Cuándo NO usar Gemma (Qwen, DeepSeek, etc.)
│   ├── 08-execution-plan.md     Plan a 90 días con métricas
│   ├── 09-risks.md              Riesgos y mitigaciones
│   └── 10-references.md         Fuentes, enlaces, citas verificables
│
├── implementations/         ← scaffolding por idea de producto
│   ├── README.md                índice priorizado de las 30+ ideas
│   ├── 01-doc-extraction-api/   extracción estructurada de documentos
│   ├── 02-legaltech-contracts/  revisión de contratos PYME español
│   ├── 03-reviews-analyzer/     análisis de reseñas para restaurantes
│   ├── 04-realestate-listings/  generador de anuncios inmobiliarios
│   ├── 05-meeting-summarizer/   resumen privado de reuniones
│   ├── 06-whatsapp-bot/         atención al cliente PYME por WhatsApp
│   ├── 07-finance-personal/     análisis de extractos bancarios
│   └── 08-code-review-bot/      code review self-hosted
│
├── stack/                   ← componentes técnicos compartidos
│   ├── README.md
│   ├── docker-compose.yml       Qdrant + Langfuse + Postgres
│   ├── backend/                 FastAPI + LiteLLM (compartido por todas las implementations)
│   │   ├── pyproject.toml
│   │   ├── app/
│   │   │   ├── main.py          punto de entrada
│   │   │   ├── inference.py     wrapper de Ollama/LiteLLM
│   │   │   ├── rag.py           Qdrant + EmbeddingGemma
│   │   │   ├── routes/
│   │   │   └── settings.py
│   │   └── tests/
│   └── frontend/                Next.js 15 starter (TBD por implementación)
│
├── scripts/                 ← automatización
│   ├── setup.sh                 instala Ollama, pulls Gemma 4 + EmbeddingGemma
│   ├── bench.sh                 benchmark tok/s en M4 Pro
│   └── pull-models.sh           descarga selectiva de variantes
│
├── benchmarks/              ← métricas reproducibles
│   ├── README.md
│   ├── m4-pro-24gb.md           resultados verificados en este hardware
│   └── results-template.md      plantilla para nuevos benchmarks
│
└── fine-tuning/             ← guía de fine-tuning local
    ├── README.md
    ├── unsloth-lora.md          Unsloth + LoRA en M4 Pro
    ├── mlx-tune.md              MLX-LM nativo Apple Silicon
    └── datasets-format.md       formato JSONL para fine-tune

Quick start¶

# 1. Setup base (15 min)
./scripts/setup.sh

# 2. Verifica inferencia local
ollama run gemma4:e4b --verbose "Hola, ¿cuántos tok/s alcanzas?"

# 3. Levanta stack auxiliar (Qdrant + Langfuse + Postgres)
docker compose -f stack/docker-compose.yml up -d

# 4. Backend (FastAPI + LiteLLM)
cd stack/backend
uv sync
uv run uvicorn app.main:app --reload

# 5. Verifica endpoint
curl http://localhost:8000/health

Detalles en stack/README.md.

Roadmap inmediato (90 días)¶

Semana	Hito	Doc
1	Setup técnico + 10 entrevistas a clientes potenciales	08-execution-plan.md
2-4	MVP del vertical elegido	implementations/
5-8	5 clientes beta + iteración + landing público	05-business-model.md
9-12	Outbound + primeros ingresos (objetivo €1K-3K MRR)	08-execution-plan.md

Decisiones clave que están documentadas¶

Decisión	Doc
¿Por qué Gemma 4 y no Llama 4 / Qwen 3.5 / DeepSeek V4?	02-legal-commercial.md y 07-alternatives.md
¿Qué tamaño usar para qué (E2B vs E4B vs 26B vs 31B)?	01-models-gemma4.md y 03-hardware-m4pro.md
¿Ollama vs llama.cpp vs MLX-LM?	06-tech-stack.md
¿Cuándo dejar de auto-hostear y migrar a cloud?	05-business-model.md
¿Cómo pricing?	05-business-model.md
¿Qué vertical atacar primero?	04-product-ideas.md y implementations/README.md

Restricciones legales — léelas antes de lanzar¶

No uses la marca "Gemma" como nombre de producto. "Powered by Gemma 4" sí es válido. Ver NOTICE.
MedGemma, TxGemma, MedSigLIP NO son Apache 2.0 — usan HAI-DEF terms y no son clinical-grade. Ver 02-legal-commercial.md.
Si fine-tuneas un modelo Gemma 1/2/3, las Prohibited Use Policy se transmiten a tus usuarios (flow-down obligatorio). Gemma 4 (Apache 2.0) no tiene esta cláusula.
EU AI Act + GDPR: la mayoría de productos en este playbook caen en "riesgo limitado" (solo transparencia básica). Si tocas salud, biometría, scoring crediticio, RH automatizado o law enforcement, escala el análisis con un abogado. Ver 09-risks.md.

Estado del proyecto¶

Fase actual: Planificación + scaffolding (sin código de producción aún).
Hardware de desarrollo: Apple M4 Pro, 24 GB unified memory, macOS Darwin 24.6.
Modelos confirmados localmente: pendiente — ejecuta ./scripts/setup.sh para descargarlos.
Próximo hito: elegir 1 vertical (ver implementations/README.md) y construir MVP.

Cómo contribuir / extender¶

Este es un repositorio personal/de equipo pequeño. Si lo abres a colaboradores:

Fork → branch feat/<nombre-feature> o impl/<id-implementación>.
PR con descripción del cambio y referencia al doc relevante.
Mantén la separación: investigación va en docs/, código en stack/ o implementations/.

Licencia¶

Apache 2.0 — ver LICENSE y NOTICE.