GEMMA4 — Commercial Product Playbook¶
Investigación, planificación y scaffolding para construir productos comerciales sobre la familia de modelos Gemma (foco en Gemma 4, mayo 2026).
TL;DR¶
- Gemma 4 existe desde el 2 de abril de 2026 bajo Apache 2.0 (cambio crítico vs Gemma 1-3). Tamaños: E2B, E4B, 26B-A4B (MoE) y 31B Dense, más 18+ variantes especializadas.
- M4 Pro 24 GB es óptimo para E4B (~57 tok/s) y E2B (~95 tok/s) vía Ollama. El 26B carga pero rinde mal; el 31B no entra — usar API gratuita de Google AI Studio o cloud.
- Estrategia: vertical estrecho (legal-PYME, e-commerce, reseñas, real-estate, contabilidad freelancers) + MVP local-first sobre Gemma 4 E4B + EmbeddingGemma + Qdrant/LanceDB, monetizado en SaaS €29-99/usuario/mes.
- Diferencial real: "datos nunca salen del dispositivo/servidor del cliente" → soberanía de datos como argumento de venta cuantificable en LegalTech, HealthTech, FinTech, GovTech.
Mapa del repositorio¶
GEMMA4/
├── README.md ← este archivo
├── LICENSE ← Apache 2.0
├── NOTICE ← atribuciones + restricciones de marca
├── .env.example ← plantilla de variables de entorno
├── .gitignore
│
├── docs/ ← documentación completa (10 secciones)
│ ├── 00-overview.md TL;DR ampliado + key findings
│ ├── 01-models-gemma4.md Estado de modelos Gemma (mayo 2026)
│ ├── 02-legal-commercial.md Análisis legal: Apache 2.0 vs Gemma ToU
│ ├── 03-hardware-m4pro.md Capacidades reales en M4 Pro 24 GB
│ ├── 04-product-ideas.md 30+ ideas comercializables por categoría
│ ├── 05-business-model.md Pricing, costos, diferenciación
│ ├── 06-tech-stack.md Stack recomendado (FastAPI + Ollama + ...)
│ ├── 07-alternatives.md Cuándo NO usar Gemma (Qwen, DeepSeek, etc.)
│ ├── 08-execution-plan.md Plan a 90 días con métricas
│ ├── 09-risks.md Riesgos y mitigaciones
│ └── 10-references.md Fuentes, enlaces, citas verificables
│
├── implementations/ ← scaffolding por idea de producto
│ ├── README.md índice priorizado de las 30+ ideas
│ ├── 01-doc-extraction-api/ extracción estructurada de documentos
│ ├── 02-legaltech-contracts/ revisión de contratos PYME español
│ ├── 03-reviews-analyzer/ análisis de reseñas para restaurantes
│ ├── 04-realestate-listings/ generador de anuncios inmobiliarios
│ ├── 05-meeting-summarizer/ resumen privado de reuniones
│ ├── 06-whatsapp-bot/ atención al cliente PYME por WhatsApp
│ ├── 07-finance-personal/ análisis de extractos bancarios
│ └── 08-code-review-bot/ code review self-hosted
│
├── stack/ ← componentes técnicos compartidos
│ ├── README.md
│ ├── docker-compose.yml Qdrant + Langfuse + Postgres
│ ├── backend/ FastAPI + LiteLLM (compartido por todas las implementations)
│ │ ├── pyproject.toml
│ │ ├── app/
│ │ │ ├── main.py punto de entrada
│ │ │ ├── inference.py wrapper de Ollama/LiteLLM
│ │ │ ├── rag.py Qdrant + EmbeddingGemma
│ │ │ ├── routes/
│ │ │ └── settings.py
│ │ └── tests/
│ └── frontend/ Next.js 15 starter (TBD por implementación)
│
├── scripts/ ← automatización
│ ├── setup.sh instala Ollama, pulls Gemma 4 + EmbeddingGemma
│ ├── bench.sh benchmark tok/s en M4 Pro
│ └── pull-models.sh descarga selectiva de variantes
│
├── benchmarks/ ← métricas reproducibles
│ ├── README.md
│ ├── m4-pro-24gb.md resultados verificados en este hardware
│ └── results-template.md plantilla para nuevos benchmarks
│
└── fine-tuning/ ← guía de fine-tuning local
├── README.md
├── unsloth-lora.md Unsloth + LoRA en M4 Pro
├── mlx-tune.md MLX-LM nativo Apple Silicon
└── datasets-format.md formato JSONL para fine-tune
Quick start¶
# 1. Setup base (15 min)
./scripts/setup.sh
# 2. Verifica inferencia local
ollama run gemma4:e4b --verbose "Hola, ¿cuántos tok/s alcanzas?"
# 3. Levanta stack auxiliar (Qdrant + Langfuse + Postgres)
docker compose -f stack/docker-compose.yml up -d
# 4. Backend (FastAPI + LiteLLM)
cd stack/backend
uv sync
uv run uvicorn app.main:app --reload
# 5. Verifica endpoint
curl http://localhost:8000/health
Detalles en stack/README.md.
Roadmap inmediato (90 días)¶
| Semana | Hito | Doc |
|---|---|---|
| 1 | Setup técnico + 10 entrevistas a clientes potenciales | 08-execution-plan.md |
| 2-4 | MVP del vertical elegido | implementations/ |
| 5-8 | 5 clientes beta + iteración + landing público | 05-business-model.md |
| 9-12 | Outbound + primeros ingresos (objetivo €1K-3K MRR) | 08-execution-plan.md |
Decisiones clave que están documentadas¶
| Decisión | Doc |
|---|---|
| ¿Por qué Gemma 4 y no Llama 4 / Qwen 3.5 / DeepSeek V4? | 02-legal-commercial.md y 07-alternatives.md |
| ¿Qué tamaño usar para qué (E2B vs E4B vs 26B vs 31B)? | 01-models-gemma4.md y 03-hardware-m4pro.md |
| ¿Ollama vs llama.cpp vs MLX-LM? | 06-tech-stack.md |
| ¿Cuándo dejar de auto-hostear y migrar a cloud? | 05-business-model.md |
| ¿Cómo pricing? | 05-business-model.md |
| ¿Qué vertical atacar primero? | 04-product-ideas.md y implementations/README.md |
Restricciones legales — léelas antes de lanzar¶
- No uses la marca "Gemma" como nombre de producto. "Powered by Gemma 4" sí es válido. Ver NOTICE.
- MedGemma, TxGemma, MedSigLIP NO son Apache 2.0 — usan HAI-DEF terms y no son clinical-grade. Ver 02-legal-commercial.md.
- Si fine-tuneas un modelo Gemma 1/2/3, las Prohibited Use Policy se transmiten a tus usuarios (flow-down obligatorio). Gemma 4 (Apache 2.0) no tiene esta cláusula.
- EU AI Act + GDPR: la mayoría de productos en este playbook caen en "riesgo limitado" (solo transparencia básica). Si tocas salud, biometría, scoring crediticio, RH automatizado o law enforcement, escala el análisis con un abogado. Ver 09-risks.md.
Estado del proyecto¶
- Fase actual: Planificación + scaffolding (sin código de producción aún).
- Hardware de desarrollo: Apple M4 Pro, 24 GB unified memory, macOS Darwin 24.6.
- Modelos confirmados localmente: pendiente — ejecuta
./scripts/setup.shpara descargarlos. - Próximo hito: elegir 1 vertical (ver implementations/README.md) y construir MVP.
Cómo contribuir / extender¶
Este es un repositorio personal/de equipo pequeño. Si lo abres a colaboradores:
- Fork → branch
feat/<nombre-feature>oimpl/<id-implementación>. - PR con descripción del cambio y referencia al doc relevante.
- Mantén la separación: investigación va en
docs/, código enstack/oimplementations/.