Saltar a contenido

GEMMA4 — Commercial Product Playbook

Investigación, planificación y scaffolding para construir productos comerciales sobre la familia de modelos Gemma (foco en Gemma 4, mayo 2026).

License: Apache 2.0 Status: Planning Hardware: M4 Pro 24GB


TL;DR

  • Gemma 4 existe desde el 2 de abril de 2026 bajo Apache 2.0 (cambio crítico vs Gemma 1-3). Tamaños: E2B, E4B, 26B-A4B (MoE) y 31B Dense, más 18+ variantes especializadas.
  • M4 Pro 24 GB es óptimo para E4B (~57 tok/s) y E2B (~95 tok/s) vía Ollama. El 26B carga pero rinde mal; el 31B no entra — usar API gratuita de Google AI Studio o cloud.
  • Estrategia: vertical estrecho (legal-PYME, e-commerce, reseñas, real-estate, contabilidad freelancers) + MVP local-first sobre Gemma 4 E4B + EmbeddingGemma + Qdrant/LanceDB, monetizado en SaaS €29-99/usuario/mes.
  • Diferencial real: "datos nunca salen del dispositivo/servidor del cliente" → soberanía de datos como argumento de venta cuantificable en LegalTech, HealthTech, FinTech, GovTech.

Mapa del repositorio

GEMMA4/
├── README.md                ← este archivo
├── LICENSE                  ← Apache 2.0
├── NOTICE                   ← atribuciones + restricciones de marca
├── .env.example             ← plantilla de variables de entorno
├── .gitignore
├── docs/                    ← documentación completa (10 secciones)
│   ├── 00-overview.md           TL;DR ampliado + key findings
│   ├── 01-models-gemma4.md      Estado de modelos Gemma (mayo 2026)
│   ├── 02-legal-commercial.md   Análisis legal: Apache 2.0 vs Gemma ToU
│   ├── 03-hardware-m4pro.md     Capacidades reales en M4 Pro 24 GB
│   ├── 04-product-ideas.md      30+ ideas comercializables por categoría
│   ├── 05-business-model.md     Pricing, costos, diferenciación
│   ├── 06-tech-stack.md         Stack recomendado (FastAPI + Ollama + ...)
│   ├── 07-alternatives.md       Cuándo NO usar Gemma (Qwen, DeepSeek, etc.)
│   ├── 08-execution-plan.md     Plan a 90 días con métricas
│   ├── 09-risks.md              Riesgos y mitigaciones
│   └── 10-references.md         Fuentes, enlaces, citas verificables
├── implementations/         ← scaffolding por idea de producto
│   ├── README.md                índice priorizado de las 30+ ideas
│   ├── 01-doc-extraction-api/   extracción estructurada de documentos
│   ├── 02-legaltech-contracts/  revisión de contratos PYME español
│   ├── 03-reviews-analyzer/     análisis de reseñas para restaurantes
│   ├── 04-realestate-listings/  generador de anuncios inmobiliarios
│   ├── 05-meeting-summarizer/   resumen privado de reuniones
│   ├── 06-whatsapp-bot/         atención al cliente PYME por WhatsApp
│   ├── 07-finance-personal/     análisis de extractos bancarios
│   └── 08-code-review-bot/      code review self-hosted
├── stack/                   ← componentes técnicos compartidos
│   ├── README.md
│   ├── docker-compose.yml       Qdrant + Langfuse + Postgres
│   ├── backend/                 FastAPI + LiteLLM (compartido por todas las implementations)
│   │   ├── pyproject.toml
│   │   ├── app/
│   │   │   ├── main.py          punto de entrada
│   │   │   ├── inference.py     wrapper de Ollama/LiteLLM
│   │   │   ├── rag.py           Qdrant + EmbeddingGemma
│   │   │   ├── routes/
│   │   │   └── settings.py
│   │   └── tests/
│   └── frontend/                Next.js 15 starter (TBD por implementación)
├── scripts/                 ← automatización
│   ├── setup.sh                 instala Ollama, pulls Gemma 4 + EmbeddingGemma
│   ├── bench.sh                 benchmark tok/s en M4 Pro
│   └── pull-models.sh           descarga selectiva de variantes
├── benchmarks/              ← métricas reproducibles
│   ├── README.md
│   ├── m4-pro-24gb.md           resultados verificados en este hardware
│   └── results-template.md      plantilla para nuevos benchmarks
└── fine-tuning/             ← guía de fine-tuning local
    ├── README.md
    ├── unsloth-lora.md          Unsloth + LoRA en M4 Pro
    ├── mlx-tune.md              MLX-LM nativo Apple Silicon
    └── datasets-format.md       formato JSONL para fine-tune

Quick start

# 1. Setup base (15 min)
./scripts/setup.sh

# 2. Verifica inferencia local
ollama run gemma4:e4b --verbose "Hola, ¿cuántos tok/s alcanzas?"

# 3. Levanta stack auxiliar (Qdrant + Langfuse + Postgres)
docker compose -f stack/docker-compose.yml up -d

# 4. Backend (FastAPI + LiteLLM)
cd stack/backend
uv sync
uv run uvicorn app.main:app --reload

# 5. Verifica endpoint
curl http://localhost:8000/health

Detalles en stack/README.md.


Roadmap inmediato (90 días)

Semana Hito Doc
1 Setup técnico + 10 entrevistas a clientes potenciales 08-execution-plan.md
2-4 MVP del vertical elegido implementations/
5-8 5 clientes beta + iteración + landing público 05-business-model.md
9-12 Outbound + primeros ingresos (objetivo €1K-3K MRR) 08-execution-plan.md

Decisiones clave que están documentadas

Decisión Doc
¿Por qué Gemma 4 y no Llama 4 / Qwen 3.5 / DeepSeek V4? 02-legal-commercial.md y 07-alternatives.md
¿Qué tamaño usar para qué (E2B vs E4B vs 26B vs 31B)? 01-models-gemma4.md y 03-hardware-m4pro.md
¿Ollama vs llama.cpp vs MLX-LM? 06-tech-stack.md
¿Cuándo dejar de auto-hostear y migrar a cloud? 05-business-model.md
¿Cómo pricing? 05-business-model.md
¿Qué vertical atacar primero? 04-product-ideas.md y implementations/README.md

Restricciones legales — léelas antes de lanzar

  1. No uses la marca "Gemma" como nombre de producto. "Powered by Gemma 4" sí es válido. Ver NOTICE.
  2. MedGemma, TxGemma, MedSigLIP NO son Apache 2.0 — usan HAI-DEF terms y no son clinical-grade. Ver 02-legal-commercial.md.
  3. Si fine-tuneas un modelo Gemma 1/2/3, las Prohibited Use Policy se transmiten a tus usuarios (flow-down obligatorio). Gemma 4 (Apache 2.0) no tiene esta cláusula.
  4. EU AI Act + GDPR: la mayoría de productos en este playbook caen en "riesgo limitado" (solo transparencia básica). Si tocas salud, biometría, scoring crediticio, RH automatizado o law enforcement, escala el análisis con un abogado. Ver 09-risks.md.

Estado del proyecto

  • Fase actual: Planificación + scaffolding (sin código de producción aún).
  • Hardware de desarrollo: Apple M4 Pro, 24 GB unified memory, macOS Darwin 24.6.
  • Modelos confirmados localmente: pendiente — ejecuta ./scripts/setup.sh para descargarlos.
  • Próximo hito: elegir 1 vertical (ver implementations/README.md) y construir MVP.

Cómo contribuir / extender

Este es un repositorio personal/de equipo pequeño. Si lo abres a colaboradores:

  1. Fork → branch feat/<nombre-feature> o impl/<id-implementación>.
  2. PR con descripción del cambio y referencia al doc relevante.
  3. Mantén la separación: investigación va en docs/, código en stack/ o implementations/.

Licencia

Apache 2.0 — ver LICENSE y NOTICE.