07 · Alternativas y cuándo NO usar Gemma¶

No todo es Gemma. Aquí cuándo deberías considerar Qwen, DeepSeek, Llama, Mistral o Phi.

Matriz de decisión rápida¶

Caso	Mejor opción	Razón
Necesitas mejor SWE-Bench (agentic coding sobre repos reales)	Qwen 3.5 27B o DeepSeek V4	Gemma 4 SWE-Bench: 52.0%; DeepSeek V4-Pro: 80.6%
Contexto >256K	Llama 4 Scout (10M) o cloud API	Gemma 4 max 256K
Compliance EU estricto sin nube no-EU	Mistral Small/Medium 3.5	Soberanía europea
Tareas matemáticas y reasoning puro	Gemma 4 31B o DeepSeek V4	Gemma 4 lidera AIME 2026 (89.2%)
Modelo aún más pequeño (móvil gama baja)	Phi-4 mini o Gemma 4 E2B	Optimización por chip
Multilingüe extremo (140+ idiomas)	Gemma 4	Lidera la categoría
Multimodal con audio en edge	Gemma 4 E2B/E4B	Único en su clase
Risk legal de cambios futuros	Mistral Apache o DeepSeek MIT	Históricamente más predecibles

Comparativa cuantitativa (mayo 2026)¶

Benchmarks de razonamiento¶

Modelo	MMLU-Pro	AIME 2026	GPQA Diamond	SWE-Bench
Gemma 4 31B	85.2%	89.2%	84.3%	52.0%
Gemma 4 26B-A4B	82.1%	84.5%	80.7%	48.3%
DeepSeek V4-Pro	86.9%	87.4%	85.1%	80.6%
Qwen 3.5 27B	84.7%	85.2%	82.9%	75.4%
Llama 4 70B	83.9%	81.6%	80.2%	68.1%
Phi-4 14B	79.3%	76.8%	73.5%	51.2%
Mistral Medium 3.5	81.4%	78.9%	77.1%	60.3%

Nota: rankings de "mejor modelo para X" en blogs de mayo 2026 muestran inconsistencias. Lushbinary.com reporta DeepSeek V4 (full) en 83.7% SWE-Bench, mientras buildfastwithai.com cita V4-Pro en 80.6%. Si tu producto es agentic coding sobre repos reales, considera Qwen 3.5 27B o DeepSeek V4 vía API.

Benchmarks de eficiencia (M4 Pro 24 GB Q4_K_M)¶

Modelo	Tok/s	Memoria	Contexto máx
Gemma 4 E2B	95	4 GB	128K
Gemma 4 E4B	57	5.5 GB	128K
Qwen 3.5 4B	62	5 GB	128K
Phi-4 mini 3.8B	78	4.5 GB	64K
Mistral Small 3.5 (12B)	32	9 GB	32K
DeepSeek V4 4B-Distill	70	5 GB	128K

Análisis por modelo¶

Qwen 3.5 (Apache 2.0)¶

Pros: - Excelente en agentic coding (SWE-Bench 75-80%+). - Apache 2.0 sin cláusulas de scale. - Soporte multilingüe muy fuerte, especialmente chino + inglés. - Variantes 4B/7B/14B/27B/72B/110B con buena escalabilidad.

Contras: - Multimodal menos pulido que Gemma 4. - Sin audio nativo.

Cuándo elegirlo sobre Gemma 4: - Producto: dev tools, code assistants, herramientas de migración. - Mercados chino/asiático con mejor cobertura cultural.

DeepSeek V4 (MIT)¶

Pros: - Mejor SWE-Bench del lote open (80.6% V4-Pro). - MIT — licencia más permisiva que Apache 2.0 (sin requisitos de NOTICE). - Razonamiento mathematical muy sólido.

Contras: - Modelo base muy grande (V4-Pro es 671B MoE total) — solo viable vía API o cluster. - Sin tier "E4B-equivalente" para edge. - Soporte de idiomas menores más limitado.

Cuándo elegirlo sobre Gemma 4: - Backend de agentic coding tools (route queries de código a DeepSeek vía API). - Razonamiento matemático/científico puro.

Llama 4 (Meta Community License)¶

Pros: - Contextos extremos (Scout: 10M tokens). - Ecosistema enorme (HF, vLLM, llama.cpp todo first-class). - Variants Llama 4 Maverick (~400B sparse MoE) muy competente.

Contras: - Restricción de 700M MAU dispara licencia adicional "a discreción de Meta". - Sin audio multimodal. - Atribución "Built with Llama" obligatoria. - ⚠️ No usable para entrenar otros LLMs (clausula).

Cuándo elegirlo sobre Gemma 4: - Tu producto necesita >256K contexto (análisis de codebases enteros, libros). - Estás bajo 700M MAU (válido para 99.9% de startups).

Mistral (variantes)¶

Pros: - EU-based — apuesta de soberanía europea natural. - Mistral 7B y Small 3.5 son Apache 2.0. - Buena performance/eficiencia.

Contras: - Mistral Large y otros premium tienen MRL custom (acuerdo requerido). - Multimodal débil. - Sin audio nativo.

Cuándo elegirlo sobre Gemma 4: - Cliente EU exige proveedor de modelo europeo (DORA, AI Act narrativa nacional). - Producto B2B EU enterprise donde "Made in Europe" es argumento.

Phi-4 (MIT)¶

Pros: - Muy pequeño (Phi-4 mini 3.8B) → ideal edge móvil. - MIT, libre como aire. - Microsoft mantiene activamente.

Contras: - Calidad notablemente menor que Gemma 4 E4B en tareas multilingües no-inglés. - Multimodal limitado. - Sin audio.

Cuándo elegirlo sobre Gemma 4: - App móvil que necesita <2 GB de memoria para el modelo. - Producto solo en inglés.

Estrategia multimodelo (recomendada)¶

No te cases con un solo modelo. Usa LiteLLM como abstracción:

# Default: Gemma 4 E4B local
default_model = "ollama/gemma4:e4b"

# Override por tipo de tarea
TASK_MODELS = {
    "code_review": "deepseek/v4-pro",       # mejor SWE-Bench
    "translate_legal": "ollama/translategemma-12b",
    "math_proof": "google/gemma-4-31b",     # mejor AIME
    "general_eu_b2b": "mistral/medium-3.5", # narrativa EU
    "default": "ollama/gemma4:e4b",
}

Recomendación final¶

Caballo de batalla por defecto: Gemma 4 E4B local + 31B vía API.

Plan B según vertical:

Vertical	Plan A	Plan B
LegalTech	Gemma 4 E4B + RAG	Mistral Small 3.5 (narrativa EU)
HealthTech (wellness)	Gemma 4 E4B	MedGemma (con validación)
Code review / dev tools	Gemma 4 E4B local + DeepSeek V4 API	Qwen 3.5 27B local
Multilingüe (140+ idiomas)	Gemma 4	TranslateGemma 27B
Móvil/edge	Gemma 4 E2B	Phi-4 mini
Análisis de codebases enteros	Llama 4 Scout (10M ctx) vía API	Gemma 4 31B + chunking

¿Cuándo migrar de modelo?¶

Re-evalúa una vez por trimestre o cuando:

Sale un modelo que supera tu eval set en >10% absoluto.
La licencia del modelo actual cambia desfavorablemente.
Tu unit economics se degrada por >20% (modelo lento/caro).

Costo de migración con LiteLLM: - Cambio de modelo: 1 línea de código. - Re-fine-tune si tienes LoRA: 2-8 horas + cloud GPU. - Re-validación de evals: 1-3 días.

Conclusión: tu moat es fine-tune + datos del cliente + workflow, no el modelo base.