07 · Alternativas y cuándo NO usar Gemma¶
No todo es Gemma. Aquí cuándo deberías considerar Qwen, DeepSeek, Llama, Mistral o Phi.
Matriz de decisión rápida¶
| Caso | Mejor opción | Razón |
|---|---|---|
| Necesitas mejor SWE-Bench (agentic coding sobre repos reales) | Qwen 3.5 27B o DeepSeek V4 | Gemma 4 SWE-Bench: 52.0%; DeepSeek V4-Pro: 80.6% |
| Contexto >256K | Llama 4 Scout (10M) o cloud API | Gemma 4 max 256K |
| Compliance EU estricto sin nube no-EU | Mistral Small/Medium 3.5 | Soberanía europea |
| Tareas matemáticas y reasoning puro | Gemma 4 31B o DeepSeek V4 | Gemma 4 lidera AIME 2026 (89.2%) |
| Modelo aún más pequeño (móvil gama baja) | Phi-4 mini o Gemma 4 E2B | Optimización por chip |
| Multilingüe extremo (140+ idiomas) | Gemma 4 | Lidera la categoría |
| Multimodal con audio en edge | Gemma 4 E2B/E4B | Único en su clase |
| Risk legal de cambios futuros | Mistral Apache o DeepSeek MIT | Históricamente más predecibles |
Comparativa cuantitativa (mayo 2026)¶
Benchmarks de razonamiento¶
| Modelo | MMLU-Pro | AIME 2026 | GPQA Diamond | SWE-Bench |
|---|---|---|---|---|
| Gemma 4 31B | 85.2% | 89.2% | 84.3% | 52.0% |
| Gemma 4 26B-A4B | 82.1% | 84.5% | 80.7% | 48.3% |
| DeepSeek V4-Pro | 86.9% | 87.4% | 85.1% | 80.6% |
| Qwen 3.5 27B | 84.7% | 85.2% | 82.9% | 75.4% |
| Llama 4 70B | 83.9% | 81.6% | 80.2% | 68.1% |
| Phi-4 14B | 79.3% | 76.8% | 73.5% | 51.2% |
| Mistral Medium 3.5 | 81.4% | 78.9% | 77.1% | 60.3% |
Nota: rankings de "mejor modelo para X" en blogs de mayo 2026 muestran inconsistencias. Lushbinary.com reporta DeepSeek V4 (full) en 83.7% SWE-Bench, mientras buildfastwithai.com cita V4-Pro en 80.6%. Si tu producto es agentic coding sobre repos reales, considera Qwen 3.5 27B o DeepSeek V4 vía API.
Benchmarks de eficiencia (M4 Pro 24 GB Q4_K_M)¶
| Modelo | Tok/s | Memoria | Contexto máx |
|---|---|---|---|
| Gemma 4 E2B | 95 | 4 GB | 128K |
| Gemma 4 E4B | 57 | 5.5 GB | 128K |
| Qwen 3.5 4B | 62 | 5 GB | 128K |
| Phi-4 mini 3.8B | 78 | 4.5 GB | 64K |
| Mistral Small 3.5 (12B) | 32 | 9 GB | 32K |
| DeepSeek V4 4B-Distill | 70 | 5 GB | 128K |
Análisis por modelo¶
Qwen 3.5 (Apache 2.0)¶
Pros: - Excelente en agentic coding (SWE-Bench 75-80%+). - Apache 2.0 sin cláusulas de scale. - Soporte multilingüe muy fuerte, especialmente chino + inglés. - Variantes 4B/7B/14B/27B/72B/110B con buena escalabilidad.
Contras: - Multimodal menos pulido que Gemma 4. - Sin audio nativo.
Cuándo elegirlo sobre Gemma 4: - Producto: dev tools, code assistants, herramientas de migración. - Mercados chino/asiático con mejor cobertura cultural.
DeepSeek V4 (MIT)¶
Pros: - Mejor SWE-Bench del lote open (80.6% V4-Pro). - MIT — licencia más permisiva que Apache 2.0 (sin requisitos de NOTICE). - Razonamiento mathematical muy sólido.
Contras: - Modelo base muy grande (V4-Pro es 671B MoE total) — solo viable vía API o cluster. - Sin tier "E4B-equivalente" para edge. - Soporte de idiomas menores más limitado.
Cuándo elegirlo sobre Gemma 4: - Backend de agentic coding tools (route queries de código a DeepSeek vía API). - Razonamiento matemático/científico puro.
Llama 4 (Meta Community License)¶
Pros: - Contextos extremos (Scout: 10M tokens). - Ecosistema enorme (HF, vLLM, llama.cpp todo first-class). - Variants Llama 4 Maverick (~400B sparse MoE) muy competente.
Contras: - Restricción de 700M MAU dispara licencia adicional "a discreción de Meta". - Sin audio multimodal. - Atribución "Built with Llama" obligatoria. - ⚠️ No usable para entrenar otros LLMs (clausula).
Cuándo elegirlo sobre Gemma 4: - Tu producto necesita >256K contexto (análisis de codebases enteros, libros). - Estás bajo 700M MAU (válido para 99.9% de startups).
Mistral (variantes)¶
Pros: - EU-based — apuesta de soberanía europea natural. - Mistral 7B y Small 3.5 son Apache 2.0. - Buena performance/eficiencia.
Contras: - Mistral Large y otros premium tienen MRL custom (acuerdo requerido). - Multimodal débil. - Sin audio nativo.
Cuándo elegirlo sobre Gemma 4: - Cliente EU exige proveedor de modelo europeo (DORA, AI Act narrativa nacional). - Producto B2B EU enterprise donde "Made in Europe" es argumento.
Phi-4 (MIT)¶
Pros: - Muy pequeño (Phi-4 mini 3.8B) → ideal edge móvil. - MIT, libre como aire. - Microsoft mantiene activamente.
Contras: - Calidad notablemente menor que Gemma 4 E4B en tareas multilingües no-inglés. - Multimodal limitado. - Sin audio.
Cuándo elegirlo sobre Gemma 4: - App móvil que necesita <2 GB de memoria para el modelo. - Producto solo en inglés.
Estrategia multimodelo (recomendada)¶
No te cases con un solo modelo. Usa LiteLLM como abstracción:
# Default: Gemma 4 E4B local
default_model = "ollama/gemma4:e4b"
# Override por tipo de tarea
TASK_MODELS = {
"code_review": "deepseek/v4-pro", # mejor SWE-Bench
"translate_legal": "ollama/translategemma-12b",
"math_proof": "google/gemma-4-31b", # mejor AIME
"general_eu_b2b": "mistral/medium-3.5", # narrativa EU
"default": "ollama/gemma4:e4b",
}
Recomendación final¶
Caballo de batalla por defecto: Gemma 4 E4B local + 31B vía API.
Plan B según vertical:
| Vertical | Plan A | Plan B |
|---|---|---|
| LegalTech | Gemma 4 E4B + RAG | Mistral Small 3.5 (narrativa EU) |
| HealthTech (wellness) | Gemma 4 E4B | MedGemma (con validación) |
| Code review / dev tools | Gemma 4 E4B local + DeepSeek V4 API | Qwen 3.5 27B local |
| Multilingüe (140+ idiomas) | Gemma 4 | TranslateGemma 27B |
| Móvil/edge | Gemma 4 E2B | Phi-4 mini |
| Análisis de codebases enteros | Llama 4 Scout (10M ctx) vía API | Gemma 4 31B + chunking |
¿Cuándo migrar de modelo?¶
Re-evalúa una vez por trimestre o cuando:
- Sale un modelo que supera tu eval set en >10% absoluto.
- La licencia del modelo actual cambia desfavorablemente.
- Tu unit economics se degrada por >20% (modelo lento/caro).
Costo de migración con LiteLLM: - Cambio de modelo: 1 línea de código. - Re-fine-tune si tienes LoRA: 2-8 horas + cloud GPU. - Re-validación de evals: 1-3 días.
Conclusión: tu moat es fine-tune + datos del cliente + workflow, no el modelo base.