Benchmark — [MODEL NAME]¶
Date: YYYY-MM-DD Host: hostname OS: macOS / Linux + version Chip: Apple M4 Pro / RTX 4090 / etc. Memory: XX GB Ollama: x.y.z llama.cpp: commit hash MLX-LM: x.y.z
Setup¶
# Comandos exactos para reproducir
OLLAMA_FLASH_ATTENTION=1 OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve
./scripts/bench.sh gemma4:e4b 20
Results¶
| # | Prompt | Tokens out | Latency (s) | tok/s |
|---|---|---|---|---|
| 1 | "Hola, ¿qué tal?" | 25 | 0.45 | 55.5 |
| 2 | ... |
Summary¶
- Total queries: 20
- Total tokens: NNNN
- Average tok/s: XX.X
- p50 latency: X.X s
- p95 latency: X.X s
- Memoria pico: X.X GB
- TTFT: XXX ms
Observaciones¶
- [ ] El modelo se mantiene cargado entre queries.
- [ ] Memoria libera correctamente al cerrar.
- [ ] KV cache crece linealmente con contexto.
- [ ] Sin errores en
/tmp/ollama.log.
Comparativa con baseline¶
| Métrica | Esta corrida | Baseline (m4-pro-24gb.md) | Delta |
|---|---|---|---|
| tok/s avg | |||
| Memoria |
Decisión¶
Basado en estos números: - [ ] Apto para producción interactiva (>25 tok/s en contexto real). - [ ] Necesita cloud para queries grandes (>X tokens). - [ ] Cuantización Q4_K_M es suficiente / necesito subir a Q5/Q8.