Benchmark — [MODEL NAME]¶

Date: YYYY-MM-DD Host: hostname OS: macOS / Linux + version Chip: Apple M4 Pro / RTX 4090 / etc. Memory: XX GB Ollama: x.y.z llama.cpp: commit hash MLX-LM: x.y.z

Setup¶

# Comandos exactos para reproducir
OLLAMA_FLASH_ATTENTION=1 OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve
./scripts/bench.sh gemma4:e4b 20

Results¶

#	Prompt	Tokens out	Latency (s)	tok/s
1	"Hola, ¿qué tal?"	25	0.45	55.5
2	...

Summary¶

Total queries: 20
Total tokens: NNNN
Average tok/s: XX.X
p50 latency: X.X s
p95 latency: X.X s
Memoria pico: X.X GB
TTFT: XXX ms

Observaciones¶

[ ] El modelo se mantiene cargado entre queries.
[ ] Memoria libera correctamente al cerrar.
[ ] KV cache crece linealmente con contexto.
[ ] Sin errores en /tmp/ollama.log.

Comparativa con baseline¶

Métrica	Esta corrida	Baseline (m4-pro-24gb.md)	Delta
tok/s avg
Memoria

Decisión¶

Basado en estos números: - [ ] Apto para producción interactiva (>25 tok/s en contexto real). - [ ] Necesita cloud para queries grandes (>X tokens). - [ ] Cuantización Q4_K_M es suficiente / necesito subir a Q5/Q8.