Saltar a contenido

Benchmark — [MODEL NAME]

Date: YYYY-MM-DD Host: hostname OS: macOS / Linux + version Chip: Apple M4 Pro / RTX 4090 / etc. Memory: XX GB Ollama: x.y.z llama.cpp: commit hash MLX-LM: x.y.z


Setup

# Comandos exactos para reproducir
OLLAMA_FLASH_ATTENTION=1 OLLAMA_KV_CACHE_TYPE=q8_0 ollama serve
./scripts/bench.sh gemma4:e4b 20

Results

# Prompt Tokens out Latency (s) tok/s
1 "Hola, ¿qué tal?" 25 0.45 55.5
2 ...

Summary

  • Total queries: 20
  • Total tokens: NNNN
  • Average tok/s: XX.X
  • p50 latency: X.X s
  • p95 latency: X.X s
  • Memoria pico: X.X GB
  • TTFT: XXX ms

Observaciones

  • [ ] El modelo se mantiene cargado entre queries.
  • [ ] Memoria libera correctamente al cerrar.
  • [ ] KV cache crece linealmente con contexto.
  • [ ] Sin errores en /tmp/ollama.log.

Comparativa con baseline

Métrica Esta corrida Baseline (m4-pro-24gb.md) Delta
tok/s avg
Memoria

Decisión

Basado en estos números: - [ ] Apto para producción interactiva (>25 tok/s en contexto real). - [ ] Necesita cloud para queries grandes (>X tokens). - [ ] Cuantización Q4_K_M es suficiente / necesito subir a Q5/Q8.