Inference & Optimization uitleg.
Sla de docs van 40 pagina's over. Elke uitleg verandert een lastig AI-, Claude Code-, MCP- of cloudconcept in een live, geanimeerd diagram dat je kunt slepen, scrubben en breken — zodat het idee binnen minuten echt klikt, niet in uren.
Alle Inference & Optimization uitleggen
Quantization: Shrinking Models Without Killing Them
Store every weight in 4 bits instead of 16, fit a 70B model on one GPU, and lose almost no quality. Tune precision to feel the trade-off.
KV Cache: Why the Second Token Is Faster Than the First
Without a KV cache, every new token re-computes attention over the whole sequence. With it, you reuse all previous work. This is most of LLM serving.
Batching: How Inference Servers Serve a Thousand Users at Once
GPUs are starved on a single request — most of the chip is idle. Batching packs many requests into one forward pass for huge throughput wins.
Speculative Decoding: A Cheap Model Guessing for an Expensive One
A tiny draft model proposes 5 tokens at once; the big model verifies them in a single forward pass. Net effect: 2–3× faster decode at identical quality.
Stop met lezen erover. Begin met scrubben.
Vastgelopen op een AI-, Claude Code- of cloudconcept? Vertel me wat niet klikt — ik bouw een gratis interactieve uitleg met analogie, animatie en sliders, meestal binnen een week.