up:: 2026 - AI Coding
Quantisierung
Quantisierung reduziert die Präzision der Modellgewichte, um LLMs kleiner und schneller zu machen – auf Kosten von etwas Qualität.
Kernidee
Neuronale Netze werden typischerweise in FP16 (16-Bit Floating Point) oder FP32 trainiert. Für Inferenz braucht man diese Präzision oft nicht. Quantisierung "rundet" die Gewichte auf weniger Bits.
FP = Floating Point (nicht "Full Precision")
Aber: "Full Precision" meint oft FP32, "Half Precision" meint FP16.
Also: FP32 = Full Precision = Floating Point 32-bit – selbe Sache, andere Perspektive.
→ Für die technischen Details siehe Quantisierung – Mathematik & Mechanik
FP16 (16 Bit) → Q8 (8 Bit) → Q4 (4 Bit) → Q2 (2 Bit)
↓ ↓ ↓ ↓
Originalqualität ~99% ~95% ~85%
Gängige Formate
| Format | Bits | Anwendung | | ------ | ---- | --------- | | FP16 / BF16 | 16 | Training, hochwertige Inferenz | | Q8 | 8 | Guter Kompromiss, kaum Qualitätsverlust | | Q5_K_M | 5 | Sweet Spot für viele Anwendungen | | Q4_K_M | 4 | Standard für Consumer-Hardware | | Q2_K | 2 | Experimentell, spürbarer Qualitätsverlust |
Das "K" steht für k-quant (intelligentere Quantisierung, die wichtige Layer weniger komprimiert). "M" = Medium, "S" = Small.
-> Details:
- Q4_0 Q4_K ? Quantisierung Old Patterns
Trade-offs
| | Niedrigere Quantisierung | |---|---| | ✅ | Weniger VRAM | | ✅ | Schnellere Inferenz | | ❌ | Qualitätsverlust (besonders bei Reasoning) | | ❌ | Instabiler bei Edge Cases |
Wann welche wählen?
- Q8: Wenn VRAM kein Problem ist, maximale Qualität
- Q5_K_M / Q4_K_M: Alltags-Sweet-Spot für die meisten Use Cases
- Q3 / Q2: Nur wenn es nicht anders geht
Tools
- llama.cpp – De-facto Standard für Quantisierung
- GGUF – Aktuelles Dateiformat (ersetzt GGML)
- ExLlamaV2 – Für exl2-Quantisierung (GPU-optimiert)
Forschung zur Qualität
Mehrere Studien haben den Qualitätsverlust durch Quantisierung systematisch untersucht:
Kernerkenntnisse:
- 4-Bit Quantisierung behält in den meisten Benchmarks ~95% der Original-Performance
- Q5_K_M und GPTQ-INT8 bieten den besten Trade-off für Produktions-Einsatz
- Schwierige Tasks (Reasoning) leiden nicht automatisch mehr – hängt von Modell und Methode ab
- AWQ performt meist besser als GPTQ bei weight-only Quantisierung
Relevante Paper:
| Paper | Jahr | Fokus | | ----- | ---- | ----- | | LLMC: Benchmarking LLM Quantization | 2024 | 500+ Experimente, Best Practices für PTQ | | Comprehensive Evaluation of Quantization Strategies | 2024 | 4-bit behält vergleichbare Performance | | A Survey of Low-bit LLMs | 2024 | Umfassender Überblick Algorithmen & Systeme | | Benchmarking PTQ in LLMs | 2025 | Taxonomie und unified Evaluation |
Red Hat führte 2024 über 500.000 Evaluierungen durch und fand, dass quantisierte Modelle auf Arena-Hard und HumanEval kompetitiv mit Full-Precision bleiben (95% Konfidenzintervalle überlappen).
Video-Ressourcen
| Video | Autor | Inhalt | | ----- | ----- | ------ | | LLM Quantization Explained | Julia Turc | Beste Grundlagen-Erklärung: Why, When, How |
Siehe auch: VRAM-Daumenregel für quantisierte LLMs, Quantisierung – Mathematik & Mechanik, GGUF, llama.cpp