up:: 2026 - AI Coding

Quantisierung

Quantisierung reduziert die Präzision der Modellgewichte, um LLMs kleiner und schneller zu machen – auf Kosten von etwas Qualität.

Kernidee

Neuronale Netze werden typischerweise in FP16 (16-Bit Floating Point) oder FP32 trainiert. Für Inferenz braucht man diese Präzision oft nicht. Quantisierung "rundet" die Gewichte auf weniger Bits.

FP = Floating Point (nicht "Full Precision")
Aber: "Full Precision" meint oft FP32, "Half Precision" meint FP16.
Also: FP32 = Full Precision = Floating Point 32-bit – selbe Sache, andere Perspektive.

→ Für die technischen Details siehe Quantisierung – Mathematik & Mechanik

FP16 (16 Bit) → Q8 (8 Bit) → Q4 (4 Bit) → Q2 (2 Bit)
     ↓              ↓             ↓            ↓
 Originalqualität  ~99%         ~95%        ~85%

Gängige Formate

| Format | Bits | Anwendung | | ------ | ---- | --------- | | FP16 / BF16 | 16 | Training, hochwertige Inferenz | | Q8 | 8 | Guter Kompromiss, kaum Qualitätsverlust | | Q5_K_M | 5 | Sweet Spot für viele Anwendungen | | Q4_K_M | 4 | Standard für Consumer-Hardware | | Q2_K | 2 | Experimentell, spürbarer Qualitätsverlust |

Das "K" steht für k-quant (intelligentere Quantisierung, die wichtige Layer weniger komprimiert). "M" = Medium, "S" = Small.

-> Details:

Q4_0 Q4_K ? Quantisierung Old Patterns

Trade-offs

| | Niedrigere Quantisierung | |---|---| | ✅ | Weniger VRAM | | ✅ | Schnellere Inferenz | | ❌ | Qualitätsverlust (besonders bei Reasoning) | | ❌ | Instabiler bei Edge Cases |

Wann welche wählen?

Q8: Wenn VRAM kein Problem ist, maximale Qualität
Q5_K_M / Q4_K_M: Alltags-Sweet-Spot für die meisten Use Cases
Q3 / Q2: Nur wenn es nicht anders geht

Tools

llama.cpp – De-facto Standard für Quantisierung
GGUF – Aktuelles Dateiformat (ersetzt GGML)
ExLlamaV2 – Für exl2-Quantisierung (GPU-optimiert)

Forschung zur Qualität

Mehrere Studien haben den Qualitätsverlust durch Quantisierung systematisch untersucht:

Kernerkenntnisse:

4-Bit Quantisierung behält in den meisten Benchmarks ~95% der Original-Performance
Q5_K_M und GPTQ-INT8 bieten den besten Trade-off für Produktions-Einsatz
Schwierige Tasks (Reasoning) leiden nicht automatisch mehr – hängt von Modell und Methode ab
AWQ performt meist besser als GPTQ bei weight-only Quantisierung

Relevante Paper:

| Paper | Jahr | Fokus | | ----- | ---- | ----- | | LLMC: Benchmarking LLM Quantization | 2024 | 500+ Experimente, Best Practices für PTQ | | Comprehensive Evaluation of Quantization Strategies | 2024 | 4-bit behält vergleichbare Performance | | A Survey of Low-bit LLMs | 2024 | Umfassender Überblick Algorithmen & Systeme | | Benchmarking PTQ in LLMs | 2025 | Taxonomie und unified Evaluation |

Red Hat führte 2024 über 500.000 Evaluierungen durch und fand, dass quantisierte Modelle auf Arena-Hard und HumanEval kompetitiv mit Full-Precision bleiben (95% Konfidenzintervalle überlappen).

Video-Ressourcen

| Video | Autor | Inhalt | | ----- | ----- | ------ | | LLM Quantization Explained | Julia Turc | Beste Grundlagen-Erklärung: Why, When, How |

Siehe auch: VRAM-Daumenregel für quantisierte LLMs, Quantisierung – Mathematik & Mechanik, GGUF, llama.cpp