GLM-5.2: das stärkste offene Modell ist textbasiert und token-hungrig

Das chinesische Labor Z.ai hat GLM-5.2 am 16. Juni als vollständige offene Gewichte unter MIT-Lizenz veröffentlicht, einen Tag, nachdem es zunächst nur Abonnenten des Coding-Plans erreichte. Offene Gewichte heißt: Jeder darf das Modell herunterladen, selbst betreiben und anpassen, ohne an die API eines Anbieters gebunden zu sein. Im unabhängigen Artificial Analysis Intelligence Index ist GLM-5.2 damit das derzeit stärkste offene Modell.

Bevor diese Schlagzeile zu groß wird, gehören zwei Vorbehalte an den Anfang, denn sie entscheiden darüber, ob das Modell für Ihre Arbeit taugt. GLM-5.2 nimmt nur Text entgegen, kein Bild. Und es verbraucht spürbar mehr Tokens pro Aufgabe als vergleichbare Modelle, was seinen niedrigen Tokenpreis zum Teil wieder auffrisst. Beides ist für agentisches Programmieren und für die Kostenrechnung relevanter als die Platzierung in einer Bestenliste.

Zwei Balkengruppen: oben der Ausgabepreis je Million Tokens mit GLM-5.2 bei 4,40 Dollar gegenüber 25 Dollar bei Opus 4.8 und 30 Dollar bei GPT-5.5, unten der Verbrauch an Ausgabe-Tokens pro Aufgabe mit GLM-5.2 an der Spitze bei 43k gegenüber 24k bis 37k bei anderen offenen Modellen. — GLM-5.2 hat den niedrigsten Preis pro Token, aber den höchsten Verbrauch pro Aufgabe. Preisvergleich gegen GPT-5.5 und Opus 4.8, Verbrauch im Vergleich offener Modelle (Quelle: Artificial Analysis, OpenRouter, Stand 17. Juni).

Was GLM-5.2 ist

Das Modell hat 753 Milliarden Parameter, von denen pro Anfrage rund 40 Milliarden aktiv sind. Diese Bauweise heißt Mixture of Experts: Das Modell ist groß, aktiviert für eine einzelne Anfrage aber nur einen Bruchteil seiner Bausteine, was es im Betrieb günstiger macht, als die Gesamtgröße vermuten lässt. Das Kontextfenster liegt bei einer Million Tokens, gegenüber 200.000 bei GLM-5.1.

Wichtig ist die Eingabeseite. GLM-5.2 versteht nur Text. Z.ai hat zwar eine eigene Bildmodell-Familie, doch die liegt nicht als offene Gewichte vor. Für die Frontend-Entwicklung klingt das nach einem harten Nachteil, weil dort oft ein Screenshot oder ein Design als Vorlage dient. Umso bemerkenswerter ist, was die Benchmarks zeigen.

Stark in Benchmarks, mit einem Vorbehalt

Im Intelligence Index v4.1 von Artificial Analysis erreicht GLM-5.2 einen Wert von 51 und führt damit vor anderen offenen Modellen wie MiniMax-M3 (44), DeepSeek V4 Pro (44) und Kimi K2.6 (43). Simon Willison nennt es vorsichtig „wahrscheinlich das stärkste textbasierte offene Modell”, und diese Vorsicht ist angebracht: Eine Zahl gilt immer für genau den Test, der sie erzeugt hat.

Gegenüber herstellereigenen Benchmarks bin ich grundsätzlich zurückhaltend, und so sieht es auch Z.ai selbst kritisch. Aussagekräftiger ist, was nach dem Release und unabhängig gemessen wird. Genau dafür hat Artificial Analysis den Benchmark AA-Briefcase ergänzt, der Agenten an realistischen Geschäftsabläufen prüft, also am Erstellen von Tabellen, Präsentationen und Aktennotizen. Dort schlägt GLM-5.2 GPT-5.5 und liegt nur hinter Claude Fable 5 und Opus 4.8. Der Rückstand von GPT-5.5 stammt laut der Auswertung vor allem aus schwacher Aufbereitung im Frontend und bei der Gestaltung von Präsentationen, nicht aus fehlender fachlicher Substanz.

Eine Kennzahl lohnt einen zweiten Blick, gerade für geschäftliche Nutzung: die Treffergenauigkeit gegen eine Faktencheck-Liste in dieser Aufgabe. Hier liegt Fable 5 mit 56 Prozent vorn, gefolgt von Opus 4.8 mit 38,7 Prozent, GLM-5.2 mit 36 Prozent und GPT-5.5 mit 33,4 Prozent. Selbst das beste Modell prüft also nur gut die Hälfte der Fakten zuverlässig, der Rest braucht weiterhin einen Menschen. Auf der Code Arena WebDev, die Frontend- und agentische Coding-Aufgaben misst, steht GLM-5.2 auf Platz zwei hinter Fable 5. Dass ein reines Textmodell dort so weit oben landet, hatte ich so nicht erwartet.

Der teure Haken: günstig pro Token heißt nicht günstig pro Aufgabe

Hier setzt der eigentliche Punkt an. Über OpenRouter kostet GLM-5.2 bei den meisten Anbietern etwa 1,40 US-Dollar je Million Eingabe-Tokens und 4,40 US-Dollar je Million Ausgabe-Tokens. Zum Vergleich nennt Willison 5 und 30 Dollar bei GPT-5.5 und 5 und 25 Dollar bei Claude Opus. Pro Token ist GLM-5.2 also deutlich billiger.

Pro Token, nicht pro Aufgabe. Artificial Analysis hat gemessen, dass GLM-5.2 je Index-Aufgabe rund 43.000 Ausgabe-Tokens verbraucht, gegenüber 26.000 bei GLM-5.1 und mehr als bei anderen offenen Modellen wie Kimi K2.6 (35.000) oder DeepSeek V4 Pro (37.000). Der Verbrauch je Aufgabe ist gegenüber dem Vorgänger also um rund zwei Drittel gestiegen. Bei gleichem Tokenpreis kostet dieselbe Aufgabe damit rund zwei Drittel mehr, und der niedrige Preis pro Token schmilzt genau dort, wo viele Tokens anfallen: bei agentischen, mehrschrittigen Workloads.

Die Lehre ist nicht neu, aber sie wird gern übersehen: Der relevante Preis ist der pro erledigter Aufgabe, nicht der pro Token. Wer Modelle nur über die Preisliste vergleicht, rechnet sich einen Vorteil schön, den der Tokenhunger im Betrieb wieder einkassiert. Wenn Sie GLM-5.2 erwägen, messen Sie die Kosten an echten Aufgaben aus Ihrem eigenen Workload, nicht am Tarif.

Architektur in Kürze

Zwei Änderungen sind erwähnenswert. Erstens wurde der Aufmerksamkeitsmechanismus angepasst und ein IndexCache ergänzt. Vereinfacht: Im sparsamen Attention-Verfahren werden die Ergebnisse des Indexers über vier aufeinanderfolgende Schichten wiederverwendet, weil sie sich ohnehin stark ähneln. Das spart Rechenaufwand, ohne viel zu verlieren, ähnlich dem Ansatz von DeepSeek V4.

Zweitens, und stärker diskutiert, der Wechsel im Training: weg von GRPO, der von DeepSeek vorgeschlagenen Methode, zurück zu PPO aus dem Hause OpenAI. PPO verlangt ein zusätzliches Modell, das die Qualität jedes Tokens in der Gedankenkette bewertet. Bei GRPO bekommen alle Tokens dasselbe Signal, was problematisch ist, weil der Schritt, in dem das Modell irrt, und der, in dem es sich korrigiert, gleich stark verstärkt werden. Der Fehler wird also nicht gezielt bestraft. PPO trennt das feiner auf.

Was das praktisch bedeutet

GLM-5.2 ist ein ernstzunehmendes offenes Modell, vor allem für alle, die selbst hosten und die Kontrolle über Gewichte und Daten behalten wollen. Die MIT-Lizenz macht das ungewöhnlich frei. Für die Auswahl zählen aber die beiden Vorbehalte vom Anfang. Wenn Ihr Workflow Bilder als Eingabe braucht, etwa ein Design als Vorlage im Frontend, ist die Textbeschränkung eine echte Hürde. Und bevor Sie sich über den Tokenpreis freuen, rechnen Sie die Kosten pro Aufgabe, denn dort entscheidet sich, ob „billig pro Token” auch „billig in der Praxis” heißt.

Eine Anmerkung zu den Zahlen: Die Preise auf OpenRouter ändern sich schnell und stammen vom 17. Juni, prüfen Sie sie vor einer Entscheidung neu. Die Benchmark-Werte gelten zum jetzigen Stand und für die jeweils genutzten Tests.