Claude Sonnet 4.6 getestet: Fast-Opus zum halben Preis

Ich hätte Sonnet 4.6 fast nicht getestet.

Ich war tief in einem Opus 4.6-Workflow — Agenten liefen, Code wurde geliefert, die gesamte Maschine summte — und meine erste Reaktion, als Anthropic Sonnet 4.6 veröffentlichte, war "cool, ich schaue es mir nächste Woche an." Dann schickte mir ein Freund in meinem Discord einen Screenshot einer SaaS-Landing-Page, die Sonnet 4.6 in einem einzigen Prompt generiert hatte. Saubere Typografie. Zusammenhängendes Farbsystem. Ein Hero-Bereich, der so aussah, als hätte ein Designer drei Stunden daran gearbeitet.

Ich habe aufgehört, was ich tat, und die API-Konsole geöffnet.

Sonnet 4.6 entspricht oder übertrifft Opus bei bestimmten Aufgaben, während es doppelt so schnell läuft und ungefähr halb so viel kostet.

Warum ein weiteres Sonnet wichtig ist

Preis-Kontext: Opus 4.6 läuft bei etwa $6 pro Million Input-Tokens und $12 pro Million Output-Tokens. Sonnet 4.6 behält die Sonnet 4.5-Preisgestaltung: $3 Input, $6 Output. Das ist nicht eine marginale Ersparnis — das ist der halbe Preis.

Frontend-Generierung: Der Test, der mich am meisten überraschte

Die von Sonnet 4.6 generierte Landing-Page hatte bessere Typografie als das, was Opus mir typischerweise gibt. Die Schriftart-Paarungen waren durchdachter. Die Farbverläufe waren fließender.

Meine Schlussfolgerung für Frontend-Arbeit: Wenn du Landing-Pages, Marketing-Sites oder Standard-SaaS-Interfaces generierst, ist Sonnet 4.6 nicht nur "gut genug" — es könnte deine bessere Option sein.

Die Mac OS-Simulation, die mein Gehirn verblüfft hat

Ich gab Sonnet 4.6 einen detaillierten Prompt, der einen Mac OS-ähnlichen Desktop im Browser beschrieb mit Finder, Safari, Notes, Mail, Fotos, Terminal, Taschenrechner und Einstellungen.

Was zurückkam, war in seiner Qualität aufrichtig erschreckend. Das Finder-Fenster öffnete und schloss. Du konntest Ordner erstellen und zwischen ihnen navigieren. Safari hatte eine funktionale Adressleiste. Der Taschenrechner funktionierte tatsächlich. War es ein echtes Betriebssystem? Offensichtlich nicht. Aber als Ein-Prompt-Generierung eines interaktiven UI-Prototyps? Ich habe so etwas von einem Modell in dieser Preisklasse nie gesehen.

Agentengesteuerte Entwicklung: Boxelcraft und der Multi-Agent-Test

Ich habe das härteste denkbare Test eingerichtet: einen autonomen Multi-Agent-Einsatz über Kilo Code. Die Aufgabe? Einen browser-basierten Minecraft-Klon von Grund auf bauen.

Das Ergebnis war ein spielbares Spiel namens Boxelcraft.

Aspekt	Opus 4.6	Sonnet 4.6
Planungsqualität	Ausgezeichnet	Sehr gut
Geschwindigkeit bis zur Fertigstellung	~45 Minuten	~22 Minuten
Kosten	~$4,80	~$2,10

Pro-Tipp: Ich verwende jetzt einen Hybridansatz. Sonnet 4.6 für die anfänglichen Build-Iterationen (schnell, günstig, bringt dich auf 80%), dann Opus 4.6 für den finalen Polier-Durchgang. Das hat meine Workflow-Kosten um etwa 40% gesenkt.

Browser-Automatisierung: Wo Sonnet 4.6 wirklich glänzt

Das Modell generierte die gesamte Pipeline in einer einzigen Antwort. Python-Skript mit Playwright. Korrekte asynchrone Handhabung. CSV-Schreibvorgänge mit Zeitstempeln. Ein einfaches Flask-Dashboard.

async def scrape_ai_headlines(page):
    await page.goto("https://news.google.com/search?q=artificial+intelligence")
    await page.wait_for_selector("article h3", timeout=10000)

    headlines = await page.eval_on_selector_all(
        "article h3",
        "elements => elements.slice(0, 5).map(el => el.innerText)"
    )

    timestamp = datetime.now().isoformat()
    with open("headlines.csv", "a", newline="") as f:
        writer = csv.writer(f)
        for headline in headlines:
            writer.writerow([timestamp, headline])

    return headlines

Ich habe diese Pipeline deployed und 48 Stunden laufen lassen. Null Abstürze.

Wo Sonnet 4.6 Schwächen zeigt (Die ehrliche Bewertung)

SVG und komplexe Grafikgenerierung. Opus produziert SVGs mit feineren Details.

Tiefes mehrstufiges Reasoning bei Mehrdeutigkeit. Opus trifft bessere Entscheidungen.

Halluzinationen sind reduziert, aber nicht eliminiert. Ich habe es dabei erwischt, eine nicht existierende Playwright-Methode zu erfinden.

Wann Sonnet 4.6 verwenden:

Geschwindigkeit wichtiger als Perfektion
Aufgabe ist gut spezifiziert
Kosten sind ein Faktor

Wann Opus 4.6 verwenden:

Tief architektonisches Reasoning erforderlich
Mehrdeutigkeit ist hoch
Maximale Code-Qualität beim ersten Durchgang benötigt

Das Millionen-Token-Kontextfenster ändert (fast) alles

Ich testete das mit einem echten Projekt: eine 340-Dateien-Laravel-Anwendung. Das Modell fand vier echte Probleme, die ich in meinem eigenen Audit nicht gefangen hatte. Eines war eine Mass-Assignment-Schwachstelle in einem Modell, die seit acht Monaten dort war.

Meine neue Modellstrategie (und was sie kostet)

Vorher (nur Opus-Workflow):

Monatliche API-Ausgaben: ~$380

Nach Hybridstrategie:

Monatliche API-Ausgaben: ~$220

Die Ausgaben sanken um 42%. Die Anzahl der Bugs sank um etwa ein Drittel.

Workflow:

Erkundungsphase (Sonnet 4.6): Schneller Prototyp, Ansatz validieren.
Implementierungsphase (Sonnet 4.6): Feature ausbauen.
Review-Phase (Opus 4.6): Finales Code-Review, Edge-Case-Analyse.
Deployment: Mit Vertrauen liefern.

Lass uns zusammenarbeiten

Fiverr: fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited: ramlit.com
ColorPark: colorpark.io
xCyberSecurity: xcybersecurity.io

Agentic OS: A Visual Intelligence Layer for Claude Code

Agentic OS: A Visual Intelligence Layer for Claude Code A friend sent me a YouTube link with the message: "this guy says...

Claude Code Workflows: 41 Agenten, 5 Mio. Tokens, getestet

Claude Code Workflows: 41 Agenten, 5 Mio. Tokens, getestet Einundvierzig Agenten. So viele Haiku-Instanzen hat einer mei...

Claude Skills: 10, die ich täglich für eine Content-Operation nutze

Claude Skills: 10, die ich täglich für eine Content-Operation nutze Ich erwischte mich dabei, wie ich zum vierten Mal an...

Claude Sonnet 4.6 getestet: Fast-Opus zum halben Preis