Claude Sonnet 4.6 getestet: Fast-Opus zum halben Preis
Ich hätte Sonnet 4.6 fast nicht getestet.
Ich war tief in einem Opus 4.6-Workflow — Agenten liefen, Code wurde geliefert, die gesamte Maschine summte — und meine erste Reaktion, als Anthropic Sonnet 4.6 veröffentlichte, war "cool, ich schaue es mir nächste Woche an." Dann schickte mir ein Freund in meinem Discord einen Screenshot einer SaaS-Landing-Page, die Sonnet 4.6 in einem einzigen Prompt generiert hatte. Saubere Typografie. Zusammenhängendes Farbsystem. Ein Hero-Bereich, der so aussah, als hätte ein Designer drei Stunden daran gearbeitet.
Ich habe aufgehört, was ich tat, und die API-Konsole geöffnet.
Sonnet 4.6 entspricht oder übertrifft Opus bei bestimmten Aufgaben, während es doppelt so schnell läuft und ungefähr halb so viel kostet.
Warum ein weiteres Sonnet wichtig ist
Preis-Kontext: Opus 4.6 läuft bei etwa $6 pro Million Input-Tokens und $12 pro Million Output-Tokens. Sonnet 4.6 behält die Sonnet 4.5-Preisgestaltung: $3 Input, $6 Output. Das ist nicht eine marginale Ersparnis — das ist der halbe Preis.
Frontend-Generierung: Der Test, der mich am meisten überraschte
Die von Sonnet 4.6 generierte Landing-Page hatte bessere Typografie als das, was Opus mir typischerweise gibt. Die Schriftart-Paarungen waren durchdachter. Die Farbverläufe waren fließender.
Meine Schlussfolgerung für Frontend-Arbeit: Wenn du Landing-Pages, Marketing-Sites oder Standard-SaaS-Interfaces generierst, ist Sonnet 4.6 nicht nur "gut genug" — es könnte deine bessere Option sein.
Die Mac OS-Simulation, die mein Gehirn verblüfft hat
Ich gab Sonnet 4.6 einen detaillierten Prompt, der einen Mac OS-ähnlichen Desktop im Browser beschrieb mit Finder, Safari, Notes, Mail, Fotos, Terminal, Taschenrechner und Einstellungen.
Was zurückkam, war in seiner Qualität aufrichtig erschreckend. Das Finder-Fenster öffnete und schloss. Du konntest Ordner erstellen und zwischen ihnen navigieren. Safari hatte eine funktionale Adressleiste. Der Taschenrechner funktionierte tatsächlich. War es ein echtes Betriebssystem? Offensichtlich nicht. Aber als Ein-Prompt-Generierung eines interaktiven UI-Prototyps? Ich habe so etwas von einem Modell in dieser Preisklasse nie gesehen.
Agentengesteuerte Entwicklung: Boxelcraft und der Multi-Agent-Test
Ich habe das härteste denkbare Test eingerichtet: einen autonomen Multi-Agent-Einsatz über Kilo Code. Die Aufgabe? Einen browser-basierten Minecraft-Klon von Grund auf bauen.
Das Ergebnis war ein spielbares Spiel namens Boxelcraft.
| Aspekt | Opus 4.6 | Sonnet 4.6 |
|---|---|---|
| Planungsqualität | Ausgezeichnet | Sehr gut |
| Geschwindigkeit bis zur Fertigstellung | ~45 Minuten | ~22 Minuten |
| Kosten | ~$4,80 | ~$2,10 |
Pro-Tipp: Ich verwende jetzt einen Hybridansatz. Sonnet 4.6 für die anfänglichen Build-Iterationen (schnell, günstig, bringt dich auf 80%), dann Opus 4.6 für den finalen Polier-Durchgang. Das hat meine Workflow-Kosten um etwa 40% gesenkt.
Browser-Automatisierung: Wo Sonnet 4.6 wirklich glänzt
Das Modell generierte die gesamte Pipeline in einer einzigen Antwort. Python-Skript mit Playwright. Korrekte asynchrone Handhabung. CSV-Schreibvorgänge mit Zeitstempeln. Ein einfaches Flask-Dashboard.
async def scrape_ai_headlines(page):
await page.goto("https://news.google.com/search?q=artificial+intelligence")
await page.wait_for_selector("article h3", timeout=10000)
headlines = await page.eval_on_selector_all(
"article h3",
"elements => elements.slice(0, 5).map(el => el.innerText)"
)
timestamp = datetime.now().isoformat()
with open("headlines.csv", "a", newline="") as f:
writer = csv.writer(f)
for headline in headlines:
writer.writerow([timestamp, headline])
return headlines
Ich habe diese Pipeline deployed und 48 Stunden laufen lassen. Null Abstürze.
Wo Sonnet 4.6 Schwächen zeigt (Die ehrliche Bewertung)
SVG und komplexe Grafikgenerierung. Opus produziert SVGs mit feineren Details.
Tiefes mehrstufiges Reasoning bei Mehrdeutigkeit. Opus trifft bessere Entscheidungen.
Halluzinationen sind reduziert, aber nicht eliminiert. Ich habe es dabei erwischt, eine nicht existierende Playwright-Methode zu erfinden.
Wann Sonnet 4.6 verwenden:
- Geschwindigkeit wichtiger als Perfektion
- Aufgabe ist gut spezifiziert
- Kosten sind ein Faktor
Wann Opus 4.6 verwenden:
- Tief architektonisches Reasoning erforderlich
- Mehrdeutigkeit ist hoch
- Maximale Code-Qualität beim ersten Durchgang benötigt
Das Millionen-Token-Kontextfenster ändert (fast) alles
Ich testete das mit einem echten Projekt: eine 340-Dateien-Laravel-Anwendung. Das Modell fand vier echte Probleme, die ich in meinem eigenen Audit nicht gefangen hatte. Eines war eine Mass-Assignment-Schwachstelle in einem Modell, die seit acht Monaten dort war.
Meine neue Modellstrategie (und was sie kostet)
Vorher (nur Opus-Workflow):
- Monatliche API-Ausgaben: ~$380
Nach Hybridstrategie:
- Monatliche API-Ausgaben: ~$220
Die Ausgaben sanken um 42%. Die Anzahl der Bugs sank um etwa ein Drittel.
Workflow:
- Erkundungsphase (Sonnet 4.6): Schneller Prototyp, Ansatz validieren.
- Implementierungsphase (Sonnet 4.6): Feature ausbauen.
- Review-Phase (Opus 4.6): Finales Code-Review, Edge-Case-Analyse.
- Deployment: Mit Vertrauen liefern.
Lass uns zusammenarbeiten
- Fiverr: fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited: ramlit.com
- ColorPark: colorpark.io
- xCyberSecurity: xcybersecurity.io