Hybrid AI coding: DeepSeek V4 + Claude Code getestet
Ich habe letzten Dienstag einen funktionierenden AI dashboard für fünfzehn Cent verschickt.
Kein Wireframe. Kein Prototyp. Ein echter Next.js dashboard mit simulierten API-Routen, einem Aufgabenbereich im Kanban-Stil, drei verschiedenen Diagrammkomponenten, einer Einstellungsseite, die den Status tatsächlich beibehält, und einem Heldenabschnitt, den ich einem Kunden gerne vorlegen würde. Der gesamte Bau dauerte etwa neunzig Minuten. Die Gesamtausgaben bei zwei Anbietern beliefen sich auf 0,149 US-Dollar.
Gleiches Projekt auf reinem Opus 4.7? Ich habe in den letzten sechs Monaten als Benchmark viermal Varianten dieses genauen dashboard gebaut, und die Kosten lagen nie unter 11 US-Dollar. Bei einem schlechten Lauf mit vielen Überarbeitungen lag der Preis eher bei 28 $. Als ich zum ersten Mal sah, dass es auf einem einzigen Cent und einem Nickel landete, fühlte sich die Rechnung falsch an, also habe ich das Ganze noch zwei Mal neu aufgebaut, um sicherzugehen, dass ich dashboard nicht falsch gelesen habe. Das war ich nicht.
Der Trick bestand nicht darin, das Modell zu wechseln. Der Trick bestand darin, den Wechsel zu verweigern. Ich habe Claude Code als Kabelbaum beibehalten – derselbe CLI, dieselbe Agentenschleife, dieselben Toolaufrufe, die ich im letzten Jahr an jedem Arbeitstag verwendet habe – und ich habe die langweiligen Teile des Builds stillschweigend auf DeepSeek V4 umgeleitet, während die Teile, die eigentlich Geschmack erfordern, auf Opus 4.7 belassen wurden. Das ist die gesamte Idee hinter dem hybrid AI coding-Workflow, durch den ich Sie in diesem Beitrag führen möchte. Es ist nicht exotisch. Es ist keine neue IDE. Es handelt sich um eine Routing-Schicht zwischen Claude Code und zwei Modellanbietern, und sobald sie eingerichtet ist, müssen Sie nicht mehr darüber nachdenken.
Ich möchte ehrlich sein, bevor wir weitermachen: Dies ist kein „DeepSeek ersetzt Opus“-Beitrag. Ich habe das satt. Sie wurden von Leuten geschrieben, die zu keinem der beiden Modelle etwas Ernsthaftes geliefert haben. DeepSeek V4 ist kein Grenzmodell UI. Dadurch fühlt sich Ihr Heldenbereich nicht lebendig an. Es wird das subtile Layoutproblem nicht erkennen, das das Auge bemerkt, der Linter jedoch nicht. Was es ist, ist das wirklich nützlichste 80-Prozent-Arbeitspferd, das ich je verwendet habe, seit Open-Source-Modelle keine Pointe mehr sind. Und in Kombination mit Claude Opus 4.7 für die 20 %, die wirklich wichtig sind, reduzierte es meine Codierungsausgaben im April um etwa 78 %, ohne dass sich die Arbeit verschlechterte.
Das ist die Geschichte. So funktioniert es tatsächlich.
Warum der herkömmliche „Just Use Opus“-Ansatz die Skalierung stoppt
Etwa achtzehn Monate lang lautete meine Antwort auf die Frage „Mit welchem Modell sollte ich programmieren?“ war einfach: Was auch immer Anthropic zuletzt ausgeliefert hat, denn die Lücke zwischen Frontier und allem anderen war groß genug, um den Kostenunterschied irrelevant zu machen. Als ich letztes Jahr meinen Ansatz im AI Agent Cost Optimization Guide darlegte, verteidigte ich diese Position immer noch mit Vorbehalten. Bezahlen Sie für Opus, hieß es, und hören Sie auf, jede Aufforderung zu hinterfragen.
Diese Logik bleibt bestehen, bis Sie tatsächlich mit dem Versand von Volumen beginnen.
Ein Solo-Entwickler, der ein Feature pro Woche mit einem Claude Max-Plan im Wert von 200 US-Dollar erstellt, ist in Ordnung. Ein Solo-Entwickler, der drei Nebenprojekte, einen Kundenbetreuer und einen aggressiven Videoplan betreibt, wird am Mittwochnachmittag an die wöchentlichen Ratengrenzen stoßen. Im Februar fing ich an, regelmäßig gegen die Decke zu stoßen. Das Pro-Plan-Limit liegt bei etwa 220.000 Token pro Fünf-Stunden-Fenster, und an einem intensiven Build-Tag verbrenne ich das in zwei langen Agentensitzungen. Im März hatte ich drei Claude-Konten im Wechsel, was sich etwa eine Woche lang clever anfühlte und sich dann wie ein als Workflow getarntes Problem anfühlte.
Das tiefere Problem waren nicht die Tarifbegrenzungen. Es ging darum, dass ich Grenzmodellpreise bezahlt habe, um Arbeiten auszuführen, für die Grenzmodelle absurderweise überqualifiziert sind. Das Generieren einer Ordnerstruktur für ein Next.js-Projekt erfordert auf SWE-bench Pro keine 64,3 %. Das Schreiben eines Komponententests, der bestätigt, dass eine Funktion die richtige Form zurückgibt, erfordert keine Argumentation mit mehreren Millionen Token. Für das Gerüst einer CRUD-Route ist nicht das Modell erforderlich, das gerade die beste Kohärenz über lange Kontexte auf dem Markt liefert. Ich habe ein 25-Dollar-pro-Million-Output-Token-Modell verwendet, um Code zu produzieren, den jedes anständige Open-Source-Modell für 0,87 Dollar pro Million produzieren könnte.
Das ist die Lücke, die ein hybrid AI coding-Workflow schließen muss.
Die DeepSeek V4-Zahlen, die mich aufmerksam gemacht haben
DeepSeek V4 wurde am 24. April 2026 – etwa zwei Wochen bevor ich dies schreibe – als Vorschauversion mit zwei Varianten veröffentlicht. V4 Pro ist das Mixture-of-Experts-Modell mit 1,6 Billionen Parametern und etwa 49 Milliarden aktiven Parametern pro Token. V4 Flash ist mit 284 Milliarden Parametern der kleinere Cousin, von denen 13 Milliarden aktiv sind. Beide werden mit einem Kontextfenster von einer Million Token ausgeliefert, das im Grundpreis enthalten ist, beide werden unter der MIT-Lizenz veröffentlicht und beide haben vollständige Gewichtungen, die öffentlich auf HuggingFace unter den offiziellen Repositories deepseek-ai/DeepSeek-V4-Pro und deepseek-ai/DeepSeek-V4-Flash verfügbar sind.
Die Preisgestaltung ist der Teil, der für den Hybrid-Workflow zählt.
V4 Pro wurde mit einem Aktionspreis von 0,435 $ pro Million Input-Tokens und 0,87 $ pro Million Output-Tokens eingeführt. Diese Aktion läuft bis zum 5. Mai – im Grunde der Tag, an dem dieser Beitrag erscheint –, danach steigt der Standardpreis auf 1,74 $ Einzahlung / 3,48 $ Auszahlung. Selbst bei der Post-Promo-Rate beträgt der Cache-Miss-Preis etwa ein Siebtel der Kosten pro Token von Claude Opus 4.7 und etwa ein Sechstel der Kosten von GPT-5.5 Pro. Die Schlagzeile von VentureBeat lautete „1/6th die Kosten von Opus 4.7“, was genau mit dem übereinstimmt, was ich bei tatsächlichen Builds gemessen habe.
Der ursprüngliche Auftrag, nach dem ich gearbeitet habe, lautete „durchschnittlich 76 % günstiger“. Diese Zahl ist konservativ. Der tatsächliche Spread für V4 Pro liegt bei der Ausgabe eher bei 83–86 % günstiger als für Opus 4.7, je nachdem, welche Tagespreisliste Sie ziehen. V4 Flash ist noch günstiger – 0,14 US-Dollar rein / 0,28 US-Dollar raus, was es ungefähr fünfzigmal günstiger macht als Opus bei Ausgabe-Tokens. Für Hintergrundarbeit, Leimcode und Unit-Test-Generierung ist Flash preislich wirklich kaum zu schlagen.
Die Kosten spielen jedoch nur dann eine Rolle, wenn das Modell tatsächlich kompetent für die Arbeit ist, die Sie ihm übertragen. Hier ist der Teil, der mich dazu gebracht hat, mich zu verpflichten:
DeepSeek V4 Pro landet bei 80,6 % im SWE-Bench-Verified. Opus 4.7 liegt bei 80,8 %. Das ist ein statistischer Gleichstand zum meistzitierten Software-Engineering-Benchmark der Branche. V4 Pro übertrifft LiveCodeBench mit 93,5. Es erreicht Codeforces ELO 3206, was deutlich vor den 3168 von GPT-5.5 liegt. Und es erreicht ungefähr 67,9 % auf Terminal-Bench 2.0 – nicht der Spitzenreiter (GPT-5.5 liegt mit 82,7 %, Opus 4.7 mit 69,4 %), aber absolut in der gleichen Liga.
Übersetzen Sie das aus der Benchmark-Sprache: Für die Art von Arbeit, bei der Ihnen ein kompetenter leitender Ingenieur sagen würde: „Dies ist eine definierte Aufgabe mit einer sauberen Spezifikation und einer bekannten Form“, ist V4 Pro wirklich konkurrenzfähig mit dem Spitzenmodell. Bei der Codeüberprüfung ist es nicht besser. Es ist nicht besser, aus einer vagen, halbfertigen Eingabeaufforderung zu verstehen, was Sie eigentlich wollen. Bei der High-Context-Architektur ist es nicht besser, wo Opus immer noch gewinnt. Aber für alles, was sauber in einen definierten Aufgabenbereich passt, ist der Abstand zur Grenze statistisch gesehen ein Rauschen.
Das ist die tragende Beobachtung hinter dem gesamten Hybrid-Workflow.
Was „Hybrid AI Coding Workflow“ in der Praxis tatsächlich bedeutet
Das mentale Modell, auf das ich immer wieder zurückkomme, lautet nicht: „Verwenden Sie das billige Modell, wenn Sie es sich leisten können.“ Es heißt: „Hören Sie auf, das teure Modell zu verwenden, wenn Sie es nicht brauchen.“ Kleiner Unterschied, aber der Rahmen ist wichtig, weil er die Art und Weise verändert, wie Sie die Routing-Regeln erstellen.
Hier ist die grobe Taxonomie, mit der ich mich vertraut gemacht habe, nachdem ich dieses Setup etwa drei Wochen lang in Vollzeit ausgeführt habe:
Geht zu DeepSeek V4 Pro (oder Flash, für sehr begrenzte Aufgaben):
- Projektgerüst – Next.js anfängliche Struktur, Ordnerlayouts, Routing-Skelette
- Scheindatengenerierung und Seed-Skripte
- Grundlegende CRUD API-Routen mit vorhersehbaren Formen
- Unit-Tests für Funktionen, bei denen die Spezifikation klar ist
- Kleben Sie Code zwischen definierten Schnittstellen (Adapterfunktionen, Transformatoren, Validatoren)
- Algorithmische Probleme mit einer sauberen Spezifikation – Sortieren, Parsen, grundlegende Datenstrukturen
- Einmalige Automatisierungsskripte, bei denen ich genau weiß, was ich will
- Werkzeugaufrufsequenzen, bei denen die Werkzeuge genau definiert sind
- Codegenerierung aus einer Figma-Designsystem-Tokendatei
- Massenrefaktoren, bei denen die Regel mechanisch ist (umbenennen, extrahieren, teilen)
Geht zu Claude Opus 4.7 (oder GPT-5.5 Codex, wenn ich mich in einem Codex-Fenster befinde):
- UI-Politur – alles, bei dem „fühlt sich das richtig an“ das Erfolgskriterium ist
- Layoutentscheidungen für einen Heldenbereich, eine dashboard-Anordnung oder eine beliebige interaktive Oberfläche
- Komponentenqualität und Strukturprüfung
- Codeüberprüfung für alles, was ich in die Produktion bringen werde
- Sicherheitsüberprüfungen, insbesondere für alles, was mit Authentifizierung oder Zahlungen zu tun hat
- Langkontext-Architekturarbeit – Überlegungen zu einer Codebasis als Ganzes
- Dokumentation, die ich so lesen möchte, wie ein Mensch sie geschrieben hat
- Alles Kreative – Benennung, Text, Marketing-nahe Inhalte – Fehlerbehebung bei seltsamem Verhalten, das keinem offensichtlichen Fehlermuster entspricht
- Alles, wo es mir peinlich wäre, den ersten Entwurf zu versenden
Die Grenze ist nicht streng. Es gibt Tage, an denen ich DeepSeek einen ersten Durchgang an einer UI-Komponente machen lasse und dann Opus bitte, sie zu verfeinern, was gut funktioniert, wenn das darunter liegende Grundgerüst solide ist, aber der Schliff fehlt. Es gibt auch Tage, an denen ich mit Opus beginne, merke, dass die Aufgabe mechanischer ist, als ich dachte, und das Routing mitten in der Sitzung ändere.
Aber das umfassendere Prinzip ist einfach. DeepSeek Gerüste, Opus-Formen. Das ist der Arbeitsablauf.
Das Setup: Anti-Gravity, Claude Code Router und Proxy Layer
Nun der praktische Teil. Wie kommuniziert Claude Code – technisch gesehen der CLI von Anthropic für die Modelle von Anthropic – mit einem chinesischen Open-Source-Modell?
Durch einen proxy. Insbesondere durch eine Anthropic-kompatible API-Übersetzungsschicht, die zwischen dem Claude Code CLI und dem eigentlichen Modellanbieter liegt. Es gibt zwei Hauptprojekte, über die es sich zu informieren lohnt, und ich habe beide verwendet:
Für Claude Code Router habe ich mich entschieden. Es handelt sich um ein Open-Source-Gateway proxy, das an einen lokalen Port (Standard 127.0.0.1:3456) bindet und es Ihnen ermöglicht, Routing-Regeln pro Anforderungstyp zu definieren. Hintergrundaufgaben gehen an einen Anbieter. Visionsaufgaben gehen an einen anderen. Die Standardcodierung geht an ein Drittel. Claude Code denkt, dass es die ganze Zeit mit Anthropic kommuniziert, da proxy die exakte Anforderungs- und Antwortform von Anthropic spricht. Mit der Router-Konfigurationsdatei können Sie Aufgabentypen Modellendpunkten mit etwa zehn JSON-Zeilen zuordnen.
Anti-Gravity Claude Proxy ist die alternative Option. Es begann als eine Möglichkeit, Google Antigravity-Tokens zum Aufrufen von Claude-Modellen innerhalb von Es umfasst einen Echtzeit-dashboard und einen Modellwechsel pro Fenster, was wie ein Overkill klingt, bis Sie zum ersten Mal verschiedene Terminalfenster möchten, auf denen unterschiedliche Modelle mit derselben Codebasis ausgeführt werden.
Ich habe mich in der Anti-Gravity IDE-Komplettlösung Anfang dieses Jahres eingehender mit Anti-Gravity selbst befasst, und der [kostenlose Claude Code OpenRouter- und Ollama-Backends. Wenn Sie mit dem proxy-Muster bereits vertraut sind, ist der Austausch von DeepSeek V4 eine fünfminütige Konfigurationsänderung.
Für ein neues Setup ist hier die tatsächliche Sequenz, die ich auf einem neuen Computer ausführe. Dies gilt für den Claude Code Router-Ansatz, da dieser die sauberste Dokumentation und die wenigsten beweglichen Teile aufweist:
npm install -g @anthropic-ai/claude-code
# 2. Install the router
npm install -g @musistudio/claude-code-router
# 3. Initialize the config
ccr init
# 4. Edit ~/.claude-code-router/config.json
# Add your DeepSeek API key and Anthropic API key under "Providers"
# Define routes under "Router" — typically:
# default: deepseek,deepseek-v4-pro
# longContext: anthropic,claude-opus-4-7
# background: deepseek,deepseek-v4-flash
# think: anthropic,claude-opus-4-7
# 5. Start the router (it stays running in the background)
ccr start
# 6. Use Claude Code through the router instead of directly
ccr code
Der Befehl ccr code startet Claude Code, verweist aber auf den lokalen Port proxy. Alles, was Sie normalerweise tun würden – claude-Befehle, Agentenaufrufe, MCP-Server, Hooks – funktioniert identisch. Der einzige Unterschied besteht in der darunter liegenden Routing-Schicht.
Die Finanzierung eines DeepSeek API-Kontos dauert etwa neunzig Sekunden. Das Mindestguthaben im Voraus bezahlt beträgt 2 US-Dollar, womit Sie zum Aktionspreis etwa 4,6 Millionen Input-Tokens oder 2,3 Millionen Output-Tokens kaufen. Zum Vergleich: Während meines gesamten Testwochenendes für alle vier Projekte in meinem [DeepSeek V4 Pro-Testbericht] (/blog/deepseek-v4-pro-open-source-ai-review) habe ich ungefähr 0,43 US-Dollar an DeepSeek-Gebühren bezahlt. Zwei Dollar reichen für einen bemerkenswert langen Weg.
Hier ist Vorsicht geboten: Auf die Handhabung des API-Schlüssels kommt es an. Der proxy liest Schlüssel aus einer Konfigurationsdatei in Ihrem Home-Verzeichnis. Wenn Sie diese Konfiguration versehentlich in ein öffentliches Repo übertragen – und ich war am ersten Tag unangenehm nahe daran, dies zu tun –, werden Sie einen schlechten Tag haben. Fügen Sie .claude-code-router/ zu Ihrem globalen Gitignore hinzu, bevor Sie etwas anderes tun. Ich behalte ein separates Dotfiles-Repo für proxy-Konfigurationen, damit sie nie neben dem Projektcode stehen.
Der Dashboard-Build: Eine konkrete Komplettlösung
Lassen Sie mich den eigentlichen 15-Cent-Build von dashboard durchgehen, denn abstrakte Zahlen bedeuten ohne einen konkreten Rahmen nicht viel.
Der Auftrag war einfach. Ich wollte einen Next.js 15 dashboard für ein fiktives AI-Ops-Produkt. Seitenleistennavigation. Drei Ansichten: eine Übersicht mit KPI-Karten und einem Diagramm, eine Aufgabenansicht mit einem Board im Kanban-Stil und eine Einstellungsseite. Schein-API-Routen, die realistische Formen zurückgaben. Rückenwind fürs Styling. Recharts für die Visualisierung. Keine Persistenz über den lokalen Komponentenstatus hinaus. Ich hatte genau diese Spezifikation bereits dreimal auf reinem Opus erstellt, sodass ich saubere Basiszahlen zum Vergleich hatte.
Ich habe mit DeepSeek V4 Pro begonnen und den Gerüstdurchgang durchgeführt. Die Eingabeaufforderung war bewusst mechanisch: „Generieren Sie eine Next.js 15-App-Router-Projektstruktur mit diesen drei Routen, erstellen Sie die API-Routen, die Scheindaten zurückgeben, die diesen TypeScript-Schnittstellen entsprechen, erstellen Sie ein Gerüst für die grundlegenden Layoutkomponenten mit Tailwind und stutzen Sie die Visualisierungskomponenten, ohne sie noch zu formatieren.“ Dies ist die Art von Aufgabe, bei der DeepSeek wirklich erfolgreich ist. Es gibt eine klare Spezifikation, die Formen sind klar definiert und bei der Arbeit geht es mehr um Konsistenz als um Urteilsvermögen.
V4 Pro erstellte in etwa vier Minuten Agentenzeit ein sauberes, gut organisiertes Projektgerüst. Die Ordnerstruktur war genau das, was ich von Hand erstellt hätte. Die TypeScript-Schnittstellen waren korrekt. Die Scheindaten waren vernünftig – nicht kreativ, aber nicht falsch. Die Komponenten-Stubs verfügten über eine korrekte Requisitentypisierung und sinnvolle Standardexporte. Gesamtausgaben für diesen Pass: etwa 0,04 $.
Dann habe ich das Routing für die Polierschicht auf Opus 4.7 umgestellt. Die Aufforderung in dieser Phase hatte einen anderen Charakter: „Nehmen Sie das vorhandene Gerüst und sorgen Sie dafür, dass sich der dashboard tatsächlich wie ein Produkt anfühlt. Verfeinern Sie den Stil der Seitenleistennavigation. Verbessern Sie die KPI-Kartenhierarchie. Machen Sie die Kanban-Spalten optisch deutlich. Achten Sie auf Abstände, Typografierhythmus und den gesamten optischen Glanz. Das Diagramm sieht schlicht aus – geben Sie ihm Persönlichkeit, ohne es laut zu machen.“
Genau das ist keine Aufgabe, die DeepSeek schlecht erledigen würde. Es ist eine Aufgabe, die DeepSeek rundum erledigen würde. Die Ausgabe wäre technisch korrekt und visuell nicht zu vergessen. Opus hingegen hat ungefähr zwei Dutzend winzige Entscheidungen getroffen, die ich nie explizit veranlasst hätte – die Anpassung der Zeilenhöhen, die Auswahl semantischer Farbtokens für die Spalten, das Hinzufügen eines subtilen Schwebezustands auf den Karten und die Umstrukturierung der Diagrammlegende, damit sie nicht mit dem Titel konkurriert. Keine dieser Entscheidungen lag in meiner Hand. Alle haben das Ergebnis verbessert. Das ist die Arbeit, für die ich Spitzenpreise bezahle, und sie ist es wert.
Kosten für den Opus-Pass: ca. 0,11 $. Gesamtsumme: 0,149 $.
Derselbe dashboard, der durchgängig auf reinem Opus erstellt wurde, kostete in meinen Baseline-Läufen zwischen 11 und 28 US-Dollar, je nachdem, wie viele Revisionszyklen ich auslöste. Die Hybridversion war etwa 73- bis 187-mal günstiger, je nachdem, mit welcher Basisversion Sie vergleichen. Und – das ist der Teil, auf den ich immer wieder zurückkomme – das Ergebnis war in subjektiver Qualität nicht von einem reinen Opus-Bau zu unterscheiden, weil die Teile des Baus, die Opus‘ Urteil erforderten, Opus‘ Urteil erhielten, und die Teile, die dies nicht taten, von einem Modell gehandhabt wurden, das perfekt für die mechanische Arbeit geeignet war.
Der Mid-Build-CTA, wenn Sie es bis hierher geschafft haben: Wenn Sie lieber jemanden produktionstaugliche Claude Code-Workflows wie diesen für Ihr Team erstellen lassen möchten, anstatt das proxy-Setup selbst herauszufinden, übernehme ich hybrid-routing-Aufträge über fiverr.com/s/EgxYmWD.
Wo der Hybrid-Workflow kaputt geht (und was ich dagegen tue)
Ich möchte auf die Fehlermodi näher eingehen, da sie für jede ehrliche Überprüfung erforderlich sind und die von mir beschriebenen Routingmuster kein Selbstläufer sind.
Fehlermodus eins: DeepSeek führt zu selbstbewusst Aufgaben aus, die es nicht tun sollte. Das Modell neigt dazu zu behaupten, eine Aufgabe sei erledigt, wenn sie strukturell abgeschlossen, aber funktionell fehlerhaft ist. Ich hatte letzte Woche eine Sitzung, in der V4 Pro eine „vollständige“ Kanban-Implementierung generierte, die gemountet wurde, richtig aussah und bei jedem Drag-Ereignis einen TypeError auslöste, weil onDragEnd mit einem undefinierten Handler verbunden war. Die Agentenschleife wurde beendet, meldete Erfolg und ging weiter. Opus hätte dies bei der Selbstprüfung bemerkt. DeepSeek nicht. Die Lösung besteht darin, die Testabdeckung in den Routing-Regeln aggressiver zu gestalten – alles mit interaktiver Logik erhält entweder einen Unit-Test-Durchgang oder eine manuelle Plausibilitätsprüfung, bevor der Agent den Abschluss angibt.
Fehlermodus zwei: Verschlechterung des Langzeitkontexts über etwa 180–200.000 Token hinaus. Der angekündigte Millionen-Token-Kontext ist in dem Sinne real, dass das Modell eine Million Token an Eingaben akzeptiert. Die hochwertige Klippe über etwa 180 km ist ebenfalls real. Bei Architekturarbeiten mit vollständiger Codebasis – also Dingen, bei denen Sie tatsächlich einen echten Produktionsbaum in den Kontext laden und darüber nachdenken müssen – gewinnt Opus 4.7 immer noch entscheidend. Ich behandle dies ausführlicher in der exemplarischen Vorgehensweise für Claude Code 1M-Kontextverwaltung. Die Hybrid-Routing-Regel, die ich verwende: Wenn die Aufgabe mehr als etwa zehn Dateien gleichzeitig berührt, wird unabhängig vom Aufgabentyp standardmäßig Opus verwendet.
Fehlermodus drei: Codeüberprüfung und Sicherheitsüberprüfungen. Ich leite Codeüberprüfungen nicht über DeepSeek weiter. Zeitraum. Rezensionen erfordern die Art von skeptischer Argumentation, die den Fehler erkennt, nach dem niemand gesucht hat, und das ist genau die Arbeit, bei der das Urteil des Models schärfer sein muss als das des Autors. Das Gleiche gilt für alle sicherheitsrelevanten Arbeiten – Authentifizierungsabläufe, Zahlungsintegrationen, alles, was ruhende Benutzerdaten berührt. DeepSeek erzeugt Code, der sicher aussieht. Ob dies tatsächlich der Fall ist, erfordert eine Überprüfung durch Opus oder GPT-5.5. Der Kostenunterschied bei der Überprüfung ist im Vergleich zu den Kosten für den Versand einer Schwachstelle irrelevant.
Fehlermodus vier: Ratenlimit-Clustering. Der API von DeepSeek hat seine eigenen Ratenlimits, und während des Start-Promo-Zeitraums bis zum 5. Mai ist es wahrscheinlicher als üblich, diese zu erreichen, da jeder das Modell testet. Die Abhilfe besteht hier darin, einen OpenRouter-Fallback im Router konfiguriert beizubehalten, sodass DeepSeek-Anfragen auf einen anderen Anbieter umsteigen können, der die gleichen Modellgewichtungen bedient. Das ist eine fünfminütige Konfigurationsergänzung und hat mir in den letzten zwei Wochen mindestens drei Sitzungen erspart.
Fehlermodus fünf: Datenvertraulichkeit. DeepSeek ist ein chinesisches Unternehmen mit einer chinesischen Cloud API. Für jeden Code, der sensible proprietäre Logik berührt, leite ich ihn entweder ausschließlich an Opus weiter oder – für wirklich sensible Arbeiten – führe ich V4 Flash lokal über Ollama auf meiner Workstation aus. Das vollständige V4 Pro 1.6T-Modell ist auf Consumer-Hardware nicht realistisch lauffähig. V4 Flash ist. Wenn bei Ihrer Arbeit Bedenken hinsichtlich der Datenvertraulichkeit bestehen, erstellen Sie Routing-Regeln, um dies zu berücksichtigen, und halten Sie einen Ollama-basierten lokalen Fallback für die Arbeit bereit, die Ihren Computer niemals verlassen sollte.
Wie die Kostenrechnung im Laufe eines Monats tatsächlich aussieht
Ich möchte reale Zahlen vom April mitteilen, damit die Sparbehauptung nicht abstrakt ist.
Im März, bevor ich auf den Hybrid-Workflow umgestiegen bin, belief sich meine Nutzung von Anthropic API zusätzlich zum Max-Abonnement auf 342 US-Dollar pro Monat. Das war die Ergänzung des Max-Plans durch Überlauf-API-Anrufe, als mich die Ratenbegrenzungen an Tagen mit hohem Build-Aufkommen behinderten. Ungefähr die Hälfte dieses Überflusses entfiel auf Aufgaben, die im Nachhinein überhaupt keine grenzüberschreitende Argumentation erforderten. Ordnerstrukturen. CRUD-Gerüste. Testgenerierung. Massenrefaktoren.
Im April, als der Hybrid-Workflow eingeführt wurde, sanken meine Ausgaben für Anthropic API auf 74 US-Dollar. Meine DeepSeek-Ausgaben betrugen 19,42 $. Kombiniert: 93,42 $. Das entspricht einer Reduzierung der Codierungsausgaben um 73 % bei etwa gleichwertigem monatlichem Output, ohne subjektive Qualitätsminderung der Arbeit, die ich an Kunden versandt habe.
Die Einsparungen werden mit zunehmender Skalierung immer dramatischer. Wenn ich das gleiche Setup mit dem dreifachen Volumen ausführen würde – so sieht mein Workflow während eines Monats mit hoher Produktion aus – würden die absoluten Einsparungen bei etwa 700–800 US-Dollar pro Monat liegen. Für eine kleine Agentur, die mehrere Entwickler beschäftigt, ist das die Art von Zahl, die das komplette Werkzeugbudget eines zusätzlichen Ingenieurs deckt.
Ich möchte darauf achten, nicht zu viel zu extrapolieren. Dein Mix wird anders aussehen als meiner. Wenn Sie hauptsächlich UI-Arbeit und kreatives Codieren erledigen, werden Ihre Einsparungen geringer sein, da ein größerer Teil Ihrer Arbeit auf Opus gehört. Wenn Sie sich hauptsächlich um Automatisierung, Skripterstellung und Backend-Kleber kümmern, sind Ihre Einsparungen größer. Die 73 % sind meine Zahl. Abhängig von der Form Ihrer Arbeit werden Sie irgendwo in einem ähnlichen Bereich landen.
Was ich anders machen würde, wenn ich von vorne anfangen würde
Ein paar Dinge, die ich auf die harte Tour gelernt habe und die Sie überspringen können:
Beginnen Sie mit den Routing-Regeln, bevor Sie mit der Installation von proxy beginnen. Ich habe meinen ersten Tag damit verbracht, an der Einrichtung von Der proxy ist der einfache Teil. Zu wissen, welche Aufgaben zu welchem Modell gehören, erfordert Übung. Verbringen Sie einen Abend damit, eine Taxonomie Ihrer tatsächlichen Arbeit zu verfassen, bevor Sie das API-Konto aufladen.
Auf ein einzelnes proxy-Projekt festlegen, nicht zwischen ihnen wechseln. Ich habe mit Anti-Gravity Claude Proxy begonnen, bin zu Claude Code Router gewechselt und habe dann kurz eine dritte Option ausprobiert, bevor ich mich wieder für den Router entschieden habe. Jeder Wechsel kostete mich ein paar Stunden Konfigurationsüberarbeitung. Wählen Sie eine aus. Bleib dabei. Die Unterschiede zwischen ihnen auf der Ebene der täglichen Nutzung sind gering.
Richten Sie die Kostenüberwachung am ersten Tag ein. Sowohl DeepSeek als auch Anthropic haben die Verwendung von dashboards. Setzen Sie ein Lesezeichen darauf. Überprüfen Sie sie in den ersten zwei Wochen täglich. Der Sinn des Hybrid-Setups besteht darin, zu wissen, wohin Ihr Geld fließt, und das funktioniert nur, wenn Sie sich tatsächlich die Zahlen ansehen.
Versuchen Sie nicht, alles weiterzuleiten. Ich habe eine Phase durchlaufen, in der ich versucht habe, jede mögliche Aufgabe an DeepSeek zu verschieben, um die Einsparungen zu maximieren, einschließlich UI-Polierarbeiten, die offensichtlich nicht dorthin gehörten. Das Ergebnis war, dass den Kunden wirklich schlechtere Arbeit geliefert wurde. Die Lösung war unkompliziert: Machen Sie einen Schritt zurück, leiten Sie die Politur an Opus weiter, akzeptieren Sie, dass die Einsparungen 73 % statt 92 % betragen würden, und hören Sie mit der Optimierung auf, wenn die Erträge sinken.
Warum das über meinen eigenen Arbeitsablauf hinaus wichtig ist
Es gibt ein breiteres Muster, das ich hervorheben möchte, weil ich denke, dass es sich dabei um die eigentlich interessante Geschichte unter dem Gesichtspunkt der Kosteneinsparung handelt.
In den letzten drei Jahren war der AI-Codierungsmarkt größtenteils ein Grenz-oder-Nichts-Angebot. Entweder haben Sie für das beste verfügbare Modell bezahlt oder Sie haben deutlich schlechtere Ergebnisse in Kauf genommen. Die Kluft zwischen der obersten und der zweiten Stufe war so groß, dass jeder, der es mit der Auslieferung von Produktionscodes ernst meinte, standardmäßig denjenigen wählte, der in diesem Quartal die SWE-Bankkrone innehatte.
Diese Lücke brach im April 2026 zusammen. Es handelt sich um einen Strukturwandel im Markt. Das bedeutet, dass Sie für jede Aufgabe, bei der „kompetenter leitender Ingenieur, der genau definierte Arbeiten erledigt“ die Messlatte setzt, keine Höchstpreise mehr zahlen müssen. Die einzige Arbeit, die immer noch wirklich die Grenze fordert, ist die Arbeit, die Urteilsvermögen, Geschmack, architektonisches Denken über einen langen Kontext oder eine skeptische Überprüfung erfordert – und diese Arbeit macht einen echten, aber geringen Teil des Tages eines durchschnittlichen Entwicklers aus.
Der hybrid AI coding-Workflow ist die betriebliche Konsequenz dieser Verschiebung. Es ist die praktische Antwort auf die Frage „Was machen Sie, wenn das günstige Modell für 70 % Ihrer Aufgaben gut genug ist?“ Sie orientieren sich an der Aufgabenart, halten das Frontier-Modell für die Arbeit verfügbar, die es benötigt, und zahlen keine Premiumpreise mehr für Arbeiten, die immer der Warenklasse untergeordnet waren.
Dies ist nicht das letzte Mal, dass sich die Grenze verschiebt. In sechs Monaten wird V5 verfügbar sein oder wie auch immer GPT-5.6 heißen wird, und die Routing-Regeln müssen aktualisiert werden. Das Hybridmuster selbst ist jedoch klebrig. Sobald Sie den Mut aufgebaut haben, zu denken: „Welches Modell braucht diese Aufgabe eigentlich?“ Anstelle von „Welches Modell verwende ich standardmäßig?“ gibt es kein Zurück. Sie aktualisieren einfach die Anbieter hinter derselben Routing-Logik.
Das ist die wahre Erkenntnis. Nicht „DeepSeek ist billig.“ Nicht „Opus ist teuer.“ Die Erkenntnis ist, dass sich die Frage geändert hat. Wir wählen kein Modell mehr aus. Wir entwerfen eine Routing-Strategie für mehrere Modelle, von denen jedes die Arbeit erledigt, in der es eigentlich am besten ist, mit einem einzigen Agenten-System an der Spitze, das alles zusammenhält.
Ich brauchte neunzig Minuten und fünfzehn Cent, um einen dashboard zu verschicken, der zwanzig Dollar hätte kosten sollen. Diese Mathematik funktioniert im alten Rahmen nicht. Im Neuen funktioniert es einwandfrei.
Häufig gestellte Fragen
Wie leite ich Claude Code-Anfragen an DeepSeek V4 weiter, ohne den Claude Code CLI zu verlassen?
Installieren Sie Claude Code Router (oder Anti-Gravity Claude Proxy) und konfigurieren Sie ihn als Anthropic-kompatiblen lokalen proxy auf Port 127.0.0.1:3456. Der Router übersetzt Ihre Claude Code-Anfragen transparent in das API-Format von DeepSeek – Claude Code geht davon aus, dass er immer noch mit Anthropic kommuniziert. Die vollständige Anleitung zur Einrichtung finden Sie oben im Abschnitt zur Workflow-Einrichtung.
Ist DeepSeek V4 im realen Einsatz tatsächlich günstiger als Claude Opus 4.7?
Ja – V4 Pro kostet bei Standardtarifen etwa ein Siebtel der Kosten pro Token von Opus 4.7 (1,74 $/3,48 $ pro Million gegenüber 15 $/75 $ bei Opus). Meine Ausgaben im April sind im Vergleich zum März um 73 % gesunken, bei gleichwertiger Monatsproduktion. Die Einsparungen hängen von Ihrem Aufgabenmix ab; Pure-UI-Arbeit spart weniger als Backend-lastige Workflows.
Welche Codierungsaufgaben sollten auf Opus 4.7 statt auf DeepSeek bleiben?
Gehen Sie zu Opus für UI-Polierung, Layoutentscheidungen, Codeüberprüfung, Sicherheitsüberprüfungen, Architekturarbeiten mit langen Kontexten über 180.000 Token hinaus und alles, wo Urteilsvermögen wichtiger ist als Mechanik. DeepSeek kümmert sich kompetent um Scaffolding, Glue-Code, Unit-Tests, Mock-Data und genau spezifizierte algorithmische Aufgaben.
Kann ich DeepSeek V4 lokal für datenschutzrelevanten Code ausführen?
V4 Flash (284B Parameter) kann lokal über Ollama auf einer seriösen Workstation ausgeführt werden. Das vollständige V4 Pro 1.6T-Modell erfordert Hardware der Rechenzentrumsklasse, die die meisten Einzelentwickler nicht besitzen. Leiten Sie vertraulichen Code ausschließlich an Opus weiter oder verwenden Sie V4 Flash lokal als Fallback.
Wie hoch sind die Mindestkosten, um diesen Hybrid-Workflow selbst zu testen?
Ungefähr 2 US-Dollar – das ist das Mindestguthaben von DeepSeek im Voraus bezahlten API, mit dem etwa 2,3 Millionen Ausgabetoken zu Aktionspreisen gekauft werden. Ein ganzes Projekttestwochenende kostet in der Regel weniger als 0,50 US-Dollar an DeepSeek-Gebühren. Ihr vorhandener Anthropic API-Zugriff verwaltet die Opus-Seite.
Lasst uns zusammenarbeiten
Möchten Sie AI-Systeme aufbauen, Arbeitsabläufe automatisieren oder Ihre technische Infrastruktur skalieren? Ich würde gerne helfen.
- Fiverr (benutzerdefinierte Builds und Integrationen): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (Unternehmenslösungen): ramlit.com
- ColorPark (Design & Branding): colorpark.io
- xCyberSecurity (Sicherheitsdienste): xcybersecurity.io