Hybrid AI coding: DeepSeek V4 + Claude Code probado

Envié un AI dashboard en funcionamiento el martes pasado por quince centavos.

No es una estructura alámbrica. No es un prototipo. Un Next.js dashboard real con rutas API simuladas, un panel de tareas estilo Kanban, tres componentes de gráfico diferentes, una página de configuración que realmente persiste y una sección principal que me sentiría cómodo frente a un cliente. Toda la construcción tomó unos noventa minutos de tiempo de reloj de pared. El gasto total entre dos proveedores fue de 0,149 dólares.

¿El mismo proyecto en Opus 4.7 puro? He construido variantes de este dashboard exacto cuatro veces en los últimos seis meses como punto de referencia, y el costo nunca ha sido inferior a $11. En una mala racha con muchas revisiones, ha estado más cerca de los 28 dólares. Las matemáticas me parecieron mal la primera vez que lo vi aterrizar en una sola moneda de diez centavos y cinco centavos, así que reconstruí todo dos veces más para asegurarme de que no estaba leyendo mal el dashboard. Yo no lo estaba.

El truco no estaba en cambiar de modelo. El truco fue negarse a cambiar. Mantuve Claude Code como arnés (el mismo CLI, el mismo bucle de agente, las mismas llamadas a herramientas que he usado todos los días laborales durante el último año) y silenciosamente redirigí las partes aburridas de la compilación a DeepSeek V4 mientras mantenía las partes que realmente requieren gusto en Opus 4.7. Esa es la idea detrás del flujo de trabajo hybrid AI coding que quiero explicarle en esta publicación. No es exótico. No es un IDE nuevo. Es una capa de enrutamiento entre Claude Code y dos proveedores de modelos, y una vez configurada, dejas de pensar en ello.

Quiero ser honesto antes de continuar: esta no es una publicación de "DeepSeek reemplaza a Opus". Estoy cansado de esos. Están escritos por personas que no han enviado nada serio en ninguno de los modelos. DeepSeek V4 no es un modelo UI de frontera. No hará que tu sección de héroes se sienta viva. No detectará el sutil problema de diseño que el ojo nota pero el linter no. Lo que es es el caballo de batalla del 80% del trabajo más genuinamente útil que he usado desde que los modelos de código abierto dejaron de ser un remate. Y combinado con Claude Opus 4.7 para el 20% que realmente importa, redujo mi gasto en codificación API en aproximadamente un 78% durante abril sin empeorar el trabajo.

Esa es la historia. Así es como funciona realmente.

Por qué el enfoque convencional de "solo use Opus" deja de escalar

Durante unos dieciocho meses, mi respuesta a "¿con qué modelo debería codificar?" Era simple: cualquier cosa que Anthropic haya enviado más recientemente, porque la brecha entre Frontier y todo lo demás era lo suficientemente grande como para hacer que la diferencia de costos fuera irrelevante. Cuando analicé mi enfoque en la guía de optimización de costos de agentes AI el año pasado, todavía estaba defendiendo esa posición con salvedades. Pague por Opus, fue el razonamiento, y deje de dudar de cada mensaje.

Esa lógica sobrevive hasta que comienzas a enviar volumen.

Un desarrollador en solitario que cree una función por semana con un plan Claude Max de $ 200 está bien. Un desarrollador en solitario que ejecuta tres proyectos paralelos, un anticipo de cliente y un cronograma de video agresivo alcanzará los límites de tarifas semanales el miércoles por la tarde. Empecé a chocar contra el techo con regularidad en febrero. El límite del plan Pro ronda los 220.000 tokens por ventana de cinco horas, y en un día de construcción intensa, lo quemo en dos largas sesiones de agente. En marzo, tenía tres cuentas Claude en rotación, lo que me pareció inteligente durante aproximadamente una semana y luego comenzó a parecer un problema disfrazado de flujo de trabajo.

El problema más profundo no fueron los límites de tasas. Era que estaba pagando precios de modelo de frontera para realizar un trabajo para el que los modelos de frontera están absurdamente sobrecalificados. Generar una estructura de carpetas para un proyecto Next.js no requiere un 64,3% en SWE-bench Pro. Escribir una prueba unitaria que afirme que una función devuelve la forma correcta no requiere un razonamiento de un millón de tokens. Andamiar una ruta CRUD no requiere el modelo que acaba de presentar la mejor coherencia de contexto largo del mercado. Estaba usando un modelo de token de salida de 25 dólares por millón para producir código que cualquier modelo de código abierto decente podría producir por 0,87 dólares por millón.

Esa es la brecha que un flujo de trabajo hybrid AI coding debe cerrar.

Los números DeepSeek V4 que me hicieron prestar atención

DeepSeek V4 se lanzó el 24 de abril de 2026, aproximadamente dos semanas antes de escribir esto, como una versión preliminar con dos variantes. V4 Pro es el modelo de mezcla de expertos de 1,6 billones de parámetros con aproximadamente 49 mil millones de parámetros activos por token. V4 Flash es el primo más pequeño con 284 mil millones de parámetros con 13 mil millones activos. Ambos se entregan con una ventana de contexto de un millón de tokens incluida en el precio base, ambos se lanzan bajo la licencia MIT y ambos tienen pesos completos disponibles públicamente en HuggingFace en los repositorios oficiales deepseek-ai/DeepSeek-V4-Pro y deepseek-ai/DeepSeek-V4-Flash.

El precio es la parte que importa para el flujo de trabajo híbrido.

V4 Pro se lanzó con un precio promocional de $0,435 por millón de tokens de entrada y $0,87 por millón de tokens de salida. Esa promoción se extiende hasta el 5 de mayo, básicamente el día en que llega esta publicación, después del cual la tarifa estándar sube a $1,74 de entrada/$3,48 de salida. Incluso con la tarifa posterior a la promoción, estás viendo aproximadamente una séptima parte del costo por token de Claude Opus 4.7 y aproximadamente una sexta parte del costo de GPT-5.5 Pro en el precio de pérdida de caché. El número principal de VentureBeat llegó a "1/6th el costo de Opus 4.7", que se alinea claramente con lo que medí en las versiones reales.

El resumen original en el que estaba trabajando decía "un 76% más barato en promedio". Ese número es conservador. El margen real para V4 Pro es más cercano a un 83-86% más barato que Opus 4.7 en producción, dependiendo de la hoja de tarifas del día que utilice. V4 Flash es aún más barato: $0,14 de entrada / $0,28 de salida, lo que lo sitúa aproximadamente cincuenta veces más barato que Opus en tokens de salida. Para trabajo en segundo plano, código adhesivo y generación de pruebas unitarias, Flash es realmente difícil de superar en precio.

Pero el costo sólo importa si el modelo es realmente competente en el trabajo que le está dirigiendo. Aquí está la parte que me hizo comprometerme:

DeepSeek V4 Pro aterriza al 80,6% en SWE-bench Verified. Opus 4.7 se sitúa en el 80,8%. Se trata de un empate estadístico en el punto de referencia de ingeniería de software más citado en la industria. V4 Pro supera LiveCodeBench con 93,5. Alcanza a Codeforces ELO 3206, que está significativamente por delante del 3168 de GPT-5.5. Y obtiene una puntuación de aproximadamente 67,9% en Terminal-Bench 2.0; no es el líder (GPT-5.5 lo toma con 82,7%, Opus 4.7 con 69,4%), pero absolutamente en la misma liga.

Traduzca eso fuera del lenguaje de referencia: para el tipo de trabajo en el que un ingeniero senior competente le diría "esta es una tarea definida con una especificación limpia y una forma conocida", V4 Pro es genuinamente competitivo con la frontera. No es mejor en la revisión de código. No es mejor comprender lo que realmente quieres a partir de un mensaje vago a medio formular. No es mejor en el trabajo de arquitectura de alto contexto donde Opus aún gana. Pero para todo lo que encaja claramente en una tarea definida, la brecha con la frontera es estadísticamente ruido.

Ésta es la observación fundamental detrás de todo el flujo de trabajo híbrido.

Qué significa realmente en la práctica el "flujo de trabajo de codificación híbrido AI"

El modelo mental al que sigo volviendo no es el de "utilizar el modelo barato cuando puedas permitírtelo". Se trata de "dejar de usar el modelo caro cuando no lo necesites". Diferencia sutil, pero el marco es importante porque cambia la forma en que se crean las reglas de enrutamiento.

Aquí está la taxonomía aproximada en la que me he adaptado después de unas tres semanas de ejecutar esta configuración a tiempo completo:

Va a DeepSeek V4 Pro (o Flash, para tareas muy limitadas):

Andamiaje del proyecto: estructura inicial de Next.js, diseños de carpetas, esqueletos de enrutamiento
Generación de datos simulados y scripts semilla.
Rutas CRUD API básicas con formas predecibles
Pruebas unitarias para funciones donde la especificación es clara.
Pegar código entre interfaces definidas (funciones de adaptador, transformadores, validadores)
Problemas algorítmicos con una especificación limpia: clasificación, análisis, estructuras de datos básicas.
Scripts de automatización únicos donde sé exactamente lo que quiero
Secuencias de llamada de herramientas donde las herramientas están bien definidas.
Generación de código a partir de un archivo token del sistema de diseño Figma.
Refactorizaciones masivas donde la regla es mecánica (cambiar nombre, extraer, dividir)

Va a Claude Opus 4.7 (o GPT-5.5 Codex cuando estoy en una ventana de Codex):

Pulido UI: cualquier cosa que "se sienta bien" es el criterio de éxito.
Decisiones de diseño en una sección de héroe, disposición dashboard o cualquier superficie interactiva
Calidad de componentes y revisión estructural.
Revisión de código de cualquier cosa que esté a punto de enviar a producción.
Auditorías de seguridad, especialmente para cualquier cosa relacionada con la autenticación o los pagos.
Trabajo arquitectónico de contexto largo: razonamiento sobre una base de código en su conjunto.
Documentación que quiero leer como la escribió un humano.
Cualquier cosa creativa: nombres, textos, contenido adyacente al marketing.
Depuración de comportamientos extraños que no coinciden con un patrón de error obvio
Cualquier cosa en la que me avergonzaría enviar el primer borrador.

El límite no es estricto. Hay días en los que dejo que DeepSeek dé una primera pasada a un componente UI y luego le pido a Opus que lo refine, lo que funciona bien cuando el esqueleto subyacente es sólido pero falta el pulido. También hay días en los que empiezo con Opus, me doy cuenta de que la tarea es más mecánica de lo que pensaba y cambio la ruta a mitad de sesión.

Pero el principio más amplio es simple. Andamios DeepSeek, formas Opus. Ese es el flujo de trabajo.

La configuración: Anti-Gravity, Claude Code Router y Proxy Layer

Ahora la parte práctica. ¿Cómo se comunica Claude Code, que técnicamente es el CLI de Anthropic para los modelos de Anthropic, con un modelo chino de código abierto?

A través de un proxy. Específicamente, a través de una capa de traducción API compatible con Anthropic que se encuentra entre Claude Code CLI y el proveedor del modelo real. Hay dos proyectos principales que vale la pena conocer y he usado ambos:

Claude Code Router es el que me he decidido. Es una puerta de enlace proxy de código abierto que se vincula a un puerto local (predeterminado 127.0.0.1:3456) y le permite definir reglas de enrutamiento por tipo de solicitud. Las tareas en segundo plano van a un proveedor. Las tareas de visión pasan a otra. La codificación predeterminada pasa a un tercero. Claude Code cree que está hablando con Anthropic todo el tiempo porque proxy habla la forma exacta de solicitud y respuesta de Anthropic. El archivo de configuración del enrutador le permite asignar tipos de tareas para modelar puntos finales con aproximadamente diez líneas de JSON.

Anti-Gravity Claude Proxy es la opción alternativa. Comenzó como una forma de usar tokens de Google Antigravity para llamar a los modelos Claude dentro de Claude Code, pero la bifurcación comunitaria (ai-dev-2024/Antigravity-Claude-Code-Proxy) lo amplió para que funcione con Gemini, GPT-5, Grok y más de 20 modelos más, incluido DeepSeek. Incluye un dashboard en tiempo real y cambio de modelo por ventana, lo que suena excesivo hasta la primera vez que desea que diferentes ventanas de terminal ejecuten diferentes modelos con la misma base de código.

Profundicé en Anti-Gravity en el tutorial IDE de Anti-Gravity a principios de este año, y la guía gratuita de Claude Code proxy cubre la configuración relacionada con Backends NVIDIA NIM, OpenRouter y Ollama. Si ya se siente cómodo con ese patrón proxy, cambiar en DeepSeek V4 es un cambio de configuración de cinco minutos.

Para una configuración nueva, aquí está la secuencia real que ejecuto en una máquina nueva. Esto es para el enfoque Claude Code Router porque es el que tiene la documentación más limpia y la menor cantidad de partes móviles:

npm install -g @anthropic-ai/claude-code

# 2. Install the router
npm install -g @musistudio/claude-code-router

# 3. Initialize the config
ccr init

# 4. Edit ~/.claude-code-router/config.json
# Add your DeepSeek API key and Anthropic API key under "Providers"
# Define routes under "Router" — typically:
#   default: deepseek,deepseek-v4-pro
#   longContext: anthropic,claude-opus-4-7
#   background: deepseek,deepseek-v4-flash
#   think: anthropic,claude-opus-4-7

# 5. Start the router (it stays running in the background)
ccr start

# 6. Use Claude Code through the router instead of directly
ccr code

El comando ccr code inicia Claude Code pero lo apunta al puerto local proxy. Todo lo que haría normalmente (comandos claude, invocaciones de agentes, servidores MCP, enlaces) funciona de manera idéntica. La única diferencia es la capa de enrutamiento que se encuentra debajo.

La financiación de una cuenta DeepSeek API tarda unos noventa segundos. El saldo mínimo prepago es de $2, lo que a precio promocional le permite comprar aproximadamente 4,6 millones de tokens de entrada o 2,3 millones de tokens de salida. Para ponerlo en contexto, todo mi fin de semana de pruebas en los cuatro proyectos de mi revisión de DeepSeek V4 Pro me costó alrededor de $0,43 en cargos de DeepSeek. Dos dólares dan para mucho.

Aquí es donde hay que tener cuidado: el manejo de claves API es importante. El proxy lee claves de un archivo de configuración en su directorio de inicio. Si envías esa configuración a un repositorio público por accidente (y estuve incómodamente cerca de hacerlo el primer día), tendrás un mal día. Agregue .claude-code-router/ a su gitignore global antes de hacer cualquier otra cosa. Mantengo un repositorio de archivos de puntos separado para las configuraciones de proxy para que nunca vivan junto al código del proyecto.

La construcción del panel: un recorrido concreto

Permítanme repasar la compilación dashboard real de quince centavos porque los números abstractos no significan mucho sin un marco concreto.

El informe era sencillo. Quería un Next.js 15 dashboard para un producto de operaciones ficticio AI. Navegación en la barra lateral. Tres vistas: una descripción general con tarjetas KPI y un gráfico, una vista de tareas con un tablero estilo Kanban y una página de configuración. Simulacros de rutas API que devolvieron formas realistas. Viento de cola para estilizar. Informes para la visualización. No hay persistencia más allá del estado del componente local. Había creado esta especificación exacta tres veces antes en Opus puro, por lo que tenía números de referencia limpios con los que comparar.

Empecé con DeepSeek V4 Pro haciendo el pase de andamio. El mensaje fue deliberadamente mecánico: "Genere una estructura de proyecto de enrutador de aplicación Next.js 15 con estas tres rutas, cree las rutas API que devuelvan datos simulados que coincidan con estas interfaces TypeScript, organice los componentes de diseño básicos con Tailwind y elimine los componentes de visualización sin diseñarlos todavía". Este es el tipo de tarea en la que DeepSeek realmente prospera. Hay una especificación clara, las formas están bien definidas y el trabajo tiene más que ver con la coherencia que con el juicio.

V4 Pro produjo un esqueleto de proyecto limpio y bien organizado en aproximadamente cuatro minutos de tiempo del agente. La estructura de carpetas era exactamente la que habría construido a mano. Las interfaces de TypeScript eran correctas. Los datos simulados eran razonables: no creativos, pero tampoco erróneos. Los resguardos de los componentes tenían una escritura de accesorios adecuada y exportaciones predeterminadas sensatas. Gasto total en ese pase: alrededor de $0,04.

Luego cambié el enrutamiento a Opus 4.7 para la capa de pulido. El mensaje en esta etapa tenía un carácter diferente: "Tome el andamio existente y haga que dashboard realmente se sienta como un producto. Refine el estilo de navegación de la barra lateral. Mejore la jerarquía de tarjetas KPI. Haga que las columnas Kanban sean visualmente distintas. Preste atención al espaciado, el ritmo de la tipografía y el pulido visual general. El gráfico parece simple: dale personalidad sin hacerlo ruidoso".

Esa no es una tarea que DeepSeek haría mal, exactamente. Es una tarea que DeepSeek haría rotundamente. El resultado sería técnicamente correcto y visualmente olvidable. Opus, por otro lado, tomó aproximadamente dos docenas de pequeñas decisiones que yo nunca habría solicitado explícitamente: ajustar la altura de las líneas, elegir tokens de color semánticos para las columnas, agregar un estado de desplazamiento sutil en las tarjetas, reestructurar la leyenda del gráfico para que no compitiera con el título. Ninguna de esas decisiones estaba en mi mensaje. Todos ellos mejoraron el resultado. Ése es el trabajo por el que estoy pagando precios de frontera y vale la pena.

Costo del pase Opus: alrededor de $0,11. Total combinado: $0,149.

El mismo dashboard construido de extremo a extremo en Opus puro, en mis ejecuciones de referencia, ha costado entre $ 11 y $ 28 dependiendo de cuántos ciclos de revisión active. La versión híbrida era aproximadamente entre 73 y 187 veces más barata, dependiendo de con qué base se esté comparando. Y (esta es la parte a la que sigo volviendo) el resultado fue indistinguible de una construcción de Opus puro en calidad subjetiva, porque las partes de la construcción que necesitaban el juicio de Opus obtuvieron el juicio de Opus, y las partes que no lo necesitaban fueron manejadas por un modelo que era perfectamente capaz de realizar el trabajo mecánico.

La CTA de compilación intermedia, si ha llegado hasta aquí: si prefiere que alguien cree flujos de trabajo Claude Code de nivel de producción como este para su equipo en lugar de descubrir la configuración de proxy usted mismo, asumo compromisos de hybrid-routing a través de fiverr.com/s/EgxYmWD.

Dónde se interrumpe el flujo de trabajo híbrido (y qué hago al respecto)

Quiero ser específico acerca de los modos de falla porque toda revisión honesta los necesita y los patrones de enrutamiento que he descrito no son un almuerzo gratis.

Modo de error uno: DeepSeek completa con demasiada confianza tareas que no debería. El modelo tiende a afirmar que una tarea se realiza cuando está estructuralmente terminada pero funcionalmente rota. Tuve una sesión la semana pasada en la que V4 Pro generó una implementación Kanban "completa" que se montó, se veía bien y arrojaba un TypeError en cada evento de arrastre porque había conectado onDragEnd a un controlador indefinido. El ciclo del agente finalizó, afirmó que había sido exitoso y siguió adelante. Opus habría captado esto en una autoevaluación. DeepSeek no lo hizo. La solución es ser más agresivo con respecto a la cobertura de las pruebas en las reglas de enrutamiento: cualquier cosa con lógica interactiva obtiene un pase de prueba unitaria o una verificación manual de cordura antes de que el agente afirme que se ha completado.

Modo de falla dos: degradación del contexto prolongado que supera aproximadamente 180-200 000 tokens. El contexto de un millón de tokens anunciado es real en el sentido de que el modelo aceptará un millón de tokens de entrada. El abismo de calidad que supera aproximadamente los 180K también es real. Para trabajos arquitectónicos de base de código completo, el tipo de cosas en las que realmente necesitas cargar un árbol de producción real en contexto y razonar al respecto, Opus 4.7 aún gana decisivamente. Cubro esto con más detalle en el tutorial Gestión de contexto Claude Code 1M. La regla de enrutamiento híbrido que uso: si la tarea toca más de diez archivos a la vez, el valor predeterminado es Opus independientemente del tipo de tarea.

Modo de error tres: revisión de código y auditorías de seguridad. No envío revisiones de código a través de DeepSeek. Período. Las reseñas requieren el tipo de razonamiento escéptico que detecta el error que nadie te pidió que buscaras, y ese es exactamente el trabajo donde el juicio del modelo tiene que ser más agudo que el del escritor. Lo mismo ocurre con cualquier trabajo sensible a la seguridad: flujos de autenticación, integraciones de pagos, cualquier cosa que toque datos del usuario en reposo. DeepSeek producirá un código que parece seguro. Si realmente lo es, se requiere Opus o GPT-5.5 para verificarlo. La diferencia de costo en el trabajo de revisión es irrelevante en comparación con el costo de enviar una vulnerabilidad.

Modo de falla cuatro: agrupamiento de límite de velocidad. API de DeepSeek tiene sus propios límites de velocidad, y durante el período de promoción de lanzamiento hasta el 5 de mayo, es más probable que lo alcancen de lo habitual porque todos están probando el modelo. La mitigación aquí es mantener un respaldo de OpenRouter configurado en el enrutador para que las solicitudes DeepSeek puedan conmutar por error a un proveedor diferente que atienda los mismos pesos de modelo. Es una adición de configuración de cinco minutos y me ha ahorrado al menos tres sesiones en las últimas dos semanas.

Modo de fallo cinco: sensibilidad de los datos. DeepSeek es una empresa china con una nube china API. Para cualquier código que toque lógica patentada sensible, lo dirijo exclusivamente a Opus o, para el trabajo verdaderamente sensible, ejecuto V4 Flash localmente a través de Ollama en mi estación de trabajo. De manera realista, el modelo V4 Pro 1.6T completo no se puede ejecutar en hardware de consumo. Flash V4 es. Si su trabajo tiene preocupaciones sobre la sensibilidad de los datos, cree reglas de enrutamiento para tenerlo en cuenta y mantenga listo un respaldo local basado en Ollama para el trabajo que nunca debería abandonar su máquina.

Cómo se ven realmente las matemáticas de costos a lo largo de un mes

Quiero compartir números reales de abril para que la afirmación de ahorro no sea abstracta.

En marzo, antes de cambiar al flujo de trabajo híbrido, mi uso de Anthropic API además de la suscripción Max costaba $342 por mes. Eso fue complementar el plan Max con llamadas API desbordadas cuando los límites de tasa me recortaban en los días de mucha construcción. Aproximadamente la mitad de ese exceso se dedicó a tareas que, en retrospectiva, no necesitaban ningún razonamiento de frontera. Estructuras de carpetas. Andamios CRUD. Generación de pruebas. Refactorizadores masivos.

En abril, con el flujo de trabajo híbrido implementado, mi gasto en Anthropic API se redujo a $74. Mi gasto en DeepSeek fue de $19,42. Combinado: $93,42. Esto supone una reducción del 73 % en el gasto en codificación de API, con una producción mensual aproximadamente equivalente, sin degradación subjetiva de la calidad del trabajo que envié a los clientes.

Los ahorros se vuelven más dramáticos a medida que escala. Si estuviera ejecutando esta misma configuración a 3 veces el volumen, que es como se ve mi flujo de trabajo durante un mes de alta producción, los ahorros absolutos rondarían entre $ 700 y 800 por mes. Para una agencia pequeña que gestiona varios desarrolladores, ese es el tipo de cantidad que paga el presupuesto adicional completo de herramientas de un ingeniero.

Quiero tener cuidado de no extrapolar demasiado. Tu mezcla se verá diferente a la mía. Si realiza principalmente trabajo UI y codificación creativa, sus ahorros serán menores porque una mayor parte de su trabajo pertenece a Opus. Si se dedica principalmente a automatización, secuencias de comandos y pegamento de backend, sus ahorros serán mayores. El 73% es mi número. El tuyo aterrizará en algún lugar en un rango similar según la forma de tu trabajo.

Qué haría diferente si empezara de nuevo

Algunas cosas que aprendí por las malas y que puedes omitir:

Comience con las reglas de enrutamiento antes de comenzar con la instalación de proxy. Pasé mi primer día jugueteando con la configuración de proxy y solo logré las reglas de enrutamiento después de una semana de uso. El proxy es la parte fácil. Saber qué tareas pertenecen a qué modelo es la parte que requiere práctica. Pase una tarde escribiendo una taxonomía de su trabajo real antes de depositar fondos en la cuenta API.

Comprométete con un único proyecto proxy, no rebotes entre ellos. Comencé con Anti-Gravity Claude Proxy, cambié a Claude Code Router, luego probé brevemente una tercera opción antes de volver a instalarme en el enrutador. Cada cambio me costó un par de horas de reelaboración de la configuración. Elige uno. Quédate con ello. Las diferencias entre ellos a nivel de uso diario son pequeñas.

Configure el monitoreo de costos desde el primer día. Tanto DeepSeek como Anthropic tienen dashboard de uso. Márcalos como favoritos. Revíselos diariamente durante las primeras dos semanas. El objetivo de la configuración híbrida es saber adónde va su dinero, y eso sólo funciona si realmente observa los números.

No intentes enrutar todo. Pasé por una fase en la que intentaba enviar todas las tareas posibles a DeepSeek para maximizar los ahorros, incluido el trabajo de pulido de UI que obviamente no pertenecía allí. El resultado fue un trabajo realmente peor enviado a los clientes. La solución fue sencilla: dar marcha atrás, dirigir el pulido a Opus, aceptar que los ahorros serían del 73% en lugar del 92% y dejar de optimizar más allá del punto de rendimiento decreciente.

Por qué esto es importante más allá de mi propio flujo de trabajo

Hay un patrón más amplio que quiero señalar porque creo que es la historia realmente interesante detrás del ángulo del ahorro de costos.

Durante la mayor parte de los últimos tres años, el mercado de codificación AI ha sido una propuesta de frontera o nada. O pagaste por el mejor modelo disponible o aceptaste un resultado significativamente peor. La brecha entre el nivel superior y el segundo nivel era lo suficientemente grande como para que cualquiera que se tomara en serio el envío del código de producción optara por quien tuviera la corona del banco SWE ese trimestre.

Esa brecha colapsó en abril de 2026. DeepSeek V4 Pro alcanzó un 80,6% en SWE-bench Verified (empatado estadísticamente con Opus 4.7) a una séptima parte del precio no es una mejora marginal. Es un cambio estructural en el mercado. La implicación es que para cualquier tarea en la que el requisito sea "un ingeniero senior competente que realice un trabajo bien definido", ya no hay que pagar precios de frontera. El único trabajo que todavía exige genuinamente la frontera es el trabajo que requiere juicio, gusto, razonamiento arquitectónico de contexto largo o revisión escéptica, y ese trabajo es una parte real, pero minoritaria, del día a día del desarrollador promedio.

El flujo de trabajo hybrid AI coding es la consecuencia operativa de ese cambio. Es la respuesta práctica a la pregunta "¿qué haces cuando el modelo barato es lo suficientemente bueno para el 70% de tus tareas?" Enrutas por tipo de tarea, mantienes el modelo de frontera disponible para el trabajo que lo necesita y dejas de pagar precios elevados por el trabajo que siempre estuvo en el nivel de productos básicos.

Esta no es la última vez que se mueve la frontera. Dentro de seis meses, llegará V5 o como se llame GPT-5.6, y las reglas de enrutamiento deberán actualizarse. Sin embargo, el patrón híbrido en sí es complicado. Una vez que haya desarrollado el músculo para pensar "¿qué modelo necesita realmente esta tarea?" en lugar de "¿qué modelo uso por defecto?", no regresa. Simplemente actualiza los proveedores detrás de la misma lógica de enrutamiento.

Esa es la verdadera conclusión. No "DeepSeek es barato". No "Opus es caro". La conclusión es que la pregunta cambió. Ya no elegimos un modelo. Estamos diseñando una estrategia de enrutamiento a través de múltiples modelos, cada uno manejando el trabajo que realmente hace mejor, con un único agente en la parte superior uniéndolo todo.

Me tomó noventa minutos y quince centavos enviar un dashboard que debería haber costado veinte dólares. Esas matemáticas no funcionan en el viejo marco. Funciona perfectamente en el nuevo.

Preguntas frecuentes

¿Cómo enrutar solicitudes Claude Code a DeepSeek V4 sin salir de Claude Code CLI?

Instale Claude Code Router (o Anti-Gravity Claude Proxy) y configúrelo como un proxy local compatible con Anthropic en el puerto 127.0.0.1:3456. El enrutador traduce sus solicitudes Claude Code al formato API de DeepSeek de forma transparente: Claude Code cree que todavía está hablando con Anthropic. Para ver el tutorial de configuración completo, consulte la sección de configuración del flujo de trabajo anterior.

¿DeepSeek V4 es realmente más barato que Claude Opus 4.7 en uso real?

Sí, V4 Pro cuesta aproximadamente una séptima parte del costo por token de Opus 4.7 a tarifas estándar ($1,74/$3,48 por millón frente a los $15/$75 de Opus). Mi gasto en abril cayó un 73% en comparación con marzo en producción mensual equivalente. Los ahorros dependen de su combinación de tareas; El trabajo de pure-UI ahorra menos que los flujos de trabajo con mucho backend.

¿Qué tareas de codificación deberían permanecer en Opus 4.7 en lugar de DeepSeek?

Diríjase a Opus para pulir UI, decisiones de diseño, revisión de código, auditorías de seguridad, trabajo arquitectónico de contexto prolongado que supere los 180 000 tokens y cualquier cosa en la que el criterio importe más que la mecánica. DeepSeek maneja de manera competente andamios, código adhesivo, pruebas unitarias, datos simulados y tareas algorítmicas bien especificadas.

¿Puedo ejecutar DeepSeek V4 localmente para código sensible a la privacidad?

V4 Flash (parámetros 284B) se puede ejecutar localmente a través de Ollama en una estación de trabajo seria. El modelo completo V4 Pro 1.6T requiere hardware de centro de datos que la mayoría de los desarrolladores independientes no poseen. Para código confidencial, diríjase a Opus exclusivamente o use V4 Flash localmente como alternativa.

¿Cuál es el costo mínimo para probar este flujo de trabajo híbrido yo mismo?

Aproximadamente $ 2: ese es el saldo mínimo prepago de API de DeepSeek, que compra aproximadamente 2,3 millones de tokens de salida a precios promocionales. Un fin de semana completo de pruebas de proyectos normalmente cuesta menos de $0,50 en cargos DeepSeek. Su acceso Anthropic API existente maneja el lado Opus.

Trabajemos juntos

¿Quiere crear sistemas AI, automatizar flujos de trabajo o ampliar su infraestructura tecnológica? Me encantaría ayudar.

Fiverr (compilaciones e integraciones personalizadas): fiverr.com/s/EgxYmWD
Cartera: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y marca): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io

Hybrid AI coding: DeepSeek V4 + Claude Code probado