Análisis de DeepSeek V4 Pro: Prueba a Fondo del Open-Source de 1,6T

El momento en que me di cuenta de que DeepSeek V4 Pro realmente importaba fue a las 11:47 PM de un jueves. Tenía cuatro ventanas de terminal abiertas, cada una ejecutando una instancia diferente del modelo a través de Open Code, y las cuatro resolvían simultáneamente distintas partes de un proyecto personal que llevaba semanas postergando. Un visualizador 3D. Una landing page. Un pipeline de datos en Python. Una extensión para navegador. Mi panel de Open Code mostraba que había gastado $0,19 en cómputo hasta ese momento.

Diecinueve centavos.

La misma carga de trabajo en Claude Opus 4.7 habría consumido alrededor de $42 en créditos de API para entonces. Con GPT-5.5 Pro, estaríamos cerca de los $160. Verifiqué los números tres veces porque los cálculos parecían estar mal. No lo estaban. Las cuentas eran correctas. Lo que había cambiado era la industria, justo debajo de mis pies, mientras yo no prestaba atención.

Eso es lo que quiero subrayar desde el principio, porque si solo lees el primer párrafo de esta reseña de DeepSeek V4 Pro, quiero que te lleves la conclusión clave: la IA open-source acaba de igualar el coste de una manera que cambia las reglas para cualquier desarrollador independiente, para cualquier agencia pequeña y para cualquier fundador que lleva tiempo temiendo en silencio su factura mensual de Anthropic. Los benchmarks no llegan del todo a la cima. El contexto largo no es tan robusto como promete la hoja de especificaciones. La censura es real. Pero el desplome del coste es la historia, y la mayoría de las opiniones que he leído hasta ahora la ignoran por estar demasiado ocupadas debatiendo sobre los rankings de benchmarks.

Pasé un fin de semana completo sometiendo el modelo de 1,6 billones de parámetros a trabajo real —no pruebas de laboratorio, no demos seleccionadas, sino código real que iba a poner en producción igual. Esto es lo que encontré.

Qué es realmente DeepSeek V4 Pro

Voy a sacarme de encima la parte de las especificaciones rápidamente, porque probablemente ya las has visto esparcidas por diez sitios distintos desde el lanzamiento del 24 de abril.

DeepSeek V4 Pro es un modelo Mixture-of-Experts de 1,6 billones de parámetros, con aproximadamente 49 mil millones de parámetros activos por token. Ese número de “parámetros activos” es el que importa para el coste de inferencia: no estás pagando por ejecutar una computación equivalente a los 1,6T en cada mensaje, sino por el subconjunto estrecho de expertos que el ruteador activa para tu prompt específico. Es aproximadamente un 60% más grande que el anterior lanzamiento open source serio más grande, y es el primer modelo de pesos abiertos donde genuinamente considero que la afirmación de “al nivel de la frontera” es defendible y no solo marketing.

La ventana de contexto está anunciada en un millón de tokens. Volveremos a ese número, porque la realidad es más compleja que la promesa comercial. El límite práctico que obtuve en mis pruebas estuvo más cerca de 128K antes de notar una degradación visible en la calidad, y se vuelve abrupto pasando los 180-200K. Aún así, es excelente; simplemente no es el “millón de tokens” que promete la página de inicio.

En cuanto a arquitectura, el modelo introduce un esquema híbrido de atención denominado Compressed Sparse Attention (CSA) junto a Heavily Compressed Attention (HCA). El resultado es que la configuración de 1M tokens de V4 Pro utiliza aproximadamente el 27% de los FLOPs de inferencia por token único y apenas el 10% de la caché KV comparado con V3.2. Ese es el truco de ingeniería detrás del bajo precio. DeepSeek no solo escaló el modelo: reescribieron el stack de atención para que cada token cueste mucho menos procesar, y esa reducción se traslada casi íntegramente al precio del API.

La historia del entrenamiento es la que se va a seguir escribiendo durante años. V4 Pro se entrenó en una combinación de chips Huawei Ascend 950PR y hardware Nvidia más antiguo (A100, y según reportes algunos H100 que lograron cruzar los controles de exportación). El entrenamiento tomó entre 14 y 16 meses, incluyendo un reinicio completo tras un fallo mayor a mitad del proceso. Reuters confirmó en abril que el modelo final fue validado tanto en plataformas Nvidia como Ascend NPU. El coste total de cómputo rondó los 5,6 millones de dólares en un clúster de 16.000 GPUs. Para ponerlo en contexto, eso es casi irrelevante respecto al gasto de los laboratorios de frontera estadounidenses por generación, y se realizó en parte con chips nacionales chinos porque los controles de exportación de ASML no dejaron otra alternativa.

No quiero convertir esto en un blog de geopolítica, pero sería deshonesto reseñar DeepSeek V4 Pro sin reconocer que la existencia entera de este modelo es una respuesta directa a las restricciones de hardware de los últimos tres años. Los trucos de eficiencia en la arquitectura, la tubería híbrida de chips para entrenamiento, la política agresiva de precios: todo está definido por el hecho de que DeepSeek no podía comprar cien mil H200 y atacar el problema así. Tuvieron que ser ingeniosos. Y ahora lo ingenioso amenaza a lo costoso.

Ese es el contexto con el que abordé mis pruebas.

La configuración: cómo lo probé realmente

Voy a ser específico sobre mi configuración porque quiero que puedas reproducir cualquiera de estos pasos si tienes curiosidad.

Ejecuté DeepSeek V4 Pro a través de tres puntos de acceso diferentes durante el fin de semana:

Primero, la suscripción de Open Code Go. Cinco dólares el primer mes, diez por mes a partir de ahí, con acceso a V4 Pro, V4 Flash y un puñado de otros modelos open-weights. Esta es la opción que recomendaría a cualquiera que lea esto y quiera probarlo sin tocar la API directa. Permite ejecutar cuatro instancias paralelas simultáneamente, con interruptores de esfuerzo de razonamiento bajo/medio/alto/máximo, y un agente de herramientas funcional que maneja correctamente las llamadas a herramientas.

Segundo, la API de DeepSeek directamente. Esta es la opción bare metal: obtienes el wrapper que tú mismo construyas, pagas por token y eres responsable de toda la infraestructura del agente. Aquí es donde aparecen los números de “7x más barato que Opus 4.7” y “40x más barato que GPT-5.5 Pro”. Decrypt estimó que V4 Pro resulta aproximadamente un 98% más barato que GPT-5.5 Pro para cargas de trabajo comparables, lo que coincide con mis propias mediciones.

Tercero, inferencia local a través de Ollama, usando la variante 284B V4 Flash en lugar del modelo Pro completo. El modelo Pro completo de 1.6T es técnicamente descargable pero, en la práctica, imposible de ejecutar en el hardware de un desarrollador individual; hablamos de un set de pesos de varios cientos de gigabytes y suficiente VRAM como para hacer llorar a un pequeño centro de datos. Flash es el que realmente puedes ejecutar localmente si tienes una estación de trabajo seria, y lo incluyo porque buena parte de la pregunta “¿esto es usable?” en modelos open-weights depende del escenario de contingencia cuando la API deja de funcionar.

Mi carga de pruebas tuvo cuatro partes. Buscaba tareas que representaran trabajo real, no solo retos de leaderboard.

La primera tarea fue un explicador interactivo de la arquitectura de DeepSeek: una app web de una sola página que visualiza cómo las capas Compressed Sparse Attention gestionan los tokens a través del mixture of experts. Elegí esto deliberadamente porque explicar su propia arquitectura es justo el tipo de tarea donde un modelo debería tener ventaja en casa. Si V4 Pro no podía construir un diagrama correcto de sus propios internos, sería muy revelador.

La segunda tarea fue una animación SVG de crecimiento de planta, precisa frame a frame, con un controlador de línea de tiempo. Sorprendentemente, esto es una excelente prueba de la capacidad del modelo para mantener un sistema visual coherente en la cabeza teniendo que tomar muchas pequeñas decisiones geométricas.

La tercera tarea fue un juego tipo kart en HTML5 con controles por teclado, contador de vueltas y oponentes IA básicos. La lógica de juego es un punto donde muchos modelos fallan silenciosamente porque se necesita gestión de estado consistente entre eventos.

La cuarta tarea fue un visualizador de exoplanetas que extraía datos en vivo del NASA Exoplanet Archive y representaba las distancias orbitales a escala. Aquí puse a prueba la integración con APIs, manejo de datos y la capacidad del modelo para razonar sobre números reales extraídos de una fuente real.

Ejecuté cada tarea en V4 Pro y, en paralelo, en Claude Opus 4.7 vía Claude Code, con los mismos prompts. También volví a ejecutar las dos primeras tareas en GPT-5.5 mediante Codex como tercer punto de comparación, ya que mi comparativa GPT-5.5 vs Opus 4.7 fijó mi referencia de lo que significa “bueno” en la frontera.

Tiempo total de pruebas en todos los escenarios: unas cuatro horas. Gasto total en Open Code: aproximadamente veinte centavos. Lo de los veinte centavos es el dato que no puedo dejar de pensar.

Prueba Uno: El Explicador de Arquitectura

Lo primero que hizo V4 Pro que me sorprendió fue acertar el diagrama de enrutamiento casi completamente en el primer intento. Pedí “un explicador interactivo de cómo Compressed Sparse Attention enruta los tokens a través de tus capas mixture-of-experts — que sea clickeable, con un contador de tokens en vivo, y que muestre visualmente qué expertos se activan para una entrada dada.” No le facilité ningún código de referencia.

Lo que devolvió fue un componente funcional de React con una simulación de tokenización, una visualización del enrutador y una animación bastante limpia mostrando qué expertos se activaron para cada token. No era perfecto: la cantidad de expertos que mostraba era incorrecta por un factor de dos y la animación tenía pequeños fallos si pausabas a mitad de un token, pero funcionaba, y la arquitectura era correcta.

Opus 4.7 produjo una versión visualmente más pulida de la misma aplicación. Tipografía más limpia, árbol de componentes mejor organizado, estado predeterminado más inteligente. Pero Opus también tardó más (alrededor de 3 veces) y costó aproximadamente $1,80 en créditos de Claude Code frente a cuatro centavos en Open Code.

La comparación relevante no es “cuál es mejor”. Es “¿cuál es el valor marginal del nivel de pulido?” Si vas a entregar esto a un cliente, el nivel de detalle de Opus probablemente merece la pena. Si estás prototipando una herramienta interna o eres un desarrollador independiente iterando rápido, la salida de DeepSeek fue perfectamente aceptable y la economía es radicalmente diferente.

Una diferencia concreta que quiero señalar: el código de V4 Pro era menos opinado respecto a la estructura. Generó componentes que funcionaban pero no anticipaba futuras modificaciones como lo hace Opus. Si vas a mantener este código durante dos años, la salida de Opus es más fácil de ampliar. Si vas a borrar este código en dos semanas, la salida de V4 Pro te ahorra dinero sin sacrificar nada que vayas a echar de menos.

Prueba Dos: La Animación de Plantas en SVG

Aquí es donde V4 Pro se topó con su primer gran obstáculo, y quiero ser honesto al respecto.

La animación en sí funcionó. La planta creció, la barra temporal era funcional, las rutas SVG eran matemáticamente razonables. Pero cuando pedí "una segunda especie con comportamiento de ramificación diferente — algo más fractal, menos simétrico", la segunda iteración del modelo dañó parcialmente la primera. Reescribió secciones de la lógica de crecimiento de la especie original de formas que introdujeron regresiones sutiles.

Opus 4.7, ante el mismo seguimiento, produjo un diff aditivo limpio. Añadió la segunda especie sin tocar la primera, tal como lo haría un ingeniero senior.

Este fue el patrón que vi repetirse durante el fin de semana. V4 Pro es un excelente generador de código "one-shot": describes algo, lo construye, y ese algo funciona. Es significativamente menos sofisticado como codificador iterativo. Cuando necesitas que mantenga un modelo mental amplio del código existente y realice cambios quirúrgicos sin romper sistemas adyacentes, se acerca más a un ingeniero junior que a un ingeniero staff. Para ponerlo en contexto, este es aproximadamente el mismo rendimiento que mostró Kimi K2.6 cuando la sometí a pruebas similares en mi reseña open-source de Kimi K2.6: la categoría open-source claramente está convergiendo en un perfil de "fuerte en one-shot, más débil en iteración".

No quiero sobredimensionar esta debilidad. En dos de mis cuatro tareas, el comportamiento iterativo de V4 Pro fue adecuado. Pero en la animación SVG y el juego de karts, fue notablemente peor que Opus. El patrón parecía ser: archivos más grandes, más estado, más sistemas paralelos a seguir — es ahí cuando V4 Pro empezó a atajar y tomar atajos.

Prueba Tres: El Juego de Karts

Esta fue la más divertida de desarrollar y la comparación más instructiva.

V4 Pro generó un kart racer funcional en una sola indicación. Entrada por teclado, tres vueltas, un temporizador, tres oponentes controlados por IA con un comportamiento razonable, y una pantalla de finalización. El código tenía unas 900 líneas de HTML, CSS y JavaScript, todo en un solo archivo. Funcionaba. Era divertido de jugar durante unos noventa segundos.

Luego pedí dos cambios adicionales: "agregar una mecánica de derrape con una estela visual de deslizamiento" y "los oponentes controlados por IA deberían volverse más difíciles en cada vuelta". Este tipo de solicitud de características en capas es normal en el desarrollo real de videojuegos.

V4 Pro clavó la mecánica de derrape en el primer intento — la física era mejor de lo que esperaba, con una preservación del impulso que se sentía acertada. Pero la escala de dificultad de la IA se enredó con la lógica de comportamiento de IA existente. El modelo introdujo una nueva variable de dificultad, la conectó con el código de dirección y, de manera misteriosa, también cambió el contador de vueltas para que utilizara la misma variable, lo que rompió la detección de vueltas.

Le pedí que arreglara el contador de vueltas. Arregló el contador de vueltas, pero reintrodujo el error en la dificultad de la IA. Esto es típico en los modelos que no tienen una representación interna lo suficientemente sólida de toda la base de código: cada edición es localmente correcta y globalmente inestable.

Opus 4.7, usando las mismas indicaciones, realizó menos cambios pero con mayor cautela. También logró correctamente la mecánica de derrape, y su escala de dificultad de IA funcionó sin romper nada más. Además, costó aproximadamente $3.40 por la secuencia completa frente a ocho centavos en V4 Pro.

Ocho centavos contra tres dólares cuarenta. Por un juego de karts con derrape. En 2026. Todavía lo estoy asimilando.

Prueba cuatro: El visualizador de exoplanetas

Esta fue la tarea en la que V4 Pro me sorprendió gratamente. Extraer datos en tiempo real del NASA Exoplanet Archive, analizar el formato de consulta TAP, renderizar una vista del sistema solar a escala con distancias orbitales precisas: este es el tipo de tarea con la que pensé que un modelo de pesos abiertos podría tropezar, ya que requiere conocer convenciones reales de API y unidades astronómicas auténticas.

V4 Pro lo logró a la perfección. La consulta TAP estaba correctamente formateada. Las conversiones de unidades (de UA a píxeles, escalado logarítmico para la visibilidad) tenían sentido. Incluso añadió un detalle que no pedí: un filtro para ocultar planetas con estimaciones de masa poco fiables, porque el modelo aparentemente sabía que el archivo de la NASA contiene muchos datos especulativos.

Ese último detalle fue el tipo de momento en que un modelo deja de parecerse a un generador de código y empieza a sentirse como un colaborador que realmente ha pensado en lo que intentas construir. He vivido esa experiencia docenas de veces con Opus 4.7. Esta fue la primera vez que lo sentí con un modelo de pesos abiertos. Ese es el cambio que intento transmitir a lo largo de toda esta review de DeepSeek V4 Pro.

La realidad tras el contexto largo

Llegamos a la parte de la reseña donde tengo que señalar la mayor brecha entre la hoja de especificaciones y la realidad.

El contexto de un millón de tokens de DeepSeek V4 Pro es técnicamente real. Puedes pegar un millón de tokens y el modelo responderá. Pero la calidad de esa respuesta se desploma abruptamente en algún punto después de los 180,000-200,000 tokens, y la caída es lo suficientemente pronunciada como para no recomendar este modelo en tareas que requieran razonamiento coherente sobre entradas realmente extensas.

Probé esto con un volcado de código real de 340,000 tokens —un proyecto auténtico, no texto sintético. V4 Pro pudo responder con precisión sobre los primeros 150,000 tokens. Alrededor de los 200,000 tokens, las respuestas empezaron a incluir referencias a archivos inexistentes, pero que “sonaban correctos” basándose en patrones del contenido anterior. Cuando empecé a preguntar por código cerca del final del volcado, el modelo básicamente estaba inventando.

Opus 4.7, en el mismo volcado de 340,000 tokens, lo gestionó de principio a fin sin problemas. Ya escribí sobre este tipo de tarea en mi análisis del contexto de un millón de tokens de Opus 4.6: los modelos cerrados de última generación realmente aprovechan su contexto largo, no solo lo soportan.

Esto es una limitación real. Si tu flujo de trabajo consiste en volcar grandes bases de código en el contexto y pedir un análisis arquitectónico integral, V4 Pro no es el modelo adecuado. Úsalo para tareas más cortas y directas. Emplea Opus o Gemini para trabajo con contexto largo.

Límite práctico: yo planearía trabajar con unos 128,000 tokens de contexto funcional confiable. Sigue siendo mucho —suficiente para la mayoría de tareas reales—, pero no es un millón.

El tema de la censura

Tengo que decir esto de manera clara porque cada reseña de un modelo chino lo trata con pies de plomo y los lectores merecen la verdad.

DeepSeek V4 Pro implementa un filtrado agresivo sobre temas sensibles para el PCCh. Lo he probado deliberadamente. Si preguntas por el estatus político de Taiwán, recibes respuestas diplomáticas y evasivas. Si preguntas por la Plaza de Tiananmén, el modelo o bien se niega directamente o produce respuestas alineadas con el discurso oficial del PCCh. Si preguntas por Xinjiang, esquiva el tema.

Si tu trabajo toca de cualquier forma la política china, derechos humanos, acontecimientos históricos que resulten incómodos para el gobierno chino o análisis geopolítico relacionado con China, este no es tu modelo. Punto.

Para la mayoría del trabajo de programación esto simplemente no es relevante. No le vas a pedir al autocompletado información sobre Tiananmén. Pero quería dejarlo registrado en esta reseña porque he visto demasiadas opiniones que lo minimizan como una rareza menor. No lo es. Es un alineamiento de valores con un gobierno específico, y hay que saberlo antes de enviar análisis empresarial crítico a través de este modelo.

Merece la pena mencionar la solución local: si ejecutas V4 Flash con Ollama en tu propio hardware, la capa de censura es significativamente más débil, porque no pasas por la API alojada que aplica el filtro más estricto. Los pesos del modelo siguen reflejando los sesgos de los datos de entrenamiento, pero el comportamiento explícito de negación es principalmente cuestión de la API. Para la mayoría de los usuarios esta distinción no será relevante. Para algunos sí lo será.

Dónde V4 Pro Realmente Gana

Permíteme ser específico sobre las tareas en las que elegiría V4 Pro antes que Opus 4.7 o GPT-5.5:

Automatización a gran escala. Si ejecutas un agente que procesa miles de documentos, refactoriza cientos de archivos por lote o genera grandes volúmenes de contenido repetitivo, la ventaja de costes de V4 Pro es tan abrumadora que la diferencia de calidad apenas importa. Estás intercambiando una pequeña diferencia de calidad por una reducción de coste de 40 veces. Haz el cambio.

Trabajo de prototipado y descarte. Cualquier tarea donde iteras rápidamente sobre código desechable, construyes herramientas internas que nadie va a mantener o exploras opciones de diseño antes de decidir una dirección. La rapidez con la que V4 Pro lleva de la idea al resultado en tareas de única ejecución es realmente competitiva frente a Opus, y el precio te permite experimentar mucho más.

Flujos de trabajo intensivos en terminal. V4 Pro es realmente sólido en tareas basadas en terminal: supera a Opus en Terminal Bench y solo queda ligeramente por detrás en SWE Pro. Si tu agente pasa la mayor parte del tiempo ejecutando comandos de shell, leyendo archivos, y gestionando llamadas a herramientas, este modelo es una opción excelente.

Desarrollador individual, pequeña agencia, fundador indie. Si actualmente gastas entre $5,000 y $6,000 al mes en créditos de Anthropic u OpenAI, puedes reducirlo a $500-$1,000 al mes con V4 Pro manteniendo la mayor parte de tu flujo de trabajo, y solo delegando tareas muy específicas a los modelos de frontera. Eso es un cambio real para el negocio. He ayudado a pequeñas agencias a realizar exactamente esta auditoría de costes para clientes que están siendo ahogados por los precios de modelos de frontera.

Trabajo paralelo con múltiples instancias. El plan Open Code de $10/mes con cuatro instancias paralelas es un valor que desafía la lógica. Tuve cuatro agentes trabajando en cuatro proyectos diferentes simultáneamente durante horas, y mi gasto total fue menor que el de un café.

Dónde falla V4 Pro

Igual de específico respecto a dónde no utilizaría este modelo:

Análisis arquitectónico de contexto largo. Véase el límite de 180K mencionado arriba. Si necesitas un modelo que razone de forma coherente sobre una base de código extensa, V4 Pro no es la elección adecuada.

Refactorización quirúrgica de código existente complejo. La debilidad iterativa en la programación es real. Para trabajo incremental cuidadoso en una base de código grande, Opus sigue siendo significativamente mejor.

Sistemas de agentes en producción sin herramientas DSML. V4 Pro no ofrece la misma ergonomía de herramientas plug-and-play que Claude o los modelos de OpenAI. Debes utilizar su formato de llamada a herramientas tipo XML de DSML, que la mayoría de los frameworks de agentes aún no soportan nativamente. Open Code lo gestiona por ti; si estás creando tu propio sistema, debes prever trabajo de integración.

Cualquier tema relacionado con la política china. Ya se ha comentado. Lo destaco de nuevo porque la revisión no estaría completa sin mencionarlo.

Aplicaciones con requisitos críticos de latencia. Con 1,6T parámetros, incluso con activación dispersa, V4 Pro es más lento que los modelos punteros de código cerrado en inferencia. Si tu app necesita respuestas por debajo del segundo, este no es tu modelo.

La historia del hardware que nadie cuenta correctamente

Hay un punto más que quiero dejar claro en esta reseña de DeepSeek V4 Pro, porque la mayoría de las opiniones que he leído lo exageran o minimizan.

V4 Pro se entrenó parcialmente en chips Huawei Ascend 950PR. Esto sí es realmente novedoso. Hace un año, en el mundo occidental de la IA, se creía que todo entrenamiento serio a escala de frontera requería hardware de Nvidia, sin alternativa. DeepSeek ha demostrado que esa suposición era incorrecta, o al menos que ya no es totalmente cierta. Aún utilizaron Nvidia H100 y A100 en partes del proceso —la proporción exacta sigue siendo ambigua y DeepSeek no la ha revelado por completo—, pero Ascend gestionó porciones significativas, especialmente en la fase de aprendizaje por refuerzo.

¿Qué significa esto en la práctica? Que los laboratorios de IA chinos ahora cuentan con una opción de hardware doméstico que funciona. No es tan eficiente como Blackwell, pero es viable. Los controles de exportación de ASML, que supuestamente limitarían el desarrollo de modelos chinos, han acabado forzando el desarrollo de una pila de cómputo alternativa. Esa pila está madurando rápidamente.

Lo que esto no significa: que DeepSeek se haya puesto a la altura de OpenAI o Anthropic en capacidad de investigación total. V4 Pro es excelente y es el mejor modelo de pesos abiertos que he probado, pero en los benchmarks más exigentes sigue quedando ligeramente por detrás de GPT-5.4 Extra High y Opus 4.6. La brecha en los benchmarks de mayor nivel es real. Pero también es más estrecha que nunca en los últimos tres años, y se está cerrando, no abriendo.

La conclusión geopolítica, si es que buscas una, es que la estrategia de control de exportaciones de cómputo ha acelerado la independencia en IA de China en vez de frenarla. Ese es un tema para otro artículo, pero no se puede hacer una reseña honesta de V4 Pro sin reconocerlo.

Las Matemáticas del Costo, Una Vez Más

Permíteme cerrar el ciclo sobre el tema de precios porque es el punto al que siempre regreso.

Precios aproximados de API para tareas comparables, basados en mi uso real durante un fin de semana:

DeepSeek V4 Pro vía API directa: centavos por tarea en la mayoría de los trabajos. Todo mi fin de semana —cuatro builds nada triviales más la prueba de contexto de 340K— costó aproximadamente $1.80 en total usando la API directa.
DeepSeek V4 Pro vía Open Code Go: $10/mes fijo, con cuatro instancias en paralelo y límites generosos. Este es el modelo que realmente estoy usando.
Claude Opus 4.7 vía Claude Code: aproximadamente $60-80 por la misma carga de trabajo de fin de semana, pagado en créditos API.
GPT-5.5 Pro vía Codex: cerca de $180-220 por un uso equivalente.

La diferencia de orden de magnitud es real. El encuadre de "98% más barato que GPT-5.5 Pro" que usó Decrypt no es marketing: es lo que yo mismo comprobé. Y para muchas cargas de trabajo prácticas, la diferencia de calidad ya no justifica el abismo en el costo.

Esto es lo que quiero que todo desarrollador independiente y pequeña agencia interioricen. No tienes que ejecutar todo en modelos de frontera. Puedes dirigir el 20% superior de tu trabajo —el pensamiento arquitectónico matizado, el análisis de contexto largo, el pulido de cara al cliente— a Opus o GPT-5.5, y ejecutar el otro 80% en V4 Pro. Tu factura cae un 70-80% y la calidad de tus entregas permanece prácticamente igual, porque los modelos de frontera sólo hacen el trabajo donde su calidad realmente marca la diferencia.

Eso es exactamente lo que empecé a hacer. Ahora mi flujo de trabajo tiene dos niveles: Opus para tareas pesadas en análisis y planificación, V4 Pro para ejecución intensiva. Mi gasto en IA ha bajado casi dos tercios y no he notado ninguna diferencia en la calidad de nada de lo que he entregado.

El veredicto honesto

Si buscas una sola conclusión de esta reseña de DeepSeek V4 Pro, aquí la tienes: este es el primer modelo con pesos abiertos que desplegaría con confianza en un flujo de trabajo de producción para pequeñas empresas, con las salvedades que mencioné anteriormente.

No es el mejor modelo disponible. Opus 4.7 sigue siendo superior. GPT-5.5 Pro sigue ganando en las tareas más difíciles. Si tu presupuesto permite acceder a modelos de vanguardia y tu trabajo exige esa calidad, sigue utilizándolos.

Pero si tu presupuesto no da para modelos frontera, o si gran parte de tu carga de trabajo no necesita realmente calidad de vanguardia, V4 Pro es un salto significativo sobre cualquier otra alternativa en la categoría de pesos abiertos. Es mejor que Kimi K2.6 en la mayoría de mis pruebas. Es mejor que Qwen 3.6 en codificación agenteica, y de forma notable en tareas largas. Está por delante de Gemma 4 para trabajos serios, aunque Gemma sigue siendo mi opción local preferida para uso totalmente offline.

La verdad incómoda para los laboratorios de frontera es que “suficientemente bueno, diez veces más barato” es una posición competitiva devastadora, y DeepSeek V4 Pro es el primer modelo con pesos abiertos que ocupa ese lugar de forma genuina. Las páginas de precios en los laboratorios americanos van a tener que ajustarse. No sé cuán rápido, pero van a tener que hacerlo.

Y aquí está el punto al que sigo volviendo desde aquella noche de jueves a las 23:47, con cuatro terminales corriendo y una cuenta de veinte centavos. El futuro que pensé que estaba a cinco años de distancia — IA open source capacitada, que puedes ejecutar en cuatro instancias paralelas por el precio de un café — no está a cinco años. Es una suscripción en la nube con un botón de “$5 por tu primer mes” en la página principal.

Si has estado esperando para tomarte en serio la IA open source porque aún no era lo suficientemente buena, la espera terminó. Ve y descárgala. Ponla a correr. Deriva el trabajo descartable hacia ella y reserva tu presupuesto frontier para aquellas tareas que realmente lo requieren. Te sorprenderá lo poco que extrañarás los modelos caros para el 80% de lo que construyes.

Ese es el verdadero titular. Todo lo demás es comentario.

Preguntas Frecuentes

¿DeepSeek V4 Pro es realmente de código abierto?

DeepSeek V4 Pro se lanza bajo una licencia de pesos abiertos, lo que significa que los pesos del modelo se pueden descargar y ejecutar localmente, aunque los datos de entrenamiento y el código completo de entrenamiento no están completamente publicados. Para la mayoría de fines prácticos —autoalojamiento, ajuste fino, inferencia local— funciona como open source. Los pesos Pro de 1.6T son poco prácticos para hardware de consumo, pero la variante V4 Flash de 284B se puede ejecutar mediante Ollama en estaciones de trabajo serias.

¿Cómo se compara DeepSeek V4 Pro con GPT-5.5 y Opus 4.7 en programación?

V4 Pro está ligeramente por detrás de Opus 4.7 y GPT-5.5 Pro en los benchmarks de programación más complejos, pero supera a Opus en Terminal Bench y queda solo un poco detrás de GPT-5.4 en SWE Pro. Para tareas de codificación de una sola pasada es competitivo; para refactorizaciones iterativas complejas en grandes bases de código, los modelos cerrados de frontera siguen siendo significativamente mejores. Consulta los walkthroughs de pruebas anteriores para comparaciones específicas.

¿Cuál es el rendimiento real de DeepSeek V4 Pro con contextos largos?

A pesar del contexto publicitado de un millón de tokens, la calidad práctica disminuye visiblemente más allá de los 180,000-200,000 tokens. Medí un techo fiable de uso de aproximadamente 128K tokens en pruebas reales sobre bases de código antes de que comience la confabulación. Para análisis arquitectónicos con mucho contexto, Opus 4.7 o Gemini siguen siendo mejores opciones.

¿DeepSeek V4 Pro es más barato que Claude y GPT?

Sí, de forma drástica. El precio de la API es aproximadamente 7 veces menor que el de Opus 4.7 y unas 40 veces menor que el de GPT-5.5 Pro para cargas de trabajo comparables. El plan Open Code Go a $10/mes con cuatro instancias paralelas es la forma más rentable de acceder para la mayoría de los desarrolladores independientes. Mi fin de semana completo de pruebas costó menos de $2 en gasto total.

¿DeepSeek V4 Pro tiene censura?

Sí. La API alojada aplica filtros de contenido acorde a la línea del CCP en temas como el estatus político de Taiwán, la Plaza de Tiananmen y Xinjiang. Para trabajos de programación esto casi nunca ocurre, pero para análisis que toquen política china o derechos humanos, conviene usar otro modelo. La inferencia local mediante Ollama tiene un filtrado mucho más débil porque evita la capa de API.

Trabajemos Juntos

¿Quieres construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudarte.

Fiverr (desarrollos e integraciones a medida): fiverr.com/s/EgxYmWD
Portafolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de ciberseguridad): xcybersecurity.io