Los modelos de IA de código abierto cierran la brecha: DeepSeek, Qwen3 y Llama 4 ahora igualan a GPT-5

La brecha de rendimiento entre los modelos de IA abiertos y cerrados se ha reducido al 0,3%. Esto es lo que significa para la infraestructura de IA empresarial.

Los modelos de IA de código abierto cierran la brecha: DeepSeek, Qwen3 y Llama 4 ahora igualan a GPT-5

Los modelos de IA de código abierto cierran la brecha: DeepSeek, Qwen3 y Llama 4 ahora igualan a GPT-5

Resumen ejecutivo

La brecha de rendimiento entre los modelos de IA de código abierto y los propietarios se ha reducido de 17,5 puntos porcentuales a solo un 0,3% en los principales benchmarks de 2025. DeepSeek V3.2, Qwen3-235B y Llama 4 Scout ahora rivalizan con GPT-5.2 y Claude Opus 4.5 a una fracción del costo, con capacidad completa de autoalojamiento. Para las empresas que sopesan la dependencia de APIs frente a la inversión en infraestructura, el cálculo ha cambiado fundamentalmente.


Qué sucedió

Diciembre de 2025 marca un punto de inflexión en el panorama de los modelos de IA. Los modelos de lenguaje de código abierto han alcanzado casi la paridad con los sistemas propietarios más capaces, poniendo fin a un período de varios años de dominio de los modelos cerrados.

Los números cuentan la historia. El análisis de 94 LLMs líderes muestra que los modelos de código abierto están ahora a 0,3 puntos porcentuales de los sistemas propietarios en MMLU, frente a una brecha de 17,5 puntos hace apenas un año. En Chatbot Arena, la tabla de clasificación de preferencias humanas impulsada por más de 5 millones de votos de usuarios, los modelos de pesos abiertos redujeron la brecha del 8% al 1,7% entre enero de 2024 y febrero de 2025. Esa brecha ha seguido reduciéndose.

Tres familias de modelos lideran la carga del código abierto:

DeepSeek V3.2 se lanzó el 1 de diciembre de 2025, logrando paridad con GPT-5 en múltiples benchmarks de razonamiento. La arquitectura Mixture-of-Experts del laboratorio chino activa solo 37B de sus 671B parámetros por token, permitiendo rendimiento de frontera a costos de commodity.

Qwen3-235B-A22B de Alibaba iguala o supera a GPT-4o en la mayoría de los benchmarks públicos mientras activa solo 22B de sus 235B parámetros. Su actualización de razonamiento de julio de 2025 logró resultados de vanguardia entre los modelos de razonamiento de código abierto.

Llama 4 Scout de Meta ofrece una ventana de contexto de 10 millones de tokens, suficiente para procesar 7.500 páginas en una sola sesión, mientras se ejecuta en una sola GPU H100 con cuantización INT4.

Los modelos de código abierto ahora representan el 62,8% del mercado por número de modelos. El cambio ocurrió rápido. Hace dos años, los modelos propietarios dominaban.


Por qué importa

Para las empresas que construyen infraestructura de IA, esta convergencia reconfigura el cálculo de construir versus comprar.

La dinámica de costos se ha invertido. DeepSeek V3.2 cuesta $0,26 por millón de tokens de entrada, aproximadamente 10 veces más barato que GPT-5.2 Pro. Mistral Medium 3 ofrece el 90% del rendimiento de Claude Sonnet 3.7 a $0,40 por millón de tokens, 8 veces más barato que GPT-4. Las organizaciones reportan un ROI 25% mayor con enfoques de código abierto en comparación con estrategias exclusivamente propietarias.

El control de datos se vuelve posible. El autoalojamiento mantiene la información sensible completamente dentro de la infraestructura organizacional. Las empresas de salud pueden ejecutar consultas de datos de pacientes en sus propias instalaciones sin riesgos de violación de HIPAA por transmisión externa. Las instituciones financieras mantienen control total sobre algoritmos de trading y datos de clientes.

La flexibilidad de despliegue se expande. Mistral Medium 3 funciona con tan solo cuatro GPUs. Llama 4 Scout cabe en una sola H100. Estos modelos pueden desplegarse en entornos híbridos, centros de datos propios o ubicaciones edge, algo imposible con servicios propietarios exclusivamente por API.

La dependencia del proveedor se disuelve. Los modelos autoalojados no quedan obsoletos cuando los proveedores retiran versiones antiguas. Las organizaciones controlan sus cronogramas de actualización, mantienen consistencia del modelo y evitan la volatilidad de precios basados en uso que ha hecho que los mercados de PPA sean cada vez más favorables para los vendedores.


Detalles técnicos

Especificaciones de los modelos

Modelo Params totales Params activos Contexto Costo entrada/M Costo salida/M
DeepSeek V3.2 671B 37B 128K $0,26 $0,39
Qwen3-235B 235B 22B 256K $0,20 $1,20
Llama 4 Scout 109B 17B 10M $0,08 $0,30
Mistral Medium 3 131K $0,40 $2,00
Mistral Large 3 675B 41B 256K

Rendimiento en benchmarks

Programación: DeepSeek V3.2 demuestra competencia excepcional en tareas de agentes de cola larga, integrando razonamiento directamente en el uso de herramientas. Qwen3-235B logra 74,8 en LiveCodeBench v6. Llama 4 Scout alcanzó 38,1% en LiveCodeBench, superando el 32,3% de GPT-4o.

Razonamiento: Qwen3-235B obtiene 85,7 en AIME'24 y 81,5 en AIME'25. En modo de razonamiento, alcanza 92,3 en AIME25. DeepSeek V3.2-Speciale logra paridad con Gemini-3.0-Pro y rendimiento de medalla de oro en IOI 2025, ICPC World Final 2025, IMO 2025 y CMO 2025.

Contexto largo: La ventana de contexto de 10M de Llama 4 Scout permite procesar documentos legales completos, colecciones de papers de investigación o repositorios de software en sesiones únicas.

Innovaciones arquitectónicas

DeepSeek V3.2 introduce DeepSeek Sparse Attention (DSA), logrando atención dispersa de grano fino para mejoras sustanciales de eficiencia en contextos largos mientras mantiene la calidad de salida del modelo.

El modo de razonamiento híbrido de DeepSeek V3.1 alterna entre razonamiento de cadena de pensamiento y respuestas directas mediante cambios en la plantilla de chat: un modelo cubre tanto casos de uso general como aquellos que requieren razonamiento intensivo.

La línea Ministral de Mistral 3 ofrece nueve modelos densos en tamaños de 3B, 8B y 14B parámetros, cada uno en variantes Base, Instruct y Reasoning. El modelo de razonamiento de 14B alcanza el 85% en AIME 2025, ejecutándose en una sola GPU.

Requisitos de autoalojamiento

Modelo Hardware mínimo Recomendado
DeepSeek V3.2 8x H100 80GB 16x H100
Qwen3-235B 8x H100 80GB 8x H200
Llama 4 Scout 1x H100 (INT4) 2x H100
Mistral Medium 3 4x GPU 8x A100/H100
Ministral 3 14B 1x GPU de consumo 1x A100

Herramientas como OpenLLM permiten ejecutar cualquier modelo de código abierto como endpoints API compatibles con OpenAI con comandos simples. Ray Serve y Hugging Face TGI simplifican el despliegue en Kubernetes.


Qué viene después

El impulso del código abierto no muestra signos de desaceleración. La eficiencia de entrenamiento de DeepSeek —180K horas de GPU H800 por billón de tokens— sugiere una iteración rápida continua. La actualización de razonamiento de Qwen3 en julio de 2025 demostró que las mejoras post-entrenamiento continúan escalando.

Se espera que el Q1 de 2026 traiga: - Mayor expansión de ventanas de contexto más allá de los 10M tokens de Llama 4 Scout - Capacidades agénticas mejoradas a medida que el uso de herramientas madura - Modelos más pequeños y eficientes que alcancen el rendimiento actual de frontera

Para las organizaciones que aún evalúan estrategias exclusivamente de API, la ventana para el lock-in propietario se está cerrando. Con el 89% de las organizaciones ahora usando IA de código abierto, la pregunta ha pasado de "si" a "qué modelos y qué tan rápido".


La perspectiva de Introl

El autoalojamiento de modelos de código abierto de clase frontera requiere infraestructura GPU significativa, sistemas de refrigeración eficientes y experiencia operativa. Los 550 ingenieros de campo especializados en HPC de Introl despliegan y mantienen los clústeres de aceleradores que estos modelos demandan. Conoce más sobre nuestra área de cobertura.


Publicado: 18 de diciembre de 2025

Solicitar Cotización_

Cuéntanos sobre tu proyecto y te responderemos en 72 horas.

> TRANSMISIÓN_COMPLETA

Solicitud Recibida_

Gracias por su consulta. Nuestro equipo revisará su solicitud y responderá dentro de 72 horas.

EN COLA PARA PROCESAMIENTO