Cómo DeepSeek y Qwen transforman la economía de la infraestructura de IA
Actualizado el 11 de diciembre de 2025
Actualización de diciembre de 2025: DeepSeek R1 se entrenó por $5.6M con 2,000 GPUs NVIDIA H800 frente a $80-100M con 16,000 H100s para modelos occidentales comparables. Los modelos chinos de código abierto crecieron del 1.2% a casi el 30% del uso global en 2025. AWS, Azure y Google Cloud ahora ofrecen implementación de DeepSeek. HSBC, Standard Chartered y Saudi Aramco están probando o implementando DeepSeek. Qwen 2.5-Max cuesta $0.38/M tokens frente a alternativas occidentales significativamente más caras.
DeepSeek afirma haber entrenado su modelo R1 por solo $5.6 millones utilizando 2,000 GPUs NVIDIA H800.¹ Los modelos occidentales comparables requirieron entre $80 y $100 millones y 16,000 GPUs H100.² El lanzamiento de enero de 2025, programado un día antes del anuncio de Stargate de $500 mil millones de OpenAI, provocó una pérdida de capitalización de mercado sin precedentes de $589 mil millones en un solo día para NVIDIA.³ Los modelos de IA chinos pasaron de ser una curiosidad regional a un desafío de infraestructura global en un solo lanzamiento de producto.
La afirmación de eficiencia exige un examen detallado. Los modelos chinos de código abierto crecieron del 1.2% del uso global a finales de 2024 a casi el 30% en 2025.⁴ Alibaba reporta más de 170,000 modelos derivados construidos sobre Qwen.⁵ HSBC, Standard Chartered y Saudi Aramco ahora prueban o implementan modelos DeepSeek.⁶ Amazon Web Services, Microsoft Azure y Google Cloud ofrecen implementación de DeepSeek a sus clientes.⁷ La economía de infraestructura que antes favorecía el gasto masivo de capital puede estar cambiando hacia enfoques centrados en la eficiencia que transforman cómo las organizaciones deberían planificar sus inversiones en IA.
El avance en eficiencia de DeepSeek
DeepSeek, una empresa con sede en Hangzhou con menos de 200 empleados, respaldada por el fondo cuantitativo High-Flyer ($8 mil millones en activos bajo gestión), repensó cómo se entrenan los modelos.⁸ En lugar de depender de infraestructura intensiva en cómputo, sus modelos aprovechan el aprendizaje por refuerzo y arquitecturas Mixture-of-Experts para mejorar el rendimiento mientras reducen las demandas computacionales.⁹
La arquitectura MoE representa el núcleo técnico de las ganancias en eficiencia. En lugar de activar todos los parámetros para cada solicitud de inferencia, los modelos MoE activan solo las redes de expertos relevantes. El enfoque reduce los costos computacionales hasta en un 30% en comparación con los modelos densos tradicionales mientras mantiene o supera el rendimiento.¹⁰ DeepSeek demostró que el co-diseño efectivo de software y hardware permite el entrenamiento rentable de modelos grandes, nivelando el campo de juego para equipos más pequeños.
Los controles de exportación de EE.UU. provocaron una explosión de improvisación en todo el sector de IA de China.¹¹ Sin acceso a las GPUs más avanzadas de NVIDIA, los investigadores chinos desarrollaron técnicas para lograr resultados competitivos con el hardware disponible. La restricción se convirtió en catalizador. DeepSeek sorprendió a los observadores globales con un modelo que competía con las capacidades de GPT-4 a una fracción del costo y cómputo.
Las implicaciones para la infraestructura van más allá de los costos de entrenamiento. Si los costos de inferencia siguen curvas de eficiencia similares, los proveedores de nube podrían reducir el gasto de capital de $80-100 mil millones anuales a $65-85 mil millones por proveedor de servicios en la nube.¹² La reducción afectaría a todos, desde fabricantes de chips hasta operadores de centros de datos y proveedores de energía.
Qwen y el ecosistema de modelos chinos
Los modelos Qwen de Alibaba ofrecen una eficiencia que se traduce directamente en economía empresarial. Qwen 2.5-Max cuesta aproximadamente $0.38 por millón de tokens, significativamente más barato que los modelos occidentales competidores mientras iguala o supera el rendimiento en varios benchmarks.¹³ Para empresas que procesan miles de millones de tokens mensualmente, la diferencia de costo determina la rentabilidad.
El CEO de Airbnb, Brian Chesky, declaró que la empresa prefiere Qwen de Alibaba porque es "rápido y barato".¹⁴ El Ministerio de Economía de Japón eligió Qwen sobre alternativas estadounidenses para ciertas aplicaciones.¹⁵ LVMH se asoció con Alibaba para aprovechar Qwen y Model Studio para operaciones de retail digital en China.¹⁶ La adopción se extiende más allá de startups conscientes de los costos hacia grandes empresas con presupuestos sustanciales de IA.
Qwen 3 representa una de las familias de modelos de código abierto más completas lanzadas en 2025. La línea abarca desde 500 millones hasta 110 mil millones de parámetros, incluyendo tanto modelos densos como dispersos.¹⁷ Un enfoque operativo dual a través de los modos "Pensamiento" y "No Pensamiento" cambia dinámicamente según la complejidad de la tarea, asignando cómputo donde importa y conservando recursos en otros casos.
Baichuan se posiciona como el modelo chino premier para aplicaciones específicas de dominio. Construido con enfoque en derecho, finanzas, medicina y literatura china clásica, ofrece rendimiento en tareas lingüística y culturalmente matizadas.¹⁸ A través de la codificación posicional ALiBi, Baichuan soporta manejo de contexto más largo con inferencia eficiente. Las variantes cuantizadas en int8 e int4 aseguran la implementación en GPUs de grado consumidor de menor costo.¹⁹
Impacto en la inversión occidental en infraestructura
Las reacciones de Wall Street revelaron una genuina incertidumbre. Jefferies advirtió que el enfoque de DeepSeek "perfora parte de la euforia del capex" después de los compromisos de gasto de Meta y Microsoft que superan los $60 mil millones cada uno.²⁰ Goldman Sachs sugirió que el desarrollo podría remodelar la competencia al reducir las barreras de entrada.²¹ El Nasdaq compuesto cayó 3.1% mientras que el S&P 500 bajó 1.5%.²²
El escenario alcista invoca la paradoja de Jevons: las mejoras en eficiencia conducen a inferencia más barata, estimulando una mayor adopción de IA que en última instancia impulsa una mayor demanda de infraestructura.²³ Los costos más bajos permiten aplicaciones anteriormente antieconómicas. Más aplicaciones significan más inferencia. Más inferencia eventualmente significa más hardware, solo implementado de manera más eficiente.
El escenario moderado sugiere que los costos de entrenamiento de IA permanecen estables mientras que el gasto en infraestructura de inferencia disminuye 30-50%.²⁴ Los proveedores de nube reducirían el gasto de capital mientras capturan cargas de trabajo de IA similares o mayores. Las ganancias en eficiencia fluirían hacia los usuarios como precios más bajos en lugar de hacia los proveedores de infraestructura como márgenes.
Una desaceleración en el gasto de infraestructura de IA podría impactar temporalmente a los fabricantes de chips y proveedores de hardware.²⁵ Sin embargo, las ganancias en eficiencia de las optimizaciones de modelos y reducciones de costos podrían llevar a una adopción de IA aún mayor a largo plazo, impulsando finalmente una mayor demanda de hardware de IA. El momento importa: el dolor a corto plazo puede preceder a la ganancia a largo plazo.
Implicaciones estratégicas para la planificación de infraestructura
La industria parece estar pivotando lejos del entrenamiento de modelos de lenguaje masivos para casos de uso generalistas.²⁶ Los modelos más pequeños ajustados y personalizados para casos de uso específicos reemplazan cada vez más a los modelos frontera de propósito general para muchas aplicaciones. El cambio favorece la inferencia eficiente a escala sobre las ejecuciones masivas de entrenamiento.
La emergencia de DeepSeek destaca un cambio creciente en toda la industria desde el escalado por fuerza bruta hacia la optimización inteligente.²⁷ Los actores establecidos incluyendo OpenAI y Google enfrentan presión para explorar mejoras de eficiencia a medida que la adopción de IA escala globalmente. La presión competitiva beneficia a los usuarios mientras potencialmente reduce los márgenes de los proveedores de infraestructura.
Las organizaciones que planifican infraestructura de IA deberían considerar las tendencias de eficiencia. Los modelos que rinden de manera comparable a menor costo de cómputo desafían las suposiciones sobre los requisitos de capacidad. La distinción entre infraestructura de entrenamiento (aún intensiva en cómputo) e infraestructura de inferencia (cada vez más eficiente) puede ampliarse. Sobreconstruir capacidad de inferencia basándose en patrones de uso actuales podría dejar a las organizaciones con exceso de capacidad a medida que mejora la eficiencia.
Los modelos chinos también crean decisiones de implementación. Muchas empresas ahora pueden acceder a capacidades de IA chinas a través de proveedores de nube occidentales, combinando infraestructura familiar con modelos eficientes. Las preocupaciones de soberanía, los requisitos regulatorios y las consideraciones competitivas influyen en si adoptar modelos chinos a pesar de sus ventajas de eficiencia.
La economía de infraestructura de IA que parecía establecida en 2024, donde la escala de cómputo determinaba la capacidad, ahora enfrenta preguntas fundamentales. DeepSeek demostró que la ingeniería inteligente puede sustituir al cómputo bruto. Qwen demostró que la eficiencia de código abierto puede competir con la escala propietaria. Las organizaciones que construyeron estrategias de IA en torno a capacidad de cómputo ilimitada ahora deben considerar alternativas centradas en la eficiencia que desafían sus suposiciones sobre lo que requiere la infraestructura de IA.
Puntos clave
Para estrategas de infraestructura: - DeepSeek entrenó R1 por $5.6M con 2,000 GPUs H800 vs $80-100M y 16,000 H100s para modelos occidentales comparables - La arquitectura MoE reduce los costos computacionales 30% vs modelos densos; las ganancias de eficiencia provienen del co-diseño software-hardware - Los modelos chinos de código abierto crecieron del 1.2% al 30% del uso global en 2025; Alibaba reporta más de 170,000 modelos derivados de Qwen
Para equipos empresariales de IA: - Qwen 2.5-Max cuesta ~$0.38/millón de tokens—significativamente más barato que alternativas occidentales con rendimiento comparable - El CEO de Airbnb cita preferencia por Qwen de Alibaba porque es "rápido y barato"; el Ministerio de Economía de Japón eligió Qwen sobre alternativas de EE.UU. - AWS, Azure y GCP ahora ofrecen implementación de DeepSeek; la adopción empresarial incluye HSBC, Standard Chartered, Saudi Aramco
Para planificación financiera: - Si la eficiencia de inferencia sigue los patrones de entrenamiento, los proveedores de nube podrían reducir CapEx de $80-100B a $65-85B anuales - NVIDIA perdió $589B de capitalización de mercado en un solo día con el anuncio de DeepSeek; Nasdaq cayó 3.1%, S&P 500 bajó 1.5% - Jefferies: DeepSeek "perfora la euforia del capex" tras compromisos de gasto de Meta y Microsoft de $60B+ cada uno
Para planificadores de capacidad: - La industria pivota de LLMs masivos generalistas a modelos más pequeños ajustados para casos de uso específicos - La infraestructura de entrenamiento permanece intensiva en cómputo; la infraestructura de inferencia es cada vez más eficiente—planifique diferente - Sobreconstruir capacidad de inferencia basándose en patrones actuales arriesga activos varados a medida que mejora la eficiencia
Para planificación estratégica: - Los controles de exportación provocaron improvisación; la restricción se convirtió en catalizador para innovación en eficiencia - Escenario de paradoja de Jevons: la eficiencia permite más aplicaciones, impulsando finalmente mayor demanda de hardware - Las organizaciones deben considerar alternativas centradas en eficiencia al planificar requisitos de infraestructura
Referencias
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?" 2025. https://www.bain.com/insights/deepseek-a-game-changer-in-ai-efficiency/
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"
-
TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans, and what analysts are saying." January 27, 2025. https://techcrunch.com/2025/01/27/deepseek-punctures-tech-spending-plans-and-what-analysts-are-saying/
-
Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models." December 9, 2025. https://www.gizmochina.com/2025/12/09/why-u-s-startups-are-dumping-western-ai-for-chinas-open-source-models/
-
Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)." September 2025. https://intuitionlabs.ai/articles/chinese-open-source-llms-2025
-
iKangai. "The Enterprise AI Shift: How Chinese Models Are Challenging Silicon Valley's Dominance." 2025. https://www.ikangai.com/the-enterprise-ai-shift-how-chinese-models-are-challenging-silicon-valleys-dominance/
-
iKangai. "The Enterprise AI Shift."
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"
-
IDC Blog. "DeepSeek's AI Innovation: A Shift in AI Model Efficiency and Cost Structure." January 31, 2025. https://blogs.idc.com/2025/01/31/deepseeks-ai-innovation-a-shift-in-ai-model-efficiency-and-cost-structure/
-
Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models."
-
World Economic Forum. "Why China's AI breakthroughs should come as no surprise." June 2025. https://www.weforum.org/stories/2025/06/china-ai-breakthroughs-no-surprise/
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"
-
Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models."
-
Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models."
-
Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."
-
Alibaba Cloud. "LVMH and Alibaba Cloud Extend Partnership." 2025.
-
Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."
-
Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."
-
Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."
-
TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans."
-
TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans."
-
TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans."
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"
-
IDC Blog. "DeepSeek's AI Innovation."
-
IDC Blog. "DeepSeek's AI Innovation."