Sélection de fournisseurs de colocation pour l'IA : installations DGX-Ready et exigences de racks 120kW
Mis à jour le 8 décembre 2025
Mise à jour décembre 2025 : Le rack de 120kW est désormais la référence de base, non plus un objectif ambitieux. Le NVIDIA GB200 NVL72 fonctionne à 120kW, tandis que le Vera Rubin NVL144 vise 600kW par rack d'ici 2026. L'adoption du refroidissement liquide a atteint 22 % des centres de données (marché : de 5,52 Md$ à 15,75 Md$ d'ici 2030). Le refroidissement direct sur puce détient 47 % de parts de marché. Colovore a sécurisé 925 M$ pour des installations à 200kW/rack. Les exigences DGX-Ready évoluent pour les systèmes Blackwell, les fournisseurs se précipitant pour supporter des densités de 150-200kW comme étape intermédiaire vers l'infrastructure Vera Rubin à 600kW.
Choisir le mauvais fournisseur de colocation pour une infrastructure IA conduit à des arrêts thermiques, des pannes électriques et 8 millions de dollars d'investissements GPU inutilisables, comme l'a découvert une entreprise du Fortune 500 lorsque l'installation « prête pour l'IA » de leur fournisseur s'est révélée incapable de refroidir des racks de 80kW.¹ Le programme DGX-Ready de NVIDIA certifie seulement 47 installations dans le monde qui répondent aux exigences extrêmes des déploiements GPU modernes, créant un marché favorable aux vendeurs où les fournisseurs qualifiés pratiquent des tarifs 3 fois supérieurs et maintiennent des listes d'attente de 18 mois.² L'écart entre les promesses marketing et les capacités réelles oblige les organisations à évaluer des dizaines de paramètres techniques, de la correction du facteur de puissance aux spécifications de renforcement sismique, tout en se disputant les capacités limitées dans des installations qui supportent véritablement des densités de 120kW par rack.
Le paysage de la colocation se fragmente en trois niveaux : les fournisseurs traditionnels qui peinent avec des racks de 10kW, les installations transitoires gérant difficilement 40kW, et les opérateurs d'élite atteignant 120kW+ grâce au refroidissement liquide et à une infrastructure électrique massive.³ Chaque NVIDIA DGX H100 SuperPOD nécessite un minimum de 35kW par rack, les configurations optimales atteignant 120kW en pleine charge avec réseau et stockage.⁴ Les organisations découvrent que 90 % des installations de colocation ne peuvent tout simplement pas supporter une infrastructure IA moderne, quelles que soient les promesses marketing, forçant des migrations vers des installations dédiées ou des rénovations coûteuses qui retardent les déploiements de 12 à 18 mois.
L'infrastructure électrique définit la contrainte fondamentale
La colocation IA moderne exige des densités de puissance que les installations traditionnelles ne peuvent physiquement délivrer. Un seul rack de 120kW nécessite 600 ampères en triphasé 208V, exigeant plusieurs circuits de 225A par rack.⁵ L'infrastructure électrique doit gérer non seulement les charges en régime permanent, mais aussi les variations de facteur de puissance des charges GPU qui oscillent entre 0,95 et 0,85 selon l'intensité de calcul. Les installations conçues pour des charges IT stables subissent des distorsions harmoniques lorsque les GPU alternent entre différents modes opérationnels.
La redondance électrique devient exponentiellement complexe à haute densité. La redondance 2N traditionnelle double les coûts d'infrastructure tandis que les configurations N+1 risquent des pannes en cascade pendant la maintenance. Les installations DGX-Ready implémentent des architectures 2N+1 avec des lignes d'alimentation isolées empêchant tout point unique de défaillance.⁶ Chaque chemin d'alimentation inclut des systèmes UPS à double conversion en ligne maintenant la qualité de l'alimentation dans une variation de tension de 2 % et une distorsion harmonique totale de 3 %. L'alimentation de secours par batterie doit soutenir la pleine charge pendant 15 minutes minimum, nécessitant 2 400 kWh de capacité batterie pour un déploiement IA de 10 MW.
La disponibilité de l'alimentation utilitaire contraint la sélection de site plus que tout autre facteur. Les principaux marchés de colocation comme le nord de la Virginie et la Silicon Valley font face à des moratoires sur l'électricité, avec de nouvelles capacités indisponibles avant 2027.⁷ Les marchés secondaires offrant un accès immédiat à l'électricité pratiquent des tarifs premium malgré une connectivité inférieure. Les installations de Phoenix avec de l'électricité disponible facturent 500 $ par kW mensuels contre 180 $ en Virginie contrainte en énergie.⁸ Les organisations doivent équilibrer disponibilité électrique, exigences de latence et considérations opérationnelles.
La capacité de refroidissement détermine la densité réelle versus annoncée
Les promesses marketing de « support haute densité » s'effondrent face aux charges thermiques réelles. Un rack de 120kW génère 409 000 BTU/heure de chaleur, l'équivalent de 34 chaudières résidentielles fonctionnant en continu.⁹ Le refroidissement par air atteint ses limites physiques autour de 30kW par rack même avec confinement d'allées chaudes et flux d'air optimisé. Atteindre une densité de 120kW nécessite un refroidissement liquide, soit des échangeurs thermiques à porte arrière, soit des solutions directes sur puce.
Les fournisseurs de colocation abordent le refroidissement liquide avec des niveaux de sophistication variés. Les implémentations basiques fournissent de l'eau refroidie vers des équipements de refroidissement fournis par le client, transférant la complexité aux locataires. Les installations avancées offrent le refroidissement en tant que service avec des CDU intégrés, collecteurs et surveillance. La certification NVIDIA DGX-Ready exige une température d'eau d'alimentation de 25°C avec une capacité de refroidissement minimale de 500 kW par rack.¹⁰ Les fournisseurs doivent démontrer une redondance de refroidissement N+1 avec basculement automatique en moins de 30 secondes.
Les heures de free cooling impactent significativement les coûts opérationnels. Les installations en climats nordiques atteignent plus de 6 000 heures de free cooling annuellement, réduisant les coûts de 120 000 $ par MW par rapport au refroidissement mécanique.¹¹ Cependant, les climats froids présentent des défis de construction et peuvent manquer de main-d'œuvre qualifiée. L'équilibre optimal dépend des patterns de charge spécifiques et des exigences métier. Les charges d'inférence 24/7 bénéficient davantage du free cooling que les travaux d'entraînement par lots qui peuvent être décalés vers des périodes plus fraîches.
La connectivité réseau permet les charges de travail IA distribuées
La colocation IA exige une capacité réseau et une diversité sans précédent. Les charges d'entraînement génèrent 400 Gbps de trafic soutenu entre nœuds distribués, tandis que le service d'inférence exige une latence inférieure à la milliseconde vers les utilisateurs finaux.¹² Les installations DGX-Ready fournissent au minimum une connectivité 4x400GbE par rack avec une latence inférieure à la microseconde au sein de l'installation. Les options de cross-connect doivent supporter simultanément les fabrics InfiniBand et Ethernet.
La diversité des opérateurs empêche les partitions réseau qui fragmentent les travaux d'entraînement distribués. Les installations d'élite maintiennent des connexions vers plus de 20 opérateurs avec des chemins fibre diversifiés.¹³ Les accès cloud vers AWS Direct Connect, Azure ExpressRoute et Google Cloud Interconnect permettent des déploiements hybrides. Des longueurs d'onde dédiées entre installations géographiquement distribuées supportent la reprise après sinistre et la migration des charges de travail. Le coût mensuel pour une connectivité complète atteint 50 000 $ pour un déploiement de 10 racks.
Les accords de peering Internet affectent dramatiquement les coûts de service d'inférence. Les installations avec un peering robuste économisent 60-80 % sur les coûts de bande passante par rapport aux arrangements de transit pur.¹⁴ Les principaux points d'échange de peering comme Equinix IX fournissent un accès direct à des milliers de réseaux. Les réseaux de distribution de contenu mettent en cache les modèles fréquemment accédés aux emplacements périphériques. Le routage intelligent optimise la sélection de chemin en fonction des paramètres de latence et de coût.
La sécurité et la conformité façonnent la sélection des fournisseurs
L'infrastructure IA contient une propriété intellectuelle précieuse nécessitant une sécurité complète. Les installations DGX-Ready implémentent des architectures de défense en profondeur avec plusieurs couches de sécurité.¹⁵ La sécurité périmétrique inclut des barrières anti-véhicule bélier, des sas de sécurité et des gardes armés 24/7. Les contrôles d'accès biométriques restreignent l'entrée aux salles de données. Des cages individuelles fournissent une isolation physique avec couvertures de toit empêchant les intrusions par-dessus. Les systèmes de caméras maintiennent des enregistrements sur 90 jours avec détection d'anomalies par IA.
Les certifications de conformité valident les implémentations de sécurité. L'attestation SOC 2 Type II confirme l'efficacité des contrôles dans le temps. La certification ISO 27001 démontre une gestion systématique de la sécurité. La conformité HIPAA permet les charges de travail IA en santé. Les services financiers exigent des certifications spécifiques comme PCI DSS ou FISMA selon les types de charges. Chaque certification ajoute une charge opérationnelle mais élargit les marchés accessibles.
La sécurité de la chaîne d'approvisionnement gagne en importance à mesure que la valeur des GPU augmente. Les installations doivent vérifier l'authenticité du matériel et maintenir la chaîne de traçabilité. Les services de destruction sécurisée empêchent les fuites de données des équipements décommissionnés. Certains fournisseurs offrent des environnements d'exécution de confiance avec modules de sécurité matériels. Les mesures de sécurité supplémentaires ajoutent 10-15 % aux coûts de base de colocation mais préviennent les violations catastrophiques.
Introl évalue les fournisseurs de colocation à travers notre zone de couverture mondiale, ayant déployé une infrastructure GPU dans plus de 100 installations à travers le monde.¹⁶ Notre cadre d'évaluation analyse 127 paramètres techniques, identifiant les fournisseurs véritablement capables de supporter des charges de travail IA haute densité versus ceux qui ne font que le prétendre.
La distribution géographique affecte la latence et les coûts
La géographie de la colocation impacte les déploiements IA à travers plusieurs vecteurs. Les charges d'entraînement tolèrent une latence plus élevée, permettant un placement dans des emplacements à faible coût. Le service d'inférence exige une proximité avec les utilisateurs, nécessitant une distribution géographique. Les réglementations de souveraineté des données imposent un traitement dans le pays pour certains jeux de données. Le risque de catastrophe naturelle affecte les coûts d'assurance et la planification de continuité d'activité.
Les marchés primaires (nord de la Virginie, Silicon Valley, Dallas) offrent une connectivité supérieure mais font face à des contraintes de capacité. Les coûts de colocation atteignent 600 $ par kW mensuels avec des engagements de 24 mois requis.¹⁷ Les marchés secondaires (Phoenix, Atlanta, Chicago) fournissent une capacité disponible à 300-400 $ par kW. Les marchés tertiaires (Salt Lake City, Omaha, Columbus) offrent des tarifs à 200 $ par kW mais un support écosystème limité.
Les considérations internationales compliquent la sélection des fournisseurs. Les installations européennes sont conformes au RGPD mais coûtent 40 % de plus que les équivalents américains. Les installations asiatiques offrent une proximité avec la fabrication mais font face à une incertitude réglementaire. Les déploiements multinationaux doivent naviguer entre différentes normes électriques, approches de refroidissement et pratiques opérationnelles. Les fluctuations de devises ajoutent 5-10 % d'incertitude aux contrats internationaux.
Structures contractuelles et conditions commerciales
Les contrats de colocation pour infrastructure IA diffèrent substantiellement des arrangements traditionnels :
Engagements de puissance : Les contrats spécifient la consommation électrique engagée avec des provisions « take-or-pay ». L'utilisation excédentaire entraîne des pénalités de 500 à 1 000 $ par kW.¹⁸ Les fournisseurs exigent 80 % d'utilisation de la puissance dans les 6 mois. La puissance non utilisée ne peut être récupérée une fois allouée. Les réservations de croissance sécurisent la capacité future aux tarifs actuels.
SLA de refroidissement : Les garanties de température et d'humidité préviennent le throttling thermique. La température de l'eau d'alimentation doit rester dans les 1°C de la spécification. Les débits garantissent un GPM minimum par rack. Les temps de réponse pour les pannes de refroidissement ne peuvent excéder 15 minutes. Les pénalités atteignent 10 000 $ par heure pour les violations de SLA.
Conditions de flexibilité : Les charges de travail IA exigent une flexibilité sans précédent. Les droits d'expansion permettent la croissance sans relocalisation. Les droits de contraction permettent la réduction pendant les baisses de marché. Les clauses de renouvellement technologique permettent les mises à jour d'infrastructure. Les clauses de sortie fournissent des options de résiliation avec pénalités définies.
Modèles de tarification : La tarification tout compris simplifie le budget mais réduit la flexibilité. La tarification au compteur aligne les coûts avec l'utilisation mais crée de l'incertitude. La tarification basée sur la puissance favorise les opérations efficientes. La tarification basée sur l'espace pénalise les déploiements haute densité. Les modèles hybrides équilibrent prévisibilité et incitations à l'optimisation.
Cadre d'évaluation pour une sélection systématique
L'évaluation systématique assure une sélection optimale du fournisseur :
Scoring technique (poids 40 %) : - Capacité de densité de puissance (kW max par rack) - Technologie et capacité de refroidissement - Options de connectivité réseau - Préparation au refroidissement liquide - Niveaux de redondance d'infrastructure
Scoring commercial (poids 25 %) : - Coût total par kW incluant tous les frais - Conditions de flexibilité contractuelle - Pénalités SLA et garanties - Options d'accommodation de croissance - Métriques de stabilité financière
Scoring opérationnel (poids 20 %) : - Capacités de remote hands - Vitesse de provisionnement des cross-connects - Fenêtres de maintenance et procédures - Temps de réponse aux incidents - Capacités du portail client
Scoring stratégique (poids 15 %) : - Alignement de la couverture géographique - Qualité des partenariats écosystème - Alignement de la feuille de route innovation - Initiatives de durabilité - Adéquation culturelle
Exemples concrets
[Contenu tronqué pour la traduction]