Technologie de refroidissement liquide : relever les défis du refroidissement des centres de données à l'ère de l'AIGC
Aug 28, 2024
Laisser un message
Avec le développement rapide du contenu généré par l'intelligence artificielle (AIGC), la demande en puissance de calcul a explosé, entraînant une forte augmentation de la consommation d'énergie et des besoins en gestion thermique des centres de données. Les besoins élevés en ressources de calcul lors de la formation et de l'inférence des modèles d'IA augmentent considérablement la production de chaleur des serveurs, ce qui place la barre plus haut en matière de technologies de refroidissement. Selon un rapport de Colocation America, la puissance moyenne par armoire dans les centres de données mondiaux est passée à 16,5 kW en 2020, soit une augmentation de 175 % par rapport à 2008. En conséquence, la technologie de refroidissement liquide est devenue un nouveau point focal pour les solutions de refroidissement des centres de données.
Lors de la conférence GTC de cette année, NVIDIA a non seulement présenté les puces B200 et GB200, mais a également mis en avant la technologie de refroidissement liquide qui l'accompagne. De plus, lors du sommet économique SIEPR 2024, le PDG de NVIDIA, Jensen Huang, a révélé que les serveurs GPU DGX de nouvelle génération adopteraient entièrement le refroidissement liquide. La décision de NVIDIA a créé une tendance dans l'industrie, insufflant un nouvel élan au développement de la technologie de refroidissement liquide. Alors que la technologie de l'IA continue de progresser, l'importance du refroidissement liquide devient de plus en plus évidente. La technologie de refroidissement liquide réduit non seulement considérablement la consommation d'énergie des centres de données, mais améliore également l'efficacité opérationnelle des serveurs et prolonge la durée de vie des équipements. Par conséquent, le refroidissement liquide devient progressivement une considération prioritaire pour les solutions de refroidissement des centres de données.
I Comparaison des méthodes de refroidissement des centres de données
Actuellement, les systèmes de refroidissement des centres de données sont principalement divisés en deux types : le refroidissement par air et le refroidissement par liquide. La technologie de refroidissement par liquide remplace l'air par un milieu liquide pour échanger de la chaleur avec les composants générateurs de chaleur du serveur, évacuant ainsi la chaleur et garantissant un fonctionnement stable du serveur dans une plage de température optimale. En revanche, le refroidissement par air s'appuie sur des ventilateurs et des systèmes de climatisation pour dissiper la chaleur par le mouvement de l'air. Le refroidissement par liquide refroidit directement les composants générateurs de chaleur, atteignant une efficacité de conduction thermique 25 fois supérieure à celle de l'air, avec une capacité thermique spécifique 1 à 3 500 fois supérieure et une efficacité de transfert de chaleur par convection 10 à 40 fois supérieure à celle de l'air. Ainsi, dans les mêmes conditions, la technologie de refroidissement par liquide surpasse de loin le refroidissement par air en termes d'efficacité de refroidissement.

▲ Systèmes de refroidissement pour centres de données

▲ Technologie de refroidissement liquide et refroidissement par air
Par rapport au refroidissement par air, le refroidissement par liquide offre une meilleure efficacité de refroidissement et une consommation d'énergie plus faible. Dans les environnements informatiques à haute densité, les systèmes de refroidissement par air ont souvent du mal à répondre aux besoins de refroidissement, alors que le refroidissement par liquide peut relever efficacement ce défi. De plus, le refroidissement par liquide offre des avantages tels qu'un faible bruit et un encombrement réduit, ce qui le rend particulièrement adapté aux configurations à haute densité et aux exigences d'économie d'énergie verte des centres de données modernes.
II Qu’est-ce qui motive le développement du refroidissement liquide à l’ère de l’IA ?
1. Augmentation de la puissance thermique des puces informatiques : le refroidissement par air atteint ses limites
Avec le développement rapide de la technologie de l'IA, la demande en puissance de calcul continue d'augmenter, ce qui entraîne une augmentation de la production de chaleur et de la densité de flux thermique dans les puces. Lorsque les puces fonctionnent à des températures élevées pendant des périodes prolongées, leurs performances et leur durée de vie sont affectées négativement et les taux de défaillance augmentent. Les recherches indiquent que lorsque la température de fonctionnement d'une puce approche 70-80 degré, chaque augmentation de 10 degrés peut réduire ses performances d'environ 50 %.
Actuellement, les processeurs Intel ont une puissance de conception thermique (TDP) allant jusqu'à 350 W, le H100 de NVIDIA atteint 700 W et le futur B100 pourrait atteindre 1 500 W, se rapprochant de la limite de refroidissement à point unique de 800 W du refroidissement par air. Alors que la consommation d'énergie des puces informatiques continue de croître et que la consommation d'énergie du CPU et du GPU représente environ 80 % de la puissance totale des serveurs d'IA, continuer à utiliser le refroidissement par air entraînera une augmentation significative des besoins en climatisation en rangée. Dans les scénarios de refroidissement à haute densité, le refroidissement liquide offre des avantages significatifs en termes de coût et de performances.
Outre le côté puce, la densité de puissance par armoire dans les centres de données est également en hausse. Le refroidissement par air traditionnel répond généralement aux besoins de refroidissement des armoires dans la gamme de 12 à 15 kW.Rapport d'enquête mondial 2022 sur les centres de donnéesSelon l'Uptime Institute, la puissance maximale d'un seul serveur NVIDIA DGX A100 est de 6,5 kW, et une armoire standard de 42 U de hauteur peut accueillir environ cinq serveurs AI de 5 U de hauteur, avec une puissance totale supérieure à 20 kW par armoire. Le refroidissement par air traditionnel ne peut pas répondre aux besoins de refroidissement des armoires de serveurs AI.
2. Motivé par les besoins d'économie d'énergie des centres de données : exigences PUE plus élevées
Le PUE (Power Usage Effectiveness) est un indicateur clé pour évaluer l'efficacité énergétique des centres de données, calculé comme suit : PUE=Consommation énergétique totale du centre de données / Consommation énergétique des équipements informatiques. Plus la valeur PUE est proche de 1, plus l'efficacité énergétique du centre de données est élevée ; à l'inverse, plus la valeur PUE est élevée, plus l'efficacité globale est faible.
Les statistiques divisent la consommation énergétique des centres de données en plusieurs parties : les équipements informatiques représentent 45 %, les systèmes de refroidissement 43 %, les systèmes d'alimentation et de distribution d'énergie 10 %, et l'éclairage et les autres utilisations 2 %. Parmi ces derniers, la consommation énergétique des systèmes de climatisation arrive en deuxième position après celle des équipements informatiques. La réduction de la consommation énergétique des systèmes de climatisation devient donc particulièrement importante lorsque les systèmes informatiques ne peuvent pas être mis à niveau.
Dans le cadre des objectifs nationaux visant à atteindre le « pic carbone » et la « neutralité carbone » et de la stratégie « Données de l'Est, calcul de l'Ouest », le nouveauNormes de demande d'achats publics pour les centres de données écologiques (essai)impose des exigences PUE plus strictes.Cette norme stipule qu'à partir de juin 2023, le PUE des centres de données ne devra pas dépasser 1,4, et d'ici 2025, l'exigence sera un PUE ne dépassant pas 1,3. Selon les données du CDCC et d'Inspur Information, les centres de données utilisant le refroidissement par air ont généralement un PUE compris entre 1,4 et 1,5, tandis que la technologie de refroidissement liquide peut réduire le PUE à moins de 1,2. Ainsi, l'adoption d'une technologie de refroidissement liquide plus économe en énergie et plus efficace est devenue une tendance.
La consommation énergétique des centres de données est depuis longtemps au centre de l'attention du secteur, notamment dans un contexte de contraintes mondiales en matière de ressources énergétiques et de sensibilisation accrue à l'environnement. L'amélioration de l'efficacité énergétique des centres de données est particulièrement cruciale. La technologie de refroidissement liquide, en fournissant des solutions de refroidissement plus efficaces, réduit la consommation énergétique des systèmes de climatisation, diminuant ainsi considérablement les valeurs PUE des centres de données. Cette technologie permet non seulement de réduire les coûts d'exploitation, mais également de réduire les émissions de carbone, conformément aux objectifs de développement durable.

▲ Consommation énergétique du centre de données
III Classification de la technologie de refroidissement liquide
Les systèmes de refroidissement liquide peuvent être classés en refroidissement liquide direct et refroidissement liquide indirect en fonction de la manière dont le liquide interagit avec le matériel. Le refroidissement liquide direct implique que le liquide entre en contact direct avec les composants matériels pour transférer la chaleur. Cette méthode peut être divisée en refroidissement par immersion et refroidissement par pulvérisation. Le refroidissement par immersion immerge entièrement les composants matériels dans le liquide, tandis que le refroidissement par pulvérisation consiste à pulvériser le liquide directement sur le matériel.
Le refroidissement indirect par liquide, en revanche, utilise un composant intermédiaire (tel qu'un échangeur de chaleur ou une plaque de refroidissement) pour évacuer la chaleur, empêchant ainsi le liquide d'entrer en contact direct avec le matériel. Un système de refroidissement indirect par liquide courant est le système de refroidissement par plaque froide, qui peut être subdivisé en refroidissement par plaque froide monophasé et biphasé selon que le fluide de refroidissement subit ou non un changement de phase.

▲ Introduction aux méthodes de refroidissement liquide
1. Des plaques froides aux plaques froides à immersion
La technologie de refroidissement liquide transfère la chaleur des composants générateurs de chaleur à un liquide de refroidissement via des plaques froides, et le liquide de refroidissement dissipe ensuite la chaleur grâce à ses propriétés réfrigérantes. Dans ce système, le liquide de travail n'entre pas directement en contact avec les composants électroniques, ce qui entraîne des modifications minimes du système informatique. Le dissipateur thermique à refroidissement par air d'origine peut simplement être remplacé par un kit de refroidissement liquide, et les tuyaux de liquide de refroidissement peuvent être acheminés à l'extérieur du châssis. Cette technologie est particulièrement adaptée aux besoins de refroidissement avec des densités de flux thermique moyennes à élevées.
Un système de refroidissement liquide à plaque froide se compose principalement d'une tour de refroidissement, d'une unité de distribution de liquide de refroidissement (CDU), de circuits de refroidissement liquide primaire et secondaire, d'un fluide de refroidissement et d'une armoire refroidie par liquide. Le circuit primaire fait référence à la boucle qui évacue la chaleur du circuit secondaire vers l'environnement extérieur ou d'autres unités de récupération de chaleur, tandis que le circuit secondaire fait référence à la boucle qui évacue la chaleur des serveurs et la dissipe via le circuit primaire. Les deux circuits échangent de la chaleur via la CDU, ou unité de distribution de liquide de refroidissement.
Le principe de fonctionnement du système de refroidissement liquide à plaque froide est relativement simple, mais dans les applications pratiques, il faut tenir compte de la conception des plaques froides, de la sélection des liquides de refroidissement et de la maintenance du système. De plus, les systèmes de refroidissement liquide à plaque froide fonctionnent exceptionnellement bien dans les environnements à haute densité de flux thermique, ce qui les rend particulièrement adaptés aux exigences d'agencement à haute densité des centres de données modernes.

▲ Schéma du système de refroidissement liquide à plaque froide
Les systèmes de refroidissement par liquide par immersion permettent une dissipation efficace de la chaleur en immergeant directement les composants générateurs de chaleur dans des liquides de refroidissement non conducteurs. Selon que le liquide de refroidissement subit un changement de phase lors de la circulation, le refroidissement par liquide par immersion peut être divisé en refroidissement par immersion monophasé et refroidissement par immersion biphasé.
Dans le refroidissement par immersion monophasé, le liquide de refroidissement ne subit qu'un changement de température pendant le processus d'échange de chaleur sans changement de phase. Le transfert de chaleur repose entièrement sur le changement de chaleur sensible du liquide, en utilisant la caractéristique selon laquelle le liquide se dilate et diminue en densité lorsqu'il est chauffé. Le liquide de refroidissement plus chaud monte naturellement et est refroidi par l'échangeur de chaleur d'une boucle de refroidissement externe. Le liquide refroidi coule ensuite sous l'effet de la gravité, complétant ainsi le cycle de refroidissement. Dans cette méthode, le liquide de refroidissement reste à l'état liquide tout au long du processus. En revanche, le refroidissement par immersion biphasé implique que le liquide de refroidissement subit un changement de phase de liquide à gaz pendant la dissipation de chaleur, puis revient de gaz à liquide.
Un système de refroidissement liquide par immersion comprend des composants intérieurs et extérieurs. Le côté extérieur comprend une tour de refroidissement, un réseau de canalisations primaires et un liquide de refroidissement primaire ; le côté intérieur comprend une unité de distribution de liquide de refroidissement (CDU), un réservoir d'immersion (armoire), un équipement informatique, un réseau de canalisations secondaires et un liquide de refroidissement secondaire. Pendant l'utilisation, l'équipement informatique est entièrement immergé dans le liquide de refroidissement, de sorte que le choix du liquide de refroidissement doit tenir compte des fluides non conducteurs, tels que l'huile de silicone ou les liquides fluorés.

▲ Schéma de principe du refroidissement liquide par immersion monophasé
Bien que le refroidissement par pulvérisation existe, son application est relativement limitée et ne convient pas aux serveurs haute densité et aux centres de données à grande échelle. À court terme, le refroidissement liquide par plaque froide est particulièrement adapté aux besoins de refroidissement de l'ère de l'IA et à la transition des centres de données du refroidissement par air au refroidissement liquide en raison de sa maturité, de sa compatibilité avec les systèmes existants, de sa facilité d'entretien et de ses faibles coûts de modernisation. À long terme, le refroidissement liquide par immersion, avec son excellente conductivité thermique, sa capacité efficace de récupération de chaleur perdue et sa prise en charge d'une puissance d'armoire plus élevée, sera plus adapté aux besoins de refroidissement évolutifs des futurs centres de données. D'autant plus que la puissance des unités d'armoire continue d'augmenter, le refroidissement liquide par immersion peut fournir des solutions de refroidissement plus efficaces, contribuant à réduire l'efficacité énergétique globale (PUE) des centres de données.
2. Choix privilégié pour les centres de calcul intelligents – Refroidissement liquide
À mesure que la densité de puissance augmente, les solutions de refroidissement liquide deviennent le choix de plus en plus fréquent pour les nouveaux centres de calcul GPU. Selon le rapport « China Semiannual Liquid-Cooled Server Market (H1 2023) Tracker » d'IDC, le marché chinois des serveurs refroidis par liquide a atteint 1,51 milliard de dollars en 2023. IDC prévoit qu'entre 2022 et 2027, le taux de croissance annuel composé du marché chinois des serveurs refroidis par liquide atteindra 54,7 %, la taille du marché devant atteindre 8,9 milliards de dollars d'ici 2027.
L'application de la technologie de refroidissement liquide dans les centres de calcul intelligents améliore non seulement les performances de calcul, mais réduit également considérablement la consommation d'énergie et les coûts d'exploitation. La promotion de la technologie de refroidissement liquide permettra aux centres de données de se développer de manière plus efficace, plus écologique et plus intelligente, offrant ainsi une base solide pour répondre aux besoins de traitement des données à l'ère de l'IA.

▲ Taille du marché des serveurs de refroidissement liquide
IV. Chaîne industrielle du refroidissement liquide
La chaîne industrielle du refroidissement liquide comprend trois segments principaux : les fournisseurs de composants de produits en amont, les fabricants de serveurs refroidis par liquide en milieu de chaîne et les utilisateurs de puissance de calcul en aval. Parmi les utilisateurs en aval actuels, des entreprises nationales comme Alibaba se concentrent sur le développement du refroidissement liquide par immersion monophasé, tandis que d'autres, comme Baidu, Tencent et JD.com, utilisent principalement le refroidissement liquide par plaque froide. À l'étranger, le refroidissement par immersion est plus avancé que le refroidissement par plaque froide, les principales entreprises américaines telles qu'Intel, Google et Meta étant à l'origine du développement rapide du refroidissement liquide par immersion, en particulier avec le support de l'IA.

▲ Chaîne industrielle du refroidissement liquide
V Problèmes potentiels liés à la technologie de refroidissement liquide par immersion
1. Sélection du liquide de refroidissement
Le liquide de refroidissement est l'une des matières premières clés de la technologie de refroidissement liquide et présente une barrière technique élevée. Dans la technologie de refroidissement liquide par immersion, le liquide de refroidissement doit entrer en contact direct avec les produits électroniques, ce qui impose des exigences élevées en matière de performances du liquide de refroidissement, telles qu'une excellente conductivité thermique, une bonne isolation et une compatibilité avec les matériaux. De plus, les caractéristiques environnementales telles que l'odeur, la toxicité et la facilité de dégradation sont également importantes, et le liquide de refroidissement doit être aussi convivial et respectueux de l'environnement que possible.
Les liquides de refroidissement par immersion les plus couramment utilisés actuellement comprennent les hydrocarbures et les organosiliciums (communément appelés « huiles », comme l'huile minérale) et les composés fluorés (tels que les liquides fluorés). Les liquides fluorés ont de bonnes performances globales et sont considérés comme des matériaux de refroidissement liquide idéaux. Cependant, le principal défi avec les liquides fluorés est leur coût élevé. Avec des exigences de protection de l'environnement de plus en plus strictes, l'huile de silicone, qui a une conductivité thermique plus élevée et une densité plus faible, est également plus respectueuse de l'environnement. Le choix du fluide de refroidissement dépend principalement du processus de refroidissement.
2. Problèmes d'étanchéité du trajet optique
Les liquides de refroidissement tels que les liquides fluorés ou les huiles de silicone possèdent d'excellentes propriétés isolantes, empêchant efficacement les courts-circuits dans les circuits. Dans des conditions de signal basse fréquence, ces liquides de refroidissement perturbent peu la transmission du signal. Cependant, dans des conditions de signaux haute fréquence, l'impact du liquide de refroidissement sur la transmission du signal doit être évalué et contrôlé avec soin. Dans l'ensemble, l'impact sur les circuits est gérable.
En ce qui concerne les chemins optiques, la plupart des modules optiques des centres de données sont conçus avec un emballage non hermétique, ce qui signifie que sans modifications appropriées, le liquide de refroidissement peut pénétrer dans la cavité optique, affectant ainsi les performances optiques. Même avec un emballage hermétique, certains chemins optiques passifs, tels que les lentilles, restent à l'extérieur de la chambre hermétique.
La conception des chemins optiques est généralement basée sur l'indice de réfraction de l'air (environ 1,1). Lorsque des composants optiques sont immergés dans un liquide de refroidissement, l'indice de réfraction du liquide de refroidissement, qui diffère de celui de l'air, peut entraîner des modifications des points focaux et de l'efficacité de couplage. Par exemple, l'indice de réfraction de l'huile fluorée est généralement d'environ 1,3, et ce changement d'indice de réfraction peut nécessiter des ajustements des paramètres de conception du chemin optique.
Pour faire face à l’impact potentiel du refroidissement par immersion liquide sur les chemins optiques et électriques, l’industrie prend diverses mesures, telles que le développement de nouvelles technologies d’emballage de modules optiques adaptées à l’environnement du liquide de refroidissement, l’optimisation de la conception des circuits pour les signaux haute fréquence et la recherche de matériaux et structures optiques plus adaptés au refroidissement par immersion.
3. Livraison intégrée contre livraison découplée
Actuellement, il existe trois modèles de livraison pour les serveurs refroidis par liquide à plaque froide :
① Côté équipement informatique, seul le serveur refroidi par liquide est livré ;
② Le côté informatique livre le « serveur refroidi par liquide + l'armoire refroidie par liquide » ;
③ Le côté informatique livre le « serveur refroidi par liquide + armoire refroidie par liquide + CDU + circuit secondaire ».
Le troisième modèle de livraison, la livraison intégrée, dans lequel l'ensemble de l'armoire est livré par le même fabricant avec une norme auto-définie pour la conception et le développement intégrés, est le plus largement utilisé. La livraison découplée implique le respect des spécifications de conception d'interface définies par l'utilisateur entre l'armoire à refroidissement liquide et le serveur à refroidissement liquide, l'armoire et le serveur étant livrés par des fabricants différents. Les fabricants d'infrastructures et de serveurs doivent se coordonner et coopérer. La livraison découplée est plus facile à mettre à l'échelle et à déployer de manière flexible.

▲ Différenciation des modes de livraison des serveurs à refroidissement liquide à plaques froides
Actuellement, le niveau de normalisation de la technologie de refroidissement liquide en Chine est relativement faible. Les différents équipements de serveur, liquides de refroidissement, conduites de réfrigération et produits d'alimentation électrique varient en termes de forme et il n'existe pas de norme d'interface unifiée, ce qui pose des défis pour la normalisation et l'application à grande échelle. Les livres blancs publiés par les trois principaux opérateurs de télécommunications nationaux décrivent une vision sur trois ans de la technologie de refroidissement liquide, vérifiant et testant progressivement la technologie, avec des plans pour commencer les applications à grande échelle du refroidissement liquide d'ici 2025. On s'attend à ce que plus de 50 % des projets de données adoptent cette technologie, favorisant la normalisation et la mise en œuvre à grande échelle du refroidissement liquide et soutenant la livraison découplée.
