Quand les serveurs d'IA exigent une technologie de refroidissement plus performante ! Pourquoi la tendance passe du « refroidissement par air » au « refroidissement par liquide »

Aug 23, 2024

Laisser un message

Jensen Huang, PDG de NVIDIA, a fait une apparition spéciale au COMPUTEX 2023 pour soutenir le discours du président de Supermicro, Charles Liang. Le président de Fanner, Lin Yushen, a souligné que la plupart des produits de serveur présentés sur scène étaient équipés de modules de refroidissement par eau de Fanner. Fanner, qui a investi dans les modules de refroidissement par eau pendant de nombreuses années, est bien placé pour capitaliser sur cette vague de l'IA. Cependant, alors que les serveurs d'IA exigent des normes de refroidissement de plus en plus élevées, pourquoi la tendance passe-t-elle du « refroidissement par air » au « refroidissement par liquide » ?

I Du fonctionnement à grande vitesse au refroidissement liquide

En termes de technologie de refroidissement, Lin Yushen a noté que les modules de refroidissement actuels utilisent principalement une technologie de refroidissement hybride qui intègre des caloducs. Ces modules de refroidissement à caloducs combinent des composants tels que des ventilateurs, des dissipateurs thermiques et des caloducs pour créer un environnement thermique équilibré pour les composants électroniques internes, améliorant ainsi la stabilité des appareils électroniques. Cependant, à mesure que les produits électroniques terminaux en aval deviennent plus multifonctionnels et compacts, les fabricants de modules de refroidissement se sont tournés vers la conception de solutions de refroidissement centrées sur les chambres à vapeur et les caloducs.

Actuellement, les modules de refroidissement sont divisés en deux types : le « refroidissement par air » et le « refroidissement par liquide ». Le refroidissement par air utilise l'air comme fluide, avec des matériaux tels que des matériaux d'interface thermique, des chambres à vapeur (VC) ou des caloducs conduisant la chaleur, qui est ensuite dissipée par des dissipateurs thermiques ou des ventilateurs par convection d'air. En revanche, le refroidissement par liquide dissipe la chaleur par convection liquide, y compris le refroidissement par immersion, qui refroidit les puces plus efficacement. Cependant, à mesure que les puces génèrent plus de chaleur et deviennent plus petites, et que la puissance de conception thermique (TDP) augmente, le refroidissement par air devient progressivement insuffisant.

A comparison between air cooling and liquid cooling technologies

▲ Comparaison entre les technologies de refroidissement par air et par liquide

Avec l’essor de ChatGPT, l’IA générative a entraîné une augmentation des expéditions de serveurs, ce qui a conduit à des spécifications améliorées pour les modules de refroidissement, les poussant vers des solutions de refroidissement liquide pour répondre aux exigences strictes en matière de refroidissement et de stabilité des serveurs. Lin Yushen a souligné que Fanner a commencé avec la technologie de refroidissement par air et, il y a dix ans déjà, a commencé à acquérir la technologie de refroidissement liquide via le transfert de technologie IBM. Ils ont fourni des portes dérobées de refroidissement par eau qui ont permis aux clients d’ajouter un refroidissement par eau aux armoires sans modifier l’infrastructure existante du centre de données.

D'ici 2025, une nouvelle ère de refroidissement simultané par air et liquide

Poussée par le développement de la technologie des semi-conducteurs liée aux applications d'IA, l'introduction de GPT-3 dans ChatGPT a fait passer les paramètres de l'algorithme d'IA à 175 milliards, ce qui nécessite une multiplication par cent de la puissance de calcul du GPU. L'industrie utilise principalement la technologie de refroidissement par immersion monophasée dans le refroidissement liquide pour résoudre les problèmes de dissipation thermique des serveurs ou composants à haute densité. Cependant, cette méthode a une limite de 600 W, alors que les besoins de refroidissement de ChatGPT ou des serveurs plus avancés dépassent 700 W.

Illustration of single-phase immersion cooling technology

▲ Illustration de la technologie de refroidissement par immersion monophasée

Avec le développement de l'IoT, de l'informatique de pointe et des applications 5G, l'IA des données propulse la puissance de calcul mondiale dans une phase de forte croissance. La prochaine génération de conceptions de modules de refroidissement suivra deux directions principales : la mise à niveau des modules de refroidissement existants avec des chambres à vapeur 3D (3DVC) ou l'introduction de systèmes de refroidissement liquide qui utilisent le liquide comme moyen de convection thermique pour améliorer l'efficacité du refroidissement. En conséquence, le nombre de tests de refroidissement liquide a considérablement augmenté en 2023. Cependant, le 3DVC est en fin de compte une solution transitoire, et on s'attend à ce que d'ici 2024-2025, l'ère du refroidissement simultané par air et par liquide commence.

Selon TrendForce, en 2022, les serveurs d'IA équipés de GPGPU (GPU à usage général) représentaient environ 1 % du total des expéditions. Cependant, grâce à l'application de ChatGPT, les expéditions de serveurs d'IA devraient augmenter de 38,4 % en 2023, le taux de croissance annuel composé des expéditions de serveurs d'IA entre 2022 et 2026 atteignant 29 %.

III Le « refroidissement liquide » deviendra la norme pour les puces d'IA

Alors que le TDP de la nouvelle génération de serveurs approche les limites du refroidissement par air, les principales entreprises technologiques commencent à tester le refroidissement liquide ou à augmenter l'espace de refroidissement. Par exemple, le TDP Eagle Stream d'Intel et le Genoa d'AMD de 350-400W ont atteint les limites du refroidissement par air, faisant du refroidissement liquide la solution principale pour les puces d'IA. Le H100 de NVIDIA a un TDP de 700 W, et le refroidissement par air utilisant 3DVC nécessite généralement plus de 4U d'espace, ce qui n'est pas adapté aux architectures de déploiement à haute densité.

NVIDIA's H100

▲ H100 de NVIDIA

Étant donné que les systèmes de refroidissement représentent environ 33 % de la consommation totale d'énergie dans les centres de données, la réduction de la consommation totale d'énergie et l'amélioration de l'efficacité énergétique (PUE) impliquent d'optimiser les systèmes de refroidissement, les équipements informatiques et l'utilisation d'énergies renouvelables. La capacité thermique de l'eau étant quatre fois supérieure à celle de l'air, la mise en œuvre de systèmes de refroidissement liquide ne nécessite qu'1U d'espace pour la plaque de refroidissement liquide. Selon les tests de NVIDIA, pour obtenir la même puissance de calcul, le refroidissement liquide peut réduire le nombre d'armoires requises de 66 %, la consommation d'énergie de 28 % et le PUE de 1,6 à 1,15, tout en améliorant les performances de calcul.

L'utilisation des modules de refroidissement Fanner par IV Supermicro est cruciale

Le refroidissement liquide est lui-même divisé en « refroidissement par eau » et « refroidissement par huile », le refroidissement par eau étant actuellement le plus utilisé. Lin Yushen a noté que presque tous les serveurs d'IA utilisent désormais des solutions de refroidissement par eau. Par exemple, le GH100 de NVIDIA, avec un TDP supérieur à 700 W, doit utiliser le refroidissement par eau. Bien que le refroidissement par eau ne représente actuellement qu'une faible proportion du chiffre d'affaires de Fanner, le prix de vente moyen (ASP) des serveurs d'IA est dix fois plus élevé que celui des serveurs traditionnels, ce qui contribuera à transformer la structure des produits de Fanner au cours du second semestre de l'année. On estime que les serveurs d'IA pourraient représenter 5-10 % de leur activité en 2023.

Lin Yushen a souligné que la principale raison pour laquelle Supermicro utilise des modules de refroidissement par eau de Fanner pour les serveurs équipés de GPU NVIDIA GH100 est que Fanner travaille sur des solutions de refroidissement liquide depuis plus d'une décennie. Bien que les défis liés à la mise en œuvre du refroidissement par eau concernent principalement les coûts et la prévention des fuites, les recherches de Fanner depuis plus de dix ans ont progressivement permis de surmonter ces problèmes de fuite. L'investissement à long terme de Fanner dans les modules de refroidissement par eau lui permet de capitaliser sur cette vague d'IA.

Supermicro Custom Liquid Cooling

▲ Refroidissement liquide personnalisé Supermicro

Lin Yushen a souligné que l'augmentation continue du TDP induite par le calcul à grande vitesse et les exigences croissantes en matière de refroidissement des serveurs d'IA ont poussé le refroidissement traditionnel par caloduc à ses limites, nécessitant l'adoption de modules de refroidissement par eau. Fanner compte déjà plusieurs clients, dont Supermicro et Meta, qui ont adopté leurs solutions. Malgré l'adoption plus rapide que prévu du refroidissement par eau, il est peu probable qu'il soit pleinement mis en œuvre en 2023. Cependant, il devrait connaître une percée significative d'ici 2024, avec une croissance explosive prévue en 2025.