Data Centers et IA : comment concilier efficacité opérationnelle et sobriété énergétique ?
Alors que l'adoption de l'IA cesse de croître, l'épineuse question de la gestion de l'énergie s'impose plus que jamais aux gestionnaires de centres de données (data centers).
L'attention grandissante accordée à l'intelligence artificielle générative (genAI) et à l’apprentissage automatique (Machine Learning ML) a propulsé l'intelligence artificielle (IA) au cœur des discussions. À mesure que la technologie s'améliore et que les principales parties prenantes se familiarisent avec son adoption, l'IA sera de plus en plus utilisée dans les secteurs de la santé, de l'e-mobilité, de la production d'énergie et d'électricité. Alors que la demande devrait encore croître de manière significative au cours de la prochaine décennie, l’épineuse question de la gestion de l’énergie s’impose plus que jamais aux gestionnaires de centres de données (data centers).
Chaleur et efficacité énergétique, au cœur des préoccupation des gestionnaires de centres de données
Les gestionnaires de data centers le savent bien, il faut traiter un volume considérable de données pour obtenir les résultats à la hauteur des attentes des utilisateurs d'applications d'IA et de ML, pilotées par des puces haute performance à la pointe du développement informatique, consommant beaucoup d'énergie pour fonctionner et produisant plus de chaleur que des applications moins sophistiquées.
Les gestionnaires de centre de données doivent donc faire face à ces charges thermiques élevées tout en étant capables d'adapter leurs opérations pour répondre à la demande. Les capacités d'extension ne dépendent pas nécessairement de l'augmentation de l'espace physique - les gestionnaires et les ingénieurs de data centers sont souvent confrontés au problème technique de l'installation de serveurs toujours plus nombreux et plus chauds dans les mêmes espaces. Ils doivent également maintenir leur fonctionnement 24 heures sur 24 et 7 jours sur 7 : en raison des besoins des application d’IA, on ne peut se permettre de mettre en pause un data center pour sa rénovation.
En outre, l'industrie est confrontée à une surveillance croissante de la consommation d'énergie, de sorte que les gestionnaires de centres de données doivent être particulièrement attentifs à la manière dont ils utilisent l'électricité. Le développement durable a toujours été un sujet de conversation dans le secteur, mais cette attention accrue créera encore plus de discussions autour du PUE (Power Usage Effectiveness, soit le ratio entre l'énergie totale consommée par le data center et l'énergie nécessaire aux serveurs informatiques) et de la gestion de l'énergie.
Dans ce contexte, l'efficacité du système de refroidissement dans un data center est, plus que jamais, un enjeu majeur.
Un changement d'approche autour du refroidissement des data centers
Les méthodes de refroidissement traditionnelles ne suffisent plus pour éviter la surchauffe des puces nouvelle génération ou d’autres infrastructures utilisées pour l’IA. Les data centers peuvent mettre en œuvre des solutions qui éliminent la chaleur supplémentaire en augmentant le volume d'air ou en réduisant les températures d'entrée d'air, mais cela s’avère souvent inefficace et coûteux. Lorsque les systèmes de refroidissement par air doivent redoubler d'efforts pour maintenir des températures optimales, les installations risquent également d’être confrontées à des pannes d'équipement, à des arrêts imprévus et à une augmentation des coûts énergétiques.
Pour de nombreux data centers, l'utilisation de technologies de refroidissement liquide offre de meilleures performances tout en réduisant la consommation d'énergie et en aidant les data centers à fonctionner de manière plus durable. Pour les applications les plus avancées, le refroidissement liquide est même la seule option possible. En utilisant les technologies de refroidissement liquide de manière appropriée, les gestionnaires de data centers ont la possibilité d’améliorer considérablement le PUE, même dans les applications où ils utilisent des technologies de l'information nouvelle génération.
Le refroidissement liquide est à même d’aider les data centers à augmenter leur capacité tout en maintenant une utilisation efficace de l'espace et de l'énergie. Il offre généralement un retour sur investissement favorable et réduit le coût total de possession (TCO) des équipements des data centers. Les systèmes de refroidissement par liquide constituent une solution efficace pour atteindre les exigences de température requises et réduire la consommation d'énergie des systèmes de refroidissement. Le liquide offre une capacité de transfert de chaleur beaucoup plus importante que l'air. On peut par conséquent gérer plus efficacement son énergie et ses charges thermiques, réduire les coûts énergétiques et favoriser le développement durable.
Des solutions de refroidissement évolutives
Le refroidissement liquide n'est pas systématiquement la seule solution à adopter. Les data centers peuvent tout à fait refroidir un seul ou quelques racks qui exécutent des applications d'IA et de ML sans avoir à construire des salles de données entières refroidies par liquide.
Toutefois, lorsque l’on applique ces solutions partielles, il est essentiel de comprendre ses futurs business plans. L'utilisation de solutions de refroidissement spécifiques pour un problème particulier est utile, mais en raison du coût et de l'efficacité énergétique, entre autres, une solution pour un problème ne fonctionne pas nécessairement pour un autre. Comme pour tous les projets de data centers, des défis différents nécessitent des solutions différentes, et une approche universelle fonctionne rarement.
Avec la croissance de la demande en calcul haute performance induite par l'expansion de l'IA, les gestionnaires de data centers doivent élaborer une stratégie pour faire évoluer leurs solutions de refroidissement. Cela peut passer par la préparation des data centers nouvelle génération pour qu’ils soient entièrement refroidis par liquide ou l’étude de solutions hybrides liquide-air, comme des portes arrière refroidies ou des unités de distribution de refroidissement (CDU) direct sur processeur (direct-to-chip) qui refroidissent par liquide le rack et le processeur, au sein d’infrastructures refroidies par air.
Planifier l’avenir et comprendre les charges de travail informatiques présentent un avantage indéniable : cela permet de prendre conscience que presque toutes les solutions de refroidissement potentielles peuvent être combinées. Les gestionnaires de data centers peuvent ainsi adapter leurs capacités d'alimentation et de refroidissement à l'évolution de la demande. La clé d'une croissance durable est la variété d'options flexibles pour soutenir les équipements de prochaine génération. Les technologies de refroidissement par liquide contribuent à cette flexibilité.
La surveillance de l’énergie pour endiguer la surconsommation liée à l'intelligence artificielle
La distribution d'énergie fait également partie des technologies critiques de gestion des charges de travail d'IA et de machine learning. Les unités de distribution d'énergie (PDU pour Power Distribution Units) intelligentes sont dotées d'une technologie permettant de distribuer et de surveiller l'utilisation de l'énergie sur plusieurs appareils au sein d'un data center et, notamment en cas de surchauffe, de déclencher une alerte.
Les capacités de surveillance et de contrôle à distance des unités PDU intelligentes peuvent accroître l'efficacité énergétique et réduire le risque de temps d'arrêt. Le comptage des entrées, par exemple, permet de surveiller à distance la puissance entrant dans une PDU, ce qui réduit le risque de surcharge de cette dernière et de déclenchement des disjoncteurs. Cette surveillance permet également de s'assurer que les PDU ne s'approchent pas trop du niveau des disjoncteurs. Par conséquent, les opérateurs de data centers peuvent limiter à distance les problèmes potentiels avant qu'ils ne surviennent.
Certaines unités PDU sont également équipées d'un système de mesure par prise, où la technologie de surveillance et de contrôle est appliquée non seulement au niveau de la PDU, mais aussi au niveau du raccordement électrique. Cette technologie aide les opérateurs à mieux comprendre l'utilisation spécifique de l'énergie par chaque appareil et à comparer l'efficacité des différents dispositifs. Elle permet également d'identifier les équipements sous-utilisés ou les « zombies » qui ne sont pas du tout utilisés, mais qui consomment encore beaucoup d'énergie. La possibilité d'identifier ces équipements à distance et de les éteindre permet aux gestionnaires de centres de données de s'assurer qu'ils n'utilisent que l'énergie dont ils ont besoin.
Les perspectives pour l'industrie des data centers qu’apporte la croissance de l'IA et du machine learning s’accompagnent de nombreux défis. En s'appuyant sur les bonnes technologies de refroidissement et d'alimentation, les responsables des data centers peuvent améliorer les performances, favoriser la durabilité et dimensionner les opérations de manière appropriée pour répondre aux besoins croissants de leurs clients.