Des scientifiques viennent de construire un jumeau numérique de la Terre d'une résolution d'un kilomètre

Les prévisions météorologiques sont notoirement bancales, la modélisation climatique l’est encore plus. Mais leur capacité croissante à prédire ce que le monde naturel nous réserve, à nous, les humains, est en grande partie due à deux choses : de meilleurs modèles et une puissance de calcul accrue.

Aujourd'hui, un article rédigé par des chercheurs dirigés par Daniel Klocke de l'Institut Max Planck en Allemagne, et disponible sous forme pré-imprimée sur arXivdécrit ce que certains membres de la communauté de la modélisation climatique ont décrit comme le « Saint Graal » de leur domaine : un modèle de résolution à l'échelle proche du kilomètre qui combine les prévisions météorologiques et la modélisation climatique.

Techniquement, l'échelle du nouveau modèle n'est pas tout à fait de 1 km² par parcelle modélisée, mais de 1,25 kilomètre. Mais en réalité, qui compte à ce stade : il y a environ 336 millions de cellules pour couvrir l'ensemble des terres et des mers de la Terre, et les auteurs ont ajouté la même quantité de cellules « atmosphériques » directement au-dessus de celles situées au sol, ce qui fait un total de 672 millions de cellules calculées.

Pour chacune de ces cellules, les auteurs ont exécuté une série de modèles interconnectés pour refléter les principaux systèmes dynamiques de la Terre. Ils les ont divisés en deux catégories : « rapides » et « lents ». Les systèmes « rapides » incluent les cycles de l’énergie et de l’eau, ce qui signifie essentiellement la météo. Afin de les suivre clairement, un modèle doit avoir une résolution extrêmement élevée, comme les 1,25 km dont le nouveau système est capable.

Pour ce modèle, les auteurs ont utilisé le modèle ICOsahedral Nonhydrostatic (ICON) développé par le service météorologique allemand et l'Institut Max Planck de météorologie.

Les processus « lents », en revanche, incluent le cycle du carbone et les changements dans la biosphère et la géochimie des océans. Celles-ci reflètent les tendances au fil des années, voire des décennies, plutôt que quelques minutes nécessaires à un orage pour passer d'une cellule de 1,25 km à une autre. La combinaison de ces deux processus rapides et lents constitue la véritable avancée de l’article, comme les auteurs sont heureux d’en convenir.

Les modèles typiques qui incorporeraient ces systèmes complexes ne seraient traitables informatiquement qu’à des résolutions supérieures à 40 km.

Alors comment ont-ils fait ? En combinant une ingénierie logicielle très approfondie avec de nombreuses puces informatiques parmi les plus récentes que l'argent puisse acheter.

Le modèle utilisé comme base pour une grande partie de ce travail a été initialement écrit en Fortran – le fléau de quiconque a déjà tenté de moderniser le code écrit avant 1990.

Depuis son développement initial, il s’était enlisé dans de nombreux extras qui rendaient difficile son utilisation dans toute architecture informatique moderne. Les auteurs ont donc décidé d'utiliser un cadre appelé Data-Centric Parallel Programming (DaCe) qui traiterait les données d'une manière compatible avec les systèmes modernes.

Ce système moderne a pris la forme du JUPITER et du Alps, deux supercalculateurs situés respectivement en Allemagne et en Suisse, tous deux basés sur la nouvelle puce GH200 Grace Hopper de Nvidia. Dans ces puces, un GPU (comme celui utilisé dans la formation de l'IA, appelé dans ce cas Hopper) est accompagné d'un processeur (dans ce cas d'ARM, un autre fournisseur de puces, et étiqueté Grace).

Cette bifurcation des responsabilités et des spécialités informatiques a permis aux auteurs d'exécuter les modèles « rapides » sur le GPU pour refléter leurs vitesses de mise à jour relativement rapides, tandis que les modèles plus lents du cycle du carbone étaient pris en charge en parallèle par les processeurs.

En séparant ainsi la puissance de calcul requise, ils ont pu utiliser 20 480 superpuces GH200 pour modéliser avec précision 145,7 jours en une seule journée. Pour ce faire, le modèle a utilisé près de mille milliards de « degrés de liberté », ce qui, dans ce contexte, représente le nombre total de valeurs à calculer.

Malheureusement, cela signifie également que des modèles de cette complexité n'arriveront pas de sitôt dans votre station météo locale. Une telle puissance de calcul n’est pas facile à obtenir, et les grandes entreprises technologiques sont plus susceptibles de l’utiliser pour exploiter au maximum l’IA générative, quelles que soient les conséquences sur la modélisation climatique.