Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
Sciences de l'Ingénieur et Simulation
Pages
Archives
27 février 2021

Calcul et Données : Nouvelles Perspectives pour la Simulation à Haute Performance

Le rapport de l'Académie des technologies (février 2021, résultat d'un travail commencé début 2018) est susceptible de nous intéresser. Son titre : Calcul et données : nouvelles perspectives pour la simulation numérique à haute performance. Je vous en propose le sommaire avec quelques extraits en italiques et commentaires. Les domaines industriels abordés sont : Aéronautique, Automobile, Chimie, Energie, Génomique, Informatique, Logiciel, Météo, Santé. Les remarques des lecteurs seront les bienvenues.

  1. Analyse du Contexte

...nouveau contexte de la simulation numérique, en particulier vis-à-vis de son utilisation dans le domaine industriel et sociétal . L’accent est principalement mis sur les aspects « haute performance » (HPC, ou High Performance Computing), dont les exigences sont fondatrices en matière d’infrastructure informatique, de taille des problèmes traités et de précision des méthodes"

    1. Introduction et évolution générale du contexte

La référence est le rapport de 2005 (malheureusement non disponible sur le site de l'Académie). "Enquête sur les frontières de la simulation numérique , La situation en France et dans le monde , diagnostics et propositions » , rapport de l’Académie des technologies , Juin 2005". Suite à la mise en place en mars 2018 un groupe de travail transverse (formé de douze personnalités) sur la « Simulation numérique » il faut le dire très orienté sur le calcul haute performance qui n'est pas nécessaire à toute l'industrie. Les nouveautés sont alors présentées comme des ruptures.

      1. Les données massives

...comment articuler, d’une part, données, information et connaissance, et, d’autre part, causalité et corrélation ?

Très à la mode causalité et corrélation. On peut ajouter corrélation. On introduit le comcept de simulation haute fidélité (ou de multifidélité) qui revient une douzaine de fois sans qu'il ne soit réellement défini

      1. Les super-calculateurs

...le parallélisme des calculs ne pouvant être totalement efficace, certains des processeurs se trouvent inactifs pendant le déroulement des simulations

Le problème de la consommation énergétique, non résolu par le seul parallélisme massif, est posé mais non analysé. On sent la patte TERATEC qui oeuvre pour un accès pour toutes les entités. Evidemment le problème de l'adaptation des logiciels, de la formation est abordé et on le retrouvera dans les recommendations, en attendant les technologies quantiques (voir plus bas)

      1. La valeur des données

...la tentation de garder ces données de façon protégée au sein de la seule entreprise doit être mise en balance avec l’avantage potentiellement très important de les croiser avec des données issues d’activités connexes

Il est question de la valeur "patrimoniale" : partagées ou pas, échange, troc ou commerce.... En attendant on refait plusieurs fois sans tirer beaucoup d'enseignements de l'existant.

      1. Méthodes mathématiques pour le traitement des données

Ces méthodes comportent deux phases : une première phase d’entraînement, qui consiste à construire le modèle statistique sous forme d’un réseau de neurones ; et une seconde phase d’inférence, qui consiste à utiliser le modèle précédent avec de nouvelles données pour parvenir à la prédiction du processus étudié.

La parole est aujourd'hui aux chercheurs pour développer des méthodes d'apprentissage.

      1. Nécessaire convergence des approches

...surmonter l’obstacle représenté par le manque fréquent de données de qualité pour l’apprentissage des modèles.

Est-il possible de pallier le manque de données, et à quel terme ? Comme souvent tout est différent entre les méthodes de simulation et les méthodes d'apprentissage.

      1. Méthodes de modélisation hybride

 Dans les méthodes dites de « multifidélité », des modèles numériques de différents niveaux de précision permettent de construire un modèle hybride : dans ce cas les simulations fines, nombreuses et coûteuses à obtenir (mais « une fois pour toutes » seulement), nourrissent une approche par apprentissage automatique dont les résultats peuvent être utilisés pour une modélisation plus globale

Les méthodes hybrides liant simulation et apprentissage pourrait être un palliatif provisoire. Beaucoup d'espoirs sur les réseaux de neurones qui n'ont pas encore fourni tout ce qui est possible, et encore la multifidélité et la réduction de modèle (ou pet-être réduction de la complexité) qui apparait.

      1. Validation des simulations

Pour les applications destinées à être confrontées au monde réel, il est indispensable de trouver les moyens de prendre en considération, dans le mécanisme d’apprentissage, toute la connaissance a priori disponible, de telle façon que les grandes masses de données ne permettent que de corriger et d’adapter un modèle, et non en être l’unique source si une connaissance préalable existe

Ce sujet en rupture est très peu développé : une dizaine de lignes. Il est vrai qu'il est très complexe et va bien au-delà du couple simulation-apprentissage en introduisant le monde réel.

      1. De nouveaux types de compétences

...un renforcement de la formation pluridisciplinaire s’avère de la plus haute importance, pour assurer la maîtrise de la science physique, chimique, biologique…, des mathématiques appliquées, de l’informatique du parallélisme et de l’apprentissage automatique.

Evidemment et pas que dans ces domaines. Ce thème est récurrent depuis les débuts de la simulation.

    1. Les données en masse

Un des nouveaux défis majeurs auxquels ont à faire face les infrastructures pour le HPC, tant sur les plans matériels que logiciels, est celui de la quantité considérable et de la très grande diversité des données qu’il convient de traiter et d’analyser par le calcul, puis de visualiser, de stocker et d’archiver.

Le thème précédent (1.a) est repris et illustré d'un exemple qui ne concerne qu'un nombre infime d'utilisateurs industriels, mais il permet d'en tirer quelques conséquences "majeures".

    1. Les tendances actuelles dans le domaine des architectures de calcul
      1. Tassement de la croissance de la puissance, dégradation de l’efficacité relative des applications

Alors qu’antérieurement la puissance doublait tous les dix-huit mois, voire un peu moins, le rythme actuel n’est plus qu’une multiplication par cinq tous les six ans contre seize précédemment, soit environ trois fois moins

Avec les architectures actuelles, la fameuse loi de Moore s'applique toujours mais avec des ratios différents. Encore une fois l'utilisateur courant est souvent assez loin d'avoir ces besoins, mais cela a quand même quelques implications pour lui.

      1. Recours à des accélérateurs de calcul moins énergivores

Cette évolution [’une proportion de plus en grande d’accélérateurs présentant un rapport « performance/consommation » nettement plus intéressant que les processeurs classiques] n’est pas sans poser des problèmes de transformation profonde à beaucoup de codes applicatifs ou scientifiques issus de longs développements sur les anciennes architectures, en particulier pour les codes dits « patrimoniaux » (legacy codes).

C'est la conséquence du point précédant qui intéresse beaucoup plus notre utilisateur courant : accélérer les temps de calcul et les temps de réponse pour se consacer à son vrai métier. Les développeurs, fournisseurs, éditeurs des grands codes industriels ne travailent pas assez sur cet aspect, même si des progrès sont faits.

    1. Quels sont les types de données à considérer, et quelles sont leurs valeurs d’usage ?

 La valeur des données pose de nombreuses questions, dont deux particulièrement importantes et délicates

Evidemment d'accord.

      1. Ouverture et gratuité

pourraient leur être ouvertes gratuitement, ou à faible coût. Ce type d’aide pourrait alors être considéré comme une aide publique à la R & D, qu’il s’agisse de subventions ou d’avances remboursables.

Tout le monde semble être pour mais c'est un jeu de dupes : tout le monde attend l'autre, le premier qui osera.

      1. Circulation des données professionnelles

 ... comment concilier les droits de leurs propriétaires, leur maîtrise et le contrôle de leur utilisation ?

C'est le pendant naturel qui montre que rien est simple ! et en admettant, comment va t'on les utiliser ?

    1. L’importance grandissante du traitement et de l’exploitation de données massives, l’apprentissage automatique

 Le traitement, la simulation proprement dite, à partir de modèles physiques plus ou moins précis, par les méthodes « classiques » du HPC, et le travail sur les données massives afin d’en tirer le maximum d’informations, voire de connaissances, a commencé par se faire de façon indépendante, les logiciels utilisés étant très différents

Les exemples montrent que tout est différent entre simulation et apprentissage. Diu travail en perspective pour converger...

    1. La convergence nécessaire des approches 

 L’interpénétration progressive, l’hybridation, entre ces deux approches, simulation numérique basée sur le calcul scientifique d’une part, et traitement de données massives et apprentissage automatique d’autre part, représente le nouveau défi auquel doivent faire face de nombreuses applications.

.... afin que la simulation tiennent compte des connaissances a priori, et le modèle d'apprentissage respecte les lois physiques. Belle dualité !

    1. Les méthodes de modélisation hybride
      1. Améliorer la précision des simulations basées sur la physique en utilisant des données

 L’idée principale de base de la multifidélité est de construire un modèle basé sur des données issues de différents niveaux de précision/fidélité ; ceci permet par exemple de construire un modèle hybride utilisant des résultats issus de simulation haute-fidélité sur un maillage très fin (résultats peu nombreux car coûteux à obtenir) et des résultats issus de simulations basse fidélité sur un maillage grossier (nombreux car peu coûteux à obtenir)

Multifidélité par assimilation de données par jumeaux hybrides, par métamodèles, par modélisation de la méconnaissance ou de manque de connaissance. Les routes sont nombreuses.

      1. Réduire la complexité et le coût des simulations basées sur la physique

La maturité des méthodologies associées n’est donc pas encore atteinte, même si quelques sociétés commencent à proposer des services basés sur ces idées

réduction de modèles ou plus généralement réduction de la complexité, les apports récents de la recherche sont soulignés mais malheureusement peu utilisés dans l'industrie et dans les codes industriels.

    1. Vers de nouvelles approches pour la validation des simulations

 Avec une dimension des espaces pour les applications qui est aujourd’hui couramment de quelques millions, voire jusqu’à plus d’une centaine de millions, on est confronté à ce qui a été identifié en 1957 par Richard Bellman comme la « malédiction » ou le « fléau de la dimension » (ou curse of dimensionality).

Ce chapitre n'aborde pas du tout le monde réel ! Effectivement, il faut faire apparaitre de nouveaux concepts méthodologiques pour la validation

    1. Un besoin de nouvelles compétences, nécessaires aux ambitions industrielles

...de fortes ambitions industrielles nationales devront indéniablement être accompagnées d’un facteur d’attraction fort pour freiner le départ des meilleurs scientifiques français de l’apprentissage, toujours actuellement attirés par des perspectives scientifiques, professionnelles et salariales bien supérieures de l’autre côté de l’Atlantique.

Subtile complémentarité entre scientifique des données et l'ingénieur de données ! Il y a bien d'autres compétences à développer, y compris généralistes. On trouve ici un manifeste pour l'intelligence artificielle dans l'industrie avec plein d'engagements (faire de l'IA une source de croissane et d'emploi) signé par 8 PDG des grandes compagnies françaises et contre signé par notre ministre de l'Economie et des Finances. On pourrait en reparler d'ici quelques années.

  1. Synthèse et recommandations

Ces recommandations s’adressent principalement aux organismes de financement de la recherche, tant français qu’européens pour le soutien au développement de nouvelles méthodes (recommandations 1, 3 et 6), aux centres de calcul responsables de la mise en œuvre des unités de calcul et de traitement des données (recommandation 2), aux gestionnaires des bases de données, publiques et privées, dans les divers domaines applicatifs (recommandation 4), et aux grandes écoles et à l’université (recommandation 5).

    1. Développer des méthodes hybrides, associant physique de base et apprentissage

 Le recours au parallélisme massif à des échelles sans cesse croissantes reste un point difficile dans de nombreuses situations de simulation numérique et certains domaines de l’apprentissage automatique gagneront également à faire un usage plus approfondi et systématique des méthodes de parallélisation.

    1. S’appuyer sur la convergence des infrastructures pour le calcul et les données

La disponibilité de telles infrastructures est à la fois un enjeu de souveraineté nationale et européenne, afin de pouvoir rivaliser avec les superordinateurs exascale, en projet

    1. Mieux valider, qualifier et expliquer les résultats des simulations

Même si l’heure est à l’accélération de la recherche et des avancées technologiques, un temps d’approfondissement et de maturation est nécessaire pour que la confiance puisse s’établir sur un socle de validation et d’« explicabilité » éprouvé. Des besoins considérables en termes de formation initiale et continue sont inévitablement à prendre en compte .

    1. Organiser un meilleur partage des données entre les utilisateurs potentiels

Les start-up et PME n’ont en général pas les moyens de financer elles-mêmes la collecte, l’archivage et la maintenance d’une très grande quantité de données.

    1. Promouvoir une formation hybride adaptée et bien reconnaître les métiers associés

Même si cet état de fait est moins médiatisé, il convient de créer très rapidement les formations nécessaires ou d’élargir la taille des formations existantes. Comme déjà évoqué ceci est déterminant pour assurer la maîtrise des modèles, de leur mise en œuvre informatique, de la réalisation et de la validation des simulations.

    1. Aider à la transition des grands codes

Il est important de rappeler que l’Europe, et notamment la France, fait partie des principaux développeurs et contributeurs en grands codes (et en chaînes de codes) scientifiques dans le monde, utilisés à la fois pour la recherche et l’industrie.

On se demande bien à quels grands codes ou à quelle physique pensent-ils?

Faute d’investissements pour les optimiser régulièrement et les adapter aux évolutions des architectures, ces grands codes vieillissent. Leur conversion et leur adaptation aux nouveaux contextes ne peuvent donc se faire sans un investissement très important en termes, d’une part, de compétences et, d’autre part, de réécriture.

 Il est complété par 4 annexes dont nous retiendrons la quatrième

  • Trois écueils pour l’apprentissage statistique et l’apprentissage profond

La reconnaissance d’une causalité dans une corrélation est un travers courant et correspond souvent au sophisme qui consiste à défendre une conclusion de nature causale simplement en invoquant le fait qu’il y a corrélation entre deux phénomènes, sophisme consacré par l’expression latine cum hoc, ergo propter hoc « avec ceci, donc à cause de ceci ». Un traitement automatique de données (massives) peut exacerber ce travers

    • Surapprentissage

Le sur-apprentissage, ou overfitting, apparaît lorsque l’on cherche à trop apprendre desdonnées, car c’est le bruit qui finit par être incorporé dans le modèle ainsi construit.

    • Données adverses

 Les exemples adverses seraient ainsi des éléments de très faible probabilité situés dans le voisinage d’une image, mais pratiquement impossibles à déceler ou même à engendrer par les algorithmes d’apprentissage qui cherchent à enrichir la base d’échantillon pour augmenter les performances de généralisation

En marge, le plan quantique national a enfin, avec un an de retard, été lancé le jeudi 21 janvier 2021 par le Président de la République Emmanuel Macron à l’occasion d’une visite du laboratoire C2N du CNRS sur le Plateau de Saclay. 1,8 MM€ (état, europe et fonds privés)sur 5 ans pour capter, communiquer, calculer, rechercher. On peut lire un décodage intéressant ici.

 

Alors que peu après, des scientifiques du CNRS (LIP6), de l’université d’Édimbourg (Écosse) et de l’entreprise QC Ware Corp (France et USA) ont affirmé avoir mis au point une machine quantique capable d’effectuer « une tâche de vérification de données [sur le problème QMA]  en quelques secondes alors que le même exercice prendrait un temps équivalent à l’âge de l’univers pour un ordinateur classique ».

Publicité
Commentaires
Sciences de l'Ingénieur et Simulation
  • Blog de la simulation et de la modélisation dans les Sciences de l'ingénieur issu d'une expérience bientôt quinquagénaire mais aussi regardant le présent et l'avenir sans concession, sans trop d'académisme (un peu quand même) et sans mercantilisme.
  • Accueil du blog
  • Créer un blog avec CanalBlog
Publicité
Publicité