Recherche
Mes travaux de recherche, issus du domaine des statistiques, portent sur la méta-modélisation par processus Gaussiens dans le cadre de l'inversion stochastique, avec une application à la conception d'éoliennes. L'objectif de cette partie n'est pas de rentrer dans des détails techniques demandant des prérequis mathématiques, mais de tenter de faire sentir au plus grand nombre, à partir d'exemple concrets et relativement simples, les concepts mathématiques auxquels je m'intéresse et les problèmes que je tente de résoudre au quotidien.
Prenons un exemple simple qui parle à tout le monde : la recherche des œufs de Pâques dans le jardin de votre enfance (que l'on suppose relativement grand). Imaginez que vous soyez allés dans disons 5 endroits bien spécifiques du jardin (la balançoire, la cabane, la terrasse, etc...) et que pour chacun de ces endroits vous ayez notés sur une carte la localisation dans le jardin et la quantité d'œufs en chocolat ramassés. Alors, il est raisonnable de se demander : où faut-il bien aller ensuite pour tenter de trouver un maximum d'œufs en chocolat ? Pour commencer, on pourrait penser qu'il est raisonnable de retourner proche des endroits où l'on a déjà trouvé beaucoup d'œufs. Cependant, en utilisant une telle méthode, on met potentiellement de côté des zones du jardin peu explorés où les quantités d'œufs en chocolat pourraient être potentiellement bien plus importantes que celles des zones déjà explorés. On comprend ainsi qu'il est important à la fois d'exploiter des zones que l'on connait et dont on sait qu'elles sont riches en chocolats mais également d'explorer de nouvelles zones pour être sûr de ne pas passer à côté de quelque chose : c'est ce qu'on appelle le compromis exploration-exploitation.
Dans l'exemple de la recherche des œufs de Pâques, aller chercher à un nouvel endroit s'il y a des œufs en chocolat ou pas n'est pas un processus très coûteux ni en temps ni en énergie (à moins d'avoir un jardin de plusieurs hectares ...), mais il existe des exemples d'application où l'évaluation de la quantité d'intérêt (ici la quantité d'œufs en chocolats) en un nouvel endroit peut être beaucoup plus coûteuse. Par exemple, dans le cadre de l'industrie pétrolière, on cherche à déterminer l'endroit le plus propice pour trouver le plus de pétrole possible à partir de la connaissance des autres forages préexistants. Cependant, le coût d'un forage est très important (on estime que la phase de prospection représente environ les 2/3 du coût d'un projet pétrolier) et il convient donc de bien réfléchir avant de forer un nouveau puit pétrolier. En pratique, de nombreuses compétences métier comme par exemple l'étude géologique du sous-sol sont également nécessaires avant de forer un puit de pétrole mais cet exemple permet tout de même de comprendre l'importance de bien choisir le nouvel endroit à évaluer.
Dans les deux exemples ci-dessus, les deux quantités d'intérêt respectives sont la quantité d'œufs en chocolat trouvés en un endroit précis et la quantité de pétrole extrait pour un forage particulier. La quantité d'intérêt est une fonction qui à un couple de coordonnées donné, associe une valeur. Dans le cadre général, on cherche donc à mieux connaitre cette quantité d'intérêt, qui est évaluable en n'importe quel point de l'espace mais telle que chaque évaluation est supposée coûteuse (en argent, en énergie ou en temps). Dans les deux exemples ci-dessous, on s'est intéressé à un problème d'optimisation, qui consiste à estimer au mieux la valeur maximale de la quantité d'intérêt, mais on peut tout à fait s'intéresser plutôt à une estimation globale de la quantité d'intérêt, ou à un problème d'estimation d'ensembles d'excursion, c'est-à-dire trouver l'ensemble des coordonnées tels que la quantité d'intérêt soit supérieure à une certaine valeur seuil fixée.
Pour résoudre le problème de savoir quel est le nouveau point à évaluer pour la quantité d'intérêt, on utilise bien souvent un méta-modèle ("surrogate model") c'est-à-dire un modèle approché plus simple (moins coûteux à évaluer) et déterminé à partir d'un nombre fini d'évaluations de la vraie quantité d'intérêt. Par exemple, la figure ci-jointe représente une estimation des précipitations en Suisse sur une période donnée à partir d'un nombre fini d'observations (points vert). Parmi les méta-modèles possibles, on peut citer le chaos polynomial, la régression par processus Gaussiens (a.k.a krigeage), les machines à vecteurs de support, les réseaux de neurones artificiels, etc. Personnellement, je m'intéresse plus particulièrement à la régression par processus Gaussiens (krigeage), qui consiste à faire l'hypothèse que la quantité d'intérêt est la réalisation d'un processus Gaussien (généralisation des variables aléatoires réelles suivant une loi normale au cadre fonctionnel). Les méta-modèles comme le krigeage, permettent ensuite de définir un critère d'enrichissement d'un nouveau point d'évaluation à ajouter au plan d'expériences (ensembles des couples points-évaluations de la vraie quantité d'intérêt). Une mise à jour du méta-modèle est ensuite réalisée avec le nouveau point puis on réitère le procédé tant que le critère d'arrêt n'est pas vérifié (par exemple un budget max à ne pas dépasser).
Mon travail de thèse a consisté à étudier les différents critères d'enrichissement du méta-modèle (pour l'estimation d'ensembles d'excursion), regarder leurs caractéristiques, leurs atouts et leurs défauts, en testant l'enrichissement sur des exemples tests simples, et proposer de nouveaux critères qui permettent de répondre à certaines problématiques soulevées par les critères précédemment introduits. Plus récemment, je me suis surtout intéressé à des problèmes d'estimation d'ensembles d'excursion où la quantité d'intérêt est vectorielle (composée de plusieurs sous-quantités d'intérêt). Parmi les perspectives, il est envisageable de lier ce travail avec des quantités d'intérêts prenant en entrées des variables non contrôlées de type processus stochastiques (fonctions aléatoires).
L'application sur laquelle j'ai travaillé pendant ma thèse est un problème proposé par l'IFP Energies Nouvelles dans le domaine éolien. Il s'agit d'une étape de pré-calibration qui consiste en l'estimation des paramètres d'entrées d'un modèle (simulateur de calculs) tels qu'une quantité d'intérêt donnée correspondante aux caractéristiques vibratoires de la structure mécanique de l'éolienne, corresponde avec précision aux données mesurées. Dans cet exemple d'application, la quantité d'intérêt ne porte plus sur des coordonnées spatiales comme dans les exemples précédents mais sur un jeu de paramètres du simulateur de calculs correspondant à des coefficients de raideur de certains matériaux de la structure. L'objectif est d'estimer les coefficients de raideur tels que la mesure de dissimilarité entre les valeurs simulées et les données mesurées reste inférieure à un certain seuil fixé.
Publications :
Clément Duhamel, Céline Helbert, Miguel Munoz Zuniga, Clémentine Prieur, Delphine Sinoquet : A SUR version of the Bichon criterion for excursion set estimation, Statistics and Computing, 33(2), 41. Springer
Clément Duhamel, Clémentine Prieur, Céline Helbert, Miguel Munoz Zuniga, Delphine Sinoquet : A SUR version of the Bichon criterion for excursion set estimation, Poster Mascot Num 2022. hal
Principales conférences :
SIAM UQ 2024, Trieste, Italy. SIAM UQ 2024
Journée de Statistique de la SFdS 2023, Bruxelles. JDS
SIAM UQ 2022. Atlanta, Georgia, US. SIAM UQ 22
SAMO 2022. Tallahassee, Florida, US. SAMO 2022