Expérience informatique - Computer experiment

Une expérience informatique ou une expérience de simulation est une expérience utilisée pour étudier une simulation informatique, également appelée système in silico . Ce domaine comprend la physique computationnelle , la chimie computationnelle , la biologie computationnelle et d'autres disciplines similaires.

Contexte

Les simulations informatiques sont conçues pour émuler un système physique. Étant donné que ceux-ci sont destinés à reproduire en détail certains aspects d'un système, ils ne donnent souvent pas de solution analytique. Par conséquent, des méthodes telles que la simulation d'événements discrets ou des solveurs d' éléments finis sont utilisées. Un modèle informatique est utilisé pour faire des inférences sur le système qu'il réplique. Par exemple, les modèles climatiques sont souvent utilisés car l'expérimentation sur un objet de la taille de la Terre est impossible.

Objectifs

Les expériences informatiques ont été utilisées avec de nombreux objectifs à l'esprit. Certains d'entre eux incluent:

Quantification de l'incertitude : caractériser l'incertitude présente dans une simulation informatique résultant d'inconnues lors de la construction de la simulation informatique.
Problèmes inverses : découvrez les propriétés sous-jacentes du système à partir des données physiques.
Correction du biais: utilisez des données physiques pour corriger le biais dans la simulation.
Assimilation des données : combinez plusieurs simulations et sources de données physiques dans un modèle prédictif complet.
Conception de systèmes : recherchez des entrées qui permettent des mesures optimales des performances du système.

Modélisation par simulation informatique

La modélisation des expériences informatiques utilise généralement un cadre bayésien. La statistique bayésienne est une interprétation du domaine de la statistique où toutes les preuves de l'état réel du monde sont explicitement exprimées sous forme de probabilités . Dans le domaine des expériences informatiques, l'interprétation bayésienne impliquerait que nous devons former une distribution préalable qui représente notre croyance antérieure sur la structure du modèle informatique. L'utilisation de cette philosophie pour les expériences informatiques a commencé dans les années 1980 et est bien résumée par Sacks et al. (1989) [1] . Si l'approche bayésienne est largement utilisée, les approches fréquentistes ont été récemment discutées [2] .

L'idée de base de ce cadre est de modéliser la simulation informatique comme une fonction inconnue d'un ensemble d'entrées. La simulation informatique est mise en œuvre sous la forme d'un morceau de code informatique qui peut être évalué pour produire une collection de sorties. Des exemples d'entrées pour ces simulations sont les coefficients dans le modèle sous-jacent, les conditions initiales et les fonctions de forçage . Il est naturel de voir la simulation comme une fonction déterministe qui mappe ces entrées dans un ensemble de sorties . Sur la base de la vision de notre simulateur de cette façon, il est courant de se référer à la collection d'entrées comme , à la simulation informatique elle-même et à la sortie résultante comme . Les deux et sont des quantités vectorielles, et ils peuvent être de très grandes collections de valeurs, souvent indexées par espace, ou par temps, ou à la fois par espace et par temps. ${\ displaystyle x}$ ${\ displaystyle f}$ ${\ displaystyle f (x)}$ ${\ displaystyle x}$ ${\ displaystyle f (x)}$

Bien que cela soit connu en principe, ce n'est pas le cas en pratique. De nombreux simulateurs comportent des dizaines de milliers de lignes de code informatique de haut niveau, qui ne sont pas accessibles à l'intuition. Pour certaines simulations, comme les modèles climatiques, l'évaluation de la sortie pour un seul ensemble d'entrées peut nécessiter des millions d'heures informatiques [3] . ${\ displaystyle f (\ cdot)}$

Processus gaussien avant

Le modèle typique pour une sortie de code informatique est un processus gaussien. Pour simplifier la notation, supposons que c'est un scalaire. Grâce au cadre bayésien, nous fixons notre croyance que la fonction suit un processus gaussien , où est la fonction moyenne et est la fonction de covariance. Les fonctions moyennes populaires sont des polynômes d'ordre inférieur et une fonction de covariance populaire est la covariance de Matern , qui comprend à la fois les covariances exponentielle ( ) et gaussienne (as ). ${\ displaystyle f (x)}$ ${\ displaystyle f}$ ${\ Displaystyle f \ sim \ operatorname {GP} (m (\ cdot), C (\ cdot, \ cdot)),}$ ${\ displaystyle m}$ ${\ displaystyle C}$ ${\ displaystyle \ nu = 1/2}$ ${\ displaystyle \ nu \ rightarrow \ infty}$

Conception d'expériences informatiques

La conception des expériences informatiques présente des différences considérables par rapport à la conception des expériences pour les modèles paramétriques. Comme un processus gaussien a une représentation dimensionnelle infinie, les concepts de critères A et D (voir Conception optimale ), qui se concentrent sur la réduction de l'erreur dans les paramètres, ne peuvent pas être utilisés. Les réplications seraient également inutiles dans les cas où la simulation informatique ne comporte aucune erreur. Les critères utilisés pour déterminer une bonne conception expérimentale comprennent l'erreur de prédiction quadratique moyenne intégrée [4] et les critères basés sur la distance [5] .

Les stratégies de conception populaires incluent l' échantillonnage par hypercube latin et les séquences à faible divergence .

Problèmes avec des tailles d'échantillon massives

Contrairement aux expériences physiques, il est courant que les expériences informatiques comportent des milliers de combinaisons d'entrée différentes. Étant donné que l'inférence standard nécessite l' inversion de matrice d'une matrice carrée de la taille du nombre d'échantillons ( ), le coût augmente sur le . L'inversion matricielle de matrices larges et denses peut également entraîner des inexactitudes numériques. Actuellement, ce problème est résolu par des techniques d'arbre de décision gourmandes, permettant des calculs efficaces pour une dimensionnalité illimitée et une taille d'échantillon brevet WO2013055257A1 , ou évité en utilisant des méthodes d'approximation, par exemple [6] . ${\ displaystyle n}$ ${\ displaystyle {\ mathcal {O}} (n ^ {3})}$

Voir également

Lectures complémentaires

Santner, Thomas (2003). La conception et l'analyse des expériences informatiques . Berlin: Springer. ISBN 0-387-95420-1 .

Fehr, Jörg; Heiland, janvier; Himpe, Christian; Saak, Jens (2016). "Les meilleures pratiques pour la réplicabilité, la reproductibilité et la réutilisabilité des expériences informatiques illustrées par le logiciel de réduction de modèle". Mathématiques AIMS . 1 (3): 261-281. arXiv : 1607.01191 . doi : 10.3934 / Math.2016.3.261 .

Languages

In other projects