Match en mouvement - Match moving

Dans les effets visuels , le déplacement par correspondance est une technique qui permet l'insertion d' images de synthèse dans des séquences d' action en direct avec une position, une échelle, une orientation et un mouvement corrects par rapport aux objets photographiés dans la prise de vue . Le terme est utilisé librement pour décrire plusieurs méthodes différentes d'extraction d'informations de mouvement de caméra à partir d'un film . Parfois appelé suivi de mouvement ou résolution de caméra , le mouvement de correspondance est lié à la rotoscopie et à la photogrammétrie . Le déplacement par correspondance est parfois confondu avec la capture de mouvement , qui enregistre le mouvement d'objets, souvent des acteurs humains, plutôt que la caméra. En règle générale, la capture de mouvement nécessite des caméras spéciales et des capteurs et un environnement contrôlé (bien que les développements récents tels que le Kinect caméra et d' Apple de ID face ont commencé à changer cela). Le mouvement de match est également distinct de la photographie de contrôle de mouvement , qui utilise du matériel mécanique pour exécuter plusieurs mouvements de caméra identiques. Le déplacement par correspondance, en revanche, est généralement une technologie logicielle , appliquée après coup à des séquences normales enregistrées dans des environnements non contrôlés avec une caméra ordinaire.

Le mouvement de match est principalement utilisé pour suivre le mouvement d'une caméra à travers un plan afin qu'un mouvement de caméra virtuelle identique puisse être reproduit dans un programme d' animation 3D . Lorsque de nouveaux éléments animés sont reconstitués dans le plan d'action en direct d'origine, ils apparaîtront dans une perspective parfaitement adaptée et apparaîtront donc sans couture.

Comme il s'agit principalement d'un logiciel, le déplacement de matchs est devenu de plus en plus abordable à mesure que le coût de la puissance informatique a diminué ; c'est maintenant un outil d'effets visuels établi et est même utilisé dans les émissions télévisées en direct dans le cadre de la fourniture d'effets tels que la ligne descendante virtuelle jaune dans le football américain .

Principe

Le processus de déplacement du match peut être décomposé en deux étapes.

Suivi

La première étape consiste à identifier et à suivre les caractéristiques. Une caractéristique est un point spécifique de l'image sur lequel un algorithme de suivi peut se verrouiller et suivre plusieurs images ( SynthEyes les appelle des blips ). Souvent, les caractéristiques sont sélectionnées parce qu'il s'agit de points lumineux/sombres, de bords ou de coins en fonction de l'algorithme de suivi particulier. Les programmes populaires utilisent la correspondance de modèles basée sur le score NCC et l' erreur RMS . Ce qui est important, c'est que chaque caractéristique représente un point spécifique sur la surface d'un objet réel. Lorsqu'une entité est suivie, elle devient une série de coordonnées bidimensionnelles qui représentent la position de l'entité sur une série d'images. Cette série est appelée une "piste". Une fois les pistes créées, elles peuvent être utilisées immédiatement pour le suivi de mouvement 2D, ou ensuite être utilisées pour calculer des informations 3D.

Étalonnage

La deuxième étape consiste à résoudre le mouvement 3D. Ce processus tente de dériver le mouvement de la caméra en résolvant la projection inverse des chemins 2D pour la position de la caméra. Ce processus est appelé étalonnage .

Lorsqu'un point sur la surface d'un objet tridimensionnel est photographié, sa position dans le cadre 2D peut être calculée par une fonction de projection 3D . On peut considérer une caméra comme une abstraction qui contient tous les paramètres nécessaires pour modéliser une caméra dans un monde réel ou virtuel. Par conséquent, une caméra est un vecteur qui inclut comme éléments la position de la caméra, son orientation, sa distance focale et d'autres paramètres possibles qui définissent la façon dont la caméra focalise la lumière sur le plan du film . La manière exacte dont ce vecteur est construit n'a pas d'importance tant qu'il existe une fonction de projection compatible P .

La fonction de projection P prend en entrée un vecteur caméra (noté camera ) et un autre vecteur la position d'un point 3D dans l'espace (noté xyz ) et renvoie un point 2D qui a été projeté sur un plan devant la caméra (noté XY ). Nous pouvons exprimer ceci :

XY = P( caméra , xyz )

Une illustration de la projection de caractéristiques. Autour du rendu d'une structure 3D, les points rouges représentent les points choisis par le processus de suivi. Les caméras à l'image i et j projettent la vue sur un plan en fonction des paramètres de la caméra. De cette façon, les entités suivies en 2D correspondent à des points réels dans un espace 3D. Bien que cette illustration particulière soit générée par ordinateur, le déplacement des correspondances est normalement effectué sur des objets réels.

La fonction de projection transforme le point 3D et supprime la composante de profondeur. Sans connaître la profondeur du composant, une fonction de projection inverse ne peut renvoyer qu'un ensemble de points 3D possibles, qui forment une ligne émanant du point nodal de l'objectif de la caméra et passant par le point 2D projeté. On peut exprimer la projection inverse sous la forme :

xyz ∈ P'( caméra , XY )

ou

{ xyz :P( caméra , xyz ) = XY }

Disons que nous sommes dans une situation où les caractéristiques que nous suivons se trouvent à la surface d'un objet rigide tel qu'un bâtiment. Puisque nous savons que le point réel xyz restera au même endroit dans l'espace réel d'une trame de l'image à la suivante, nous pouvons faire du point une constante même si nous ne savons pas où il se trouve. Donc:

xyz _i = xyz _j

où les indices i et j se réfèrent à des images arbitraires dans le plan que nous analysons. Puisque cela est toujours vrai, nous savons que :

P'( caméra _i , XY _i ) ∩ P'( caméra _j , XY _j ) ≠ {}

Étant donné que la valeur de XY _i a été déterminée pour toutes les images à travers lesquelles l'entité est suivie par le programme de suivi, nous pouvons résoudre la fonction de projection inverse entre deux images tant que P'( camera _i , XY _i ) ∩ P'( camera _j , XY _j ) est un petit ensemble. Ensemble de vecteurs de caméra possibles qui résolvent l'équation en i et j (noté C _ij ).

C _ij = {( caméra _i , caméra _j ):P'( caméra _i , XY _i ) ∩ P'( caméra _j , XY _j ) ≠ {})

Il existe donc un ensemble de couples de vecteurs caméra C _ij pour lesquels l'intersection des projections inverses de deux points XY _i et XY _j est un ensemble non vide, espérons petit, centré sur un point stationnaire théorique xyz .

En d'autres termes, imaginez un point noir flottant dans un vide blanc et une caméra. Pour n'importe quelle position dans l'espace où nous plaçons l'appareil photo, il existe un ensemble de paramètres correspondants (orientation, distance focale, etc.) qui photographieront ce point noir exactement de la même manière. Puisque C a un nombre infini de membres, un point n'est jamais suffisant pour déterminer la position réelle de la caméra.

Au fur et à mesure que nous commençons à ajouter des points de suivi, nous pouvons réduire les positions possibles de la caméra. Par exemple, si nous avons un ensemble de points { xyz _i,0 ,..., xyz _i,n } et { xyz _j,0 ,..., xyz _j,n } où i et j font toujours référence à des cadres et n est un indice de l'un des nombreux points de suivi que nous suivons. Nous pouvons dériver un ensemble d'ensembles de paires de vecteurs de caméra {C _i,j,0 ,...,C _i,j,n }.

De cette façon, plusieurs pistes nous permettent d'affiner les paramètres possibles de la caméra. L'ensemble des paramètres de caméra possibles qui correspondent, F, est l'intersection de tous les ensembles :

F = C _i,j,0 ... ∩ C _i,j,n

Moins il y a d'éléments dans cet ensemble, plus nous pouvons nous rapprocher des paramètres réels de la caméra. En réalité, les erreurs introduites dans le processus de suivi nécessitent une approche plus statistique pour déterminer un bon vecteur de caméra pour chaque image, des algorithmes d' optimisation et un ajustement de bloc de faisceau sont souvent utilisés. Malheureusement, il y a tellement d'éléments dans un vecteur de caméra que lorsque chaque paramètre est libre, nous ne pourrons peut-être toujours pas réduire F à une seule possibilité, quel que soit le nombre d'entités que nous suivons. Plus on peut restreindre les différents paramètres, notamment la focale, plus il devient facile de cerner la solution.

Dans l'ensemble, le processus de résolution 3D consiste à réduire les solutions possibles au mouvement de la caméra jusqu'à ce que nous atteignions une solution adaptée aux besoins du composite que nous essayons de créer.

Projection de nuage de points

Une fois la position de la caméra déterminée pour chaque image, il est alors possible d'estimer la position de chaque élément dans l'espace réel par projection inverse. L'ensemble de points résultant est souvent appelé nuage de points en raison de son apparence brute comme une nébuleuse . Étant donné que les nuages de points révèlent souvent une partie de la forme de la scène 3D, ils peuvent être utilisés comme référence pour placer des objets synthétiques ou par un programme de reconstruction pour créer une version 3D de la scène réelle.

Détermination du plan de masse

La caméra et le nuage de points doivent être orientés dans une sorte d'espace. Par conséquent, une fois l'étalonnage terminé, il est nécessaire de définir un plan de masse. Normalement, c'est un plan unitaire qui détermine l'échelle, l'orientation et l'origine de l'espace projeté. Certains programmes tentent de le faire automatiquement, bien que le plus souvent l'utilisateur définisse ce plan. Étant donné que le déplacement des plans de masse effectue une simple transformation de tous les points, la position réelle de l'avion est vraiment une question de commodité.

Reconstruction

La reconstruction est le processus interactif de recréation d'un objet photographié à l'aide de données de suivi. Cette technique est liée à la photogrammétrie . Dans ce cas particulier, nous nous référons à l'utilisation d'un logiciel de déplacement de match pour reconstruire une scène à partir d'images incidentes.

Un programme de reconstruction peut créer des objets tridimensionnels qui imitent les objets réels de la scène photographiée. En utilisant les données du nuage de points et l'estimation de l'utilisateur, le programme peut créer un objet virtuel, puis extraire une texture du métrage qui peut être projetée sur l'objet virtuel en tant que texture de surface.

2D contre 3D

Le déplacement de match a deux formes. Certains programmes de composition, tels que Shake , Adobe After Effects et Discreet Combustion , incluent des fonctionnalités de suivi de mouvement en deux dimensions . La correspondance bidimensionnelle se déplaçant uniquement sur les caractéristiques d'un espace bidimensionnel, sans se soucier du mouvement ou de la distorsion de la caméra. Il peut être utilisé pour ajouter des effets de flou de mouvement ou de stabilisation d'image au métrage. Cette technique est suffisante pour créer des effets réalistes lorsque le métrage original n'inclut pas de changements majeurs dans la perspective de la caméra. Par exemple, un panneau d'affichage au fond d'un plan peut souvent être remplacé à l'aide d'un suivi en deux dimensions.

Les outils de déplacement de correspondance tridimensionnels permettent d'extrapoler des informations tridimensionnelles à partir de photographies bidimensionnelles. Ces outils permettent aux utilisateurs de dériver le mouvement de la caméra et d'autres mouvements relatifs à partir de séquences arbitraires. Les informations de suivi peuvent être transférées à un logiciel d'infographie et utilisées pour animer des caméras virtuelles et des objets simulés. Les programmes capables de déplacer des matchs en 3D incluent :

3DEqualizer de Science.D.Visions (qui a remporté un Academy Award for Technical Achievement )
Blender (open source ; utilise libmv)
Vaudou
ACTS un suivi automatique de la caméra avec un système de récupération de profondeur dense pour la gestion des séquences d'images/vidéo
LS-ACTS un système de structure à partir du mouvement robuste et efficace qui peut gérer de grands ensembles de données de séquences d'images/vidéo en temps quasi réel et fonctionne de manière robuste dans des cas difficiles (par exemple, des séquences de bouclage et des séquences multiples)
VISCODA VooCAT
Icarus (projet de recherche de l'Université de Manchester, maintenant abandonné mais toujours populaire)
Maya MatchMover
The Pixel Farm PFTrack , PFMatchit, PFHoe (basé sur les algorithmes PFTrack)
KeenTools GeoTracker , PinTool
SynthEyes par Andersson Technologies
Boujou (qui a remporté un Emmy Award en 2002)
NukeX de la fonderie
fayIN un plug-in pour Adobe After Effects de fayteq
CameraTracker (un plug-in pour Adobe After Effects ) de The Foundry.
VideoTrace de Punchcard (logiciel de génération de modèles 3D à partir de vidéos et d'images)
IXIR Éditeur de pistes 2D Il est capable de créer des pistes 2D et des fichiers de masque de logiciels tels que 3D Equalizer, PFTrack, Boujou, SynthEyes, Matchmover, Movimento, Nuke, Shake, Fusion, After Effects, Combustion, Moka, Silhouette
mocha Pro d'Imagineer Systems, utilitaire basé sur Planar Tracker pour la post-production

Suivi automatique vs. interactif

Il existe deux méthodes par lesquelles les informations de mouvement peuvent être extraites d'une image. Le suivi interactif, parfois appelé « suivi supervisé », repose sur le fait que l'utilisateur suit les caractéristiques d'une scène. Le suivi automatique repose sur des algorithmes informatiques pour identifier et suivre les caractéristiques à travers un plan. Les déplacements des points suivis sont ensuite utilisés pour calculer une "solution". Cette solution est composée de toutes les informations de la caméra telles que le mouvement, la distance focale et la distorsion de l'objectif .

L'avantage du suivi automatique est que l'ordinateur peut créer de nombreux points plus rapidement qu'un humain. Un grand nombre de points peuvent être analysés avec des statistiques pour déterminer les données les plus fiables. L'inconvénient du suivi automatique est que, selon l'algorithme, l'ordinateur peut être facilement confondu car il suit les objets à travers la scène. Les méthodes de suivi automatique sont particulièrement inefficaces dans les prises de vue impliquant un mouvement rapide de la caméra, telles que celles observées avec un appareil photo à main levée, et dans les prises de vue avec un sujet répétitif comme de petits carreaux ou toute sorte de motif régulier où une zone n'est pas très distincte. Cette méthode de suivi souffre également lorsqu'une prise de vue contient une grande quantité de flou de mouvement, ce qui rend les petits détails dont il a besoin plus difficile à distinguer.

L'avantage du suivi interactif est qu'un utilisateur humain peut suivre des caractéristiques à travers une scène entière et ne sera pas confus par des caractéristiques qui ne sont pas rigides. Un utilisateur humain peut également déterminer où se trouvent les caractéristiques d'une prise de vue qui souffre de flou de mouvement ; il est extrêmement difficile pour un traqueur automatique de trouver correctement les caractéristiques avec des quantités élevées de flou de mouvement. L'inconvénient du suivi interactif est que l'utilisateur introduira inévitablement de petites erreurs lorsqu'il suit les objets à travers la scène, ce qui peut conduire à ce que l'on appelle la « dérive ».

Le suivi de mouvement de niveau professionnel est généralement réalisé en utilisant une combinaison de techniques interactives et automatiques. Un artiste peut supprimer des points qui sont clairement anormaux et utiliser des « masques de suivi » pour bloquer les informations confuses du processus de suivi automatique. Les caches de suivi sont également utilisés pour couvrir les zones du plan qui contiennent des éléments en mouvement tels qu'un acteur ou un ventilateur de plafond en rotation.

Suivi des caches

Un cache de suivi est similaire dans son concept à un cache d'ordures utilisé dans la composition de caches itinérants . Cependant, le but d'un cache de suivi est d'empêcher les algorithmes de suivi d'utiliser des points de suivi peu fiables, non pertinents ou non rigides. Par exemple, dans une scène où un acteur marche devant un arrière-plan, l'artiste de suivi voudra utiliser uniquement l'arrière-plan pour suivre la caméra à travers la scène, sachant que le mouvement de l'acteur perturbera les calculs. Dans ce cas, l'artiste construira un cache de suivi pour suivre l'acteur à travers la scène, bloquant ces informations du processus de suivi.

Raffinage

Étant donné qu'il existe souvent plusieurs solutions possibles au processus d'étalonnage et qu'une quantité importante d'erreurs peut s'accumuler, la dernière étape pour faire correspondre le déplacement consiste souvent à affiner la solution à la main. Cela pourrait signifier modifier le mouvement de la caméra lui-même ou donner des indications sur le mécanisme d'étalonnage. Cet étalonnage interactif est appelé « raffinage ».

La plupart des applications de déplacement de matchs sont basées sur des algorithmes similaires pour le suivi et l'étalonnage. Souvent, les premiers résultats obtenus sont similaires. Cependant, chaque programme a des capacités de raffinage différentes.

Temps réel

Le suivi de caméra en temps réel sur le plateau est de plus en plus utilisé dans la production de longs métrages pour permettre aux éléments qui seront insérés en post-production d'être visualisés en direct sur le plateau. Cela a l'avantage d'aider le réalisateur et les acteurs à améliorer les performances en voyant réellement des extensions de jeu ou des personnages CGI pendant (ou peu de temps après) qu'ils font une prise. Ils n'ont plus besoin de fonctionner sur des écrans vert/bleu et n'ont aucun retour sur le résultat final. Les références à la ligne des yeux, le positionnement de l'acteur et l'interaction CGI peuvent désormais être effectués en direct sur le plateau, donnant à chacun l'assurance que le plan est correct et qu'il fonctionnera dans le composite final.

Pour y parvenir, un certain nombre de composants, du matériel au logiciel, doivent être combinés. Le logiciel collecte tous les 360 degrés de liberté de mouvement de la caméra ainsi que les métadonnées telles que les éléments de zoom, de mise au point, d'iris et d'obturateur à partir de nombreux types de périphériques matériels, allant des systèmes de capture de mouvement tels que le système à base de marqueurs LED actifs de PhaseSpace, des systèmes passifs tels que Motion Analysis ou Vicon, aux encodeurs rotatifs montés sur les grues et les chariots de caméra tels que Technocranes et Fisher Dollies, ou les capteurs d'inertie et gyroscopiques montés directement sur la caméra. Il existe également des systèmes de suivi laser qui peuvent être attachés à n'importe quoi, y compris des Steadicams, pour suivre les caméras à l'extérieur sous la pluie à des distances allant jusqu'à 30 mètres.

Les caméras de contrôle de mouvement peuvent également être utilisées comme source ou destination pour les données de caméra 3D. Les mouvements de la caméra peuvent être prévisualisés à l'avance, puis convertis en données de contrôle de mouvement qui entraînent une grue de caméra exactement sur le même chemin que la caméra 3D. Les encodeurs sur la grue peuvent également être utilisés en temps réel sur le plateau pour inverser ce processus afin de générer des caméras 3D en direct. Les données peuvent être envoyées à n'importe quel nombre d'applications 3D différentes, permettant aux artistes 3D de modifier leurs éléments CGI en direct sur le plateau également. Le principal avantage étant que les problèmes de conception de décors qui prendraient du temps et seraient coûteux plus tard peuvent être résolus pendant le processus de tournage, garantissant que les acteurs "s'intègrent" dans chaque environnement pour chaque plan pendant qu'ils font leurs performances.

Les systèmes de capture de mouvement en temps réel peuvent également être mélangés dans le flux de données de la caméra, ce qui permet d'insérer des personnages virtuels dans des prises de vue en direct sur le plateau. Cela améliore considérablement l'interaction entre les personnages réels et non réels pilotés par MoCap, car les performances sur plaque et CG peuvent être chorégraphiées ensemble.

Voir également

Les références

Matchmoving: The Invisible Art of Camera Tracking , par Tim Dobbert, Sybex, février 2005, ISBN 0-7821-4403-9
Estimation 3D et applications pour faire correspondre le mouvement - Un premier article sur le mouvement de match, qui approfondit les mathématiques.
Comparaison des applications de déplacement et de suivi de matchs
Tutoriels de suivi et de déplacement en 3D *Lien mort*

Liens externes

Matchmoving expliqué sur le blog FLIP Animation Récupéré en mai 2013

Languages

In other projects