Vidéo volumétrique - Volumetric video

La vidéo volumétrique est une technique qui capture un espace en trois dimensions, tel qu'un lieu ou une performance. Ce type de volumographie acquiert des données qui peuvent être visualisées sur des écrans plats ainsi qu'à l'aide d'écrans 3D et de lunettes VR . Les formats destinés aux consommateurs sont nombreux et les techniques de capture de mouvement requises s'appuient sur l'infographie , la photogrammétrie et d'autres méthodes basées sur le calcul. Le spectateur expérimente généralement le résultat dans un moteur en temps réel et a une entrée directe dans l'exploration du volume généré.

Histoire

Le talent d'enregistrement sans la limitation d'un écran plat a été dépeint dans la science-fiction pendant longtemps. Les hologrammes et les visuels 3D du monde réel ont figuré en bonne place dans Star Wars , Blade Runner et de nombreuses autres productions de science-fiction au fil des ans. Grâce aux progrès croissants dans les domaines de l'infographie, de l'optique et du traitement des données, cette fiction a lentement évolué pour devenir une réalité. La vidéo volumétrique est la suite logique des films stéréoscopiques et des vidéos à 360° en ce qu'elle combine la qualité visuelle de la photographie avec l' immersion et l'interactivité du contenu spatialisé et pourrait s'avérer être le développement le plus important dans l'enregistrement de la performance humaine depuis la création de cinéma contemporain. Le premier rapport sur le marché de la vidéo volumétrique est sorti en mai 2018 et la première publication en ligne dédiée à la vidéo volumétrique est sortie en novembre 2019 - " Volumetric Video News ".

Infographie et VFX

La création de modèles 3D à partir de vidéos, de photographies et d'autres moyens de mesurer le monde a toujours été un sujet important en infographie . Le but ultime est d'imiter la réalité dans les moindres détails tout en donnant aux créatifs le pouvoir de construire des mondes sur cette base pour correspondre à leur vision. Traditionnellement, les artistes créent ces mondes en utilisant des techniques de modélisation et de rendu développées au fil des décennies depuis la naissance de l'infographie. Les effets visuels dans les films et les jeux vidéo ont ouvert la voie aux progrès de la photogrammétrie , des appareils de numérisation et du backend informatique pour gérer les données reçues de ces nouvelles méthodes intensives. Généralement, ces avancées sont le résultat de la création de visuels plus avancés pour le divertissement et les médias, mais n'ont pas été l'objectif du domaine lui-même.

LIDAR

LIDAR Leica HDS-3000

La numérisation LIDAR décrit une méthode de levé qui utilise des points échantillonnés au laser de manière dense pour numériser des objets statiques dans un nuage de points. Cela nécessite des scanners physiques et produit d'énormes quantités de données. En 2007, le groupe Radiohead l'a largement utilisé pour créer un clip pour "House of Cards", capturant des performances en nuage de points du visage du chanteur et d'environnements sélectionnés dans l'une des premières utilisations de cette technologie pour la capture volumétrique. Le réalisateur James Frost a collaboré avec l'artiste multimédia Aaron Koblin pour capturer les nuages ​​de points 3D utilisés pour ce clip musical, et bien que la sortie finale de ce travail soit encore une représentation plate des données, la capture et l'état d'esprit des auteurs étaient déjà en avance sur C'est l'heure. Les nuages ​​de points , étant des échantillons distincts d'espace tridimensionnel avec position et couleur, créent une représentation haute fidélité du monde réel avec une énorme quantité de données. Cependant, la visualisation de ces données en temps réel n'était pas encore possible.

Lumière structurée

Kinect de Xbox One

En 2010, Microsoft a lancé le Kinect sur le marché, un produit grand public qui utilisait une lumière structurée dans le spectre infrarouge pour générer un maillage 3D à partir de sa caméra. Alors que l'intention était de faciliter et d'innover dans la saisie des utilisateurs et le gameplay, il a été très rapidement adapté en tant que dispositif de capture générique pour les données 3D dans la communauté de capture volumétrique. En projetant un motif connu sur l'espace et en capturant la distorsion par les objets de la scène, la capture du résultat peut ensuite être calculée en différentes sorties. Les artistes et les amateurs ont commencé à créer des outils et des projets autour de l'appareil abordable, suscitant un intérêt croissant pour la capture volumétrique en tant que support créatif.

Les chercheurs de Microsoft ont ensuite construit une étape de capture complète à l'aide de plusieurs caméras, appareils Kinect et algorithmes qui ont généré une capture volumétrique complète à partir des informations optiques et de profondeur combinées. Il s'agit désormais du Microsoft Mixed Reality Capture Studio , utilisé aujourd'hui dans le cadre de leur division de recherche et dans certaines expériences commerciales sélectionnées telles que l'expérience Blade Runner 2049 VR. Il y a actuellement trois studios en activité : Redmond, Washington ; San Francisco, Californie et Londres, Angleterre. Bien que cela reste une configuration très intéressante pour le marché haut de gamme, le prix abordable d'un seul appareil Kinect a conduit davantage d'artistes expérimentaux et de réalisateurs indépendants à devenir actifs dans le domaine de la capture volumétrique. Deux résultats de cette activité sont Depthkit et EF EVE ™ . EF EVE ™ prend en charge un ou deux capteurs sur un PC offrant une capture volumétrique complète avec une configuration facile. Il dispose également d'un étalonnage automatique des capteurs et d'une fonctionnalité VFX. Depthkit est une suite logicielle qui permet la capture de données géométriques avec un capteur de lumière structuré comprenant Azure Kinect, ainsi que des détails de couleur de haute qualité à partir d'une caméra témoin connectée.

Photogrammétrie

animation 3D

La photogrammétrie décrit le processus de mesure des données basé sur une référence photographique. Tout en étant aussi vieux que la photographie elle-même, ce n'est que grâce aux progrès au fil des ans dans la recherche sur la capture volumétrique qu'il est désormais possible de capturer de plus en plus de détails de géométrie et de texture à partir d'un grand nombre d'images d'entrée. Le résultat est généralement divisé en deux sources composites, une géométrie statique et une capture complète des performances. Pour la géométrie statique, les ensembles capturés avec un grand nombre d'images numériques se chevauchant sont ensuite alignés les uns sur les autres à l'aide de caractéristiques similaires dans les images et utilisés comme base pour la triangulation et l'estimation de la profondeur. Cette information est interprétée comme une géométrie 3D , résultant en une réplique presque parfaite de l'ensemble. La capture à pleine performance, cependant, utilise une gamme de caméras vidéo pour capturer des informations en temps réel. Ces caméras synchronisées sont ensuite utilisées image par image pour générer un ensemble de points ou de géométries qui peuvent être lus rapidement, ce qui permet d'obtenir une capture de performances volumétriques complète qui peut être composée dans n'importe quel environnement. En 2008, 4DViews a installé un premier système de capture vidéo volumétrique au studio DigiCast à Tokyo (JP). Plus tard en 2015, 8i a contribué sur le terrain, et récemment Intel, Microsoft et Samsung se sont joints à eux en créant leurs propres étapes de capture pour la capture de performances et la photogrammétrie.

Réalité virtuelle

Casque de réalité virtuelle

Alors que la vidéo volumétrique est devenue une approche commercialement applicable à la capture d'environnement et de performances, la possibilité de se déplacer dans les résultats avec six degrés de liberté et une véritable stéréoscopie a nécessité un nouveau type de dispositif d'affichage. Avec l'essor de la réalité virtuelle destinée aux consommateurs en 2016 via des appareils tels que l' Oculus Rift et le HTC Vive , cela devenait soudainement possible. La vision stéréoscopique et la possibilité de faire pivoter et de déplacer la tête ainsi que de se déplacer dans un petit espace permettent une immersion dans des environnements bien au-delà de ce qui était possible dans le passé. La nature photographique des captures combinée à cette immersion et à l'interactivité qui en résulte est un pas de géant vers le Saint Graal de la vraie réalité virtuelle. Avec l'essor du contenu vidéo à 360°, la demande de capture 6-DOF augmente, et la réalité virtuelle en particulier stimule les applications de cette technologie, fusionnant lentement le cinéma, les jeux et l'art avec le domaine de la recherche sur la capture volumétrique.

Champs lumineux

Lytro Illum Camera, une caméra Light Field de deuxième génération.

Les champs lumineux décrivent à un point d'échantillonnage donné la lumière entrante provenant de toutes les directions. Ceci est ensuite utilisé dans le post-traitement pour générer des effets tels que la profondeur de champ et permettre à l'utilisateur de bouger légèrement la tête. Depuis 2006, Lytro crée des caméras grand public pour permettre la capture de champs lumineux. Les champs peuvent être capturés de l'intérieur vers l'extérieur à la caméra ou de l'extérieur vers l'intérieur à partir de rendus de géométrie 3D, représentant une énorme quantité d'informations prêtes à être manipulées. Actuellement, les débits de données sont toujours un problème important et la technique a un grand potentiel pour l'avenir car elle échantillonne la lumière et affiche le résultat de diverses manières.

Un autre sous-produit de cette technique est une carte de profondeur raisonnablement précise de la scène. Cela signifie que chaque pixel a des informations sur sa distance par rapport à la caméra. Facebook utilise cette idée dans sa famille de caméras Surround360 pour capturer des séquences vidéo à 360 ° qui sont assemblées à l'aide de cartes de distance. L'extraction de ces données brutes est possible et permet une capture haute résolution de n'importe quelle étape. Encore une fois, les débits de données combinés à la fidélité des cartes de profondeur sont d'énormes goulots d'étranglement mais seront bientôt surmontés avec des techniques d'estimation de profondeur plus avancées, la compression, ainsi que des champs lumineux paramétriques.

Flux de travail

Différents workflows pour générer des vidéos volumétriques sont actuellement disponibles. Ceux-ci ne sont pas mutuellement exclusifs et sont utilisés efficacement dans des combinaisons. Voici quelques exemples qui en montrent quelques-uns :

Basé sur le maillage

Cette approche génère un maillage triangulaire 3D plus traditionnel similaire à la géométrie utilisée pour les jeux informatiques et les effets visuels. Le volume de données est généralement inférieur, mais la quantification des données du monde réel en données de résolution inférieure limite la résolution et la fidélité visuelle. Des compromis sont généralement faits entre la densité de maillage et la performance finale de l'expérience.

La photogrammétrie est généralement utilisée comme base pour les maillages statiques, et est ensuite complétée par la capture de performances des talents via la même technologie sous-jacente que la vidéogrammétrie . Un nettoyage intense est nécessaire pour créer l'ensemble final de triangles. Pour s'étendre au-delà du monde physique, les techniques CG peuvent être déployées pour améliorer davantage les données capturées, en employant des artistes pour s'appuyer sur et dans le maillage statique si nécessaire. La lecture est généralement gérée par un moteur en temps réel et ressemble à un pipeline de jeu traditionnel dans la mise en œuvre, permettant des changements d'éclairage interactifs et des moyens créatifs et archivables de composer ensemble des maillages statiques et animés.

Basé sur des points

Récemment, les projecteurs se sont tournés vers la capture volumétrique ponctuelle . Les données résultantes sont représentées sous forme de points ou de particules dans l'espace 3D portant des attributs tels que la couleur et la taille des points. Cela permet une plus grande densité d'informations et un contenu à plus haute résolution. Les débits de données requis sont importants et le matériel graphique actuel n'est pas optimisé pour le rendre, étant optimisé pour un pipeline de rendu basé sur un maillage.

Le principal avantage des points est le potentiel d'une résolution spatiale plus élevée. Les points peuvent être soit dispersés sur des maillages triangulaires avec un éclairage pré-calculé, soit utilisés directement depuis un scanner LIDAR. Les performances des talents sont capturées de la même manière que dans l'approche basée sur le maillage, mais plus de temps et de puissance de calcul peuvent être utilisés au moment de la production pour améliorer davantage les données. Lors de la lecture, le « niveau de détail » peut être utilisé pour gérer la charge de calcul sur le périphérique de lecture, en augmentant ou en diminuant le nombre de polygones. Les changements de lumière interactifs sont plus difficiles à réaliser car la majeure partie des données est pré-cuite. Cela signifie que bien que les informations d'éclairage stockées avec les points soient très précises et haute fidélité, elles n'ont pas la capacité de changer facilement dans n'importe quelle situation donnée. Un autre avantage de la capture de points est que les graphiques informatiques peuvent être rendus avec une très haute qualité et également stockés sous forme de points, ouvrant la porte à un mélange parfait d'éléments réels et imaginaires.

Après avoir capturé et généré les données, l'édition et la composition sont effectuées dans un moteur en temps réel, reliant les actions enregistrées pour raconter l'histoire prévue. Le produit final peut ensuite être visualisé soit sous forme de rendu plat des données capturées, soit de manière interactive dans un casque VR .

Alors qu'un objectif, avec l'approche de capture volumétrique basée sur les points, est de diffuser des données ponctuelles du cloud vers l'utilisateur à domicile, permettant la création et la diffusion de mondes virtuels réalistes à la demande - un deuxième objectif plus récemment envisagé serait un réel flux de données temporelles des événements en direct. Cela nécessite une bande passante très élevée car les informations sur les pixels incluent des données de profondeur (c'est-à-dire deviennent des voxels)

Promesses

Avec la compréhension générale de la technologie à l'esprit, ce chapitre décrira les avancées à l'horizon pour le divertissement et d'autres industries, ainsi que le potentiel de cette technologie pour changer le paysage médiatique.

Véritable immersion

Alors que la vidéo volumétrique évolue vers une capture globale et que le matériel d'affichage évolue pour correspondre, nous entrerons dans une ère de véritable immersion où les nuances de l'environnement capturé combinées à celles des performances capturées transmettront l'émotion dans un tout nouveau support, brouillant les frontières entre le réel et les mondes virtuels. Cette innovation dans le monde de la supercherie sensorielle déclenchera une évolution dans la façon dont nous consommons les médias, et alors que les technologies pour d'autres sens comme le parfum, l'odorat et la proprioception sont encore en phase de recherche et développement, un jour dans un avenir pas si lointain nous voyagerons de manière convaincante vers de nouveaux lieux, à la fois réels et imaginaires. Les industries du tourisme et du journalisme trouveront une nouvelle vie dans la capacité de se déplacer en toute sécurité vers un spectateur ou un visiteur jusqu'à un endroit, tandis que d'autres, comme la visualisation architecturale et le génie civil, trouveront des moyens de construire des structures et des villes entières et de les explorer sans avoir besoin d'un simple coup de marteau.

Capture complète et réutilisation

Une fois qu'une capture est créée et enregistrée, elle peut être réutilisée et même éventuellement réutilisée à l'improviste pour des circonstances dépassant la portée initialement envisagée. La création d'un décor virtuel permet aux vidéastes et cinéastes volumétriques de créer des histoires et de planifier des prises de vue sans avoir besoin d'une équipe ou même d'être présent sur le décor physique lui-même, et une visualisation appropriée peut aider un acteur ou un interprète à bloquer une scène ou une action avec le confort que leur pratique ne se fait pas au détriment du reste de la production. Les anciens décors peuvent être capturés numériquement avant d'être démolis, ce qui leur permet de persister éternellement en tant que lieu à revisiter et à explorer pour le divertissement et l'inspiration, et plusieurs décors peuvent être détruits en kit de manière à resserrer les boucles d'itération de la scénographie, du son la conception, la coloration et de nombreux autres aspects de la production.

Compétences traditionnelles

L'un des sujets de préoccupation dans le domaine croissant de la capture volumétrique est la diminution de la demande pour les compétences traditionnelles telles que la modélisation, l'éclairage, l'animation, etc. Cependant, alors qu'à l'avenir, la pile de technologies de capture volumétrique orientées vers la production grandira la demande de compétences traditionnelles.

La capture volumétrique excelle dans la capture de données statiques ou de séquences animées pré-rendues. Il ne peut cependant pas créer un environnement imaginaire ou permettre nativement un quelconque niveau d'interactivité. C'est là que les artistes et les développeurs qualifiés seront les plus demandés, créant des événements et des actifs interactifs transparents pour compléter les données géométriques existantes, ou utilisant les données existantes comme base sur laquelle construire, de la même manière qu'un peintre numérique pourrait peindre sur un rendu 3D. Il incombera à l'artisan de s'assurer qu'il reste à jour avec les outils et les flux de travail qui conviennent le mieux à ses compétences, mais les plus prudents constateront que le pipeline de production du futur impliquera de nombreuses opportunités pour rationaliser la création de la main-d'œuvre et permettre pour investir dans de plus grands défis créatifs.

Plus important encore, les compétences actuellement rendues semi-obsolètes par les progrès de l'infographie et du rendu hors ligne seront à nouveau rendues pertinentes, car la fidélité de choses comme de vrais décors fabriqués à la main, des costumes sur mesure de qualité rendus sous forme de captures à grand volume sera presque toujours bien plus immersif que tout ce qui est complètement CG. En combinant ces captures d'ensemble de la vie réelle avec les captures volumétriques d'éléments de CG supplémentaires, nous serons en mesure de mélanger la vie réelle et notre imagination d'une manière que nous n'avons pu faire auparavant que sur un écran plat, créant de nouveaux champs dans des domaines comme le compositing et les VFX.

Défis

Le processus de capture et de création de données volumétriques est plein de défis et de problèmes non résolus. C'est la prochaine étape dans la cinématographie et vient avec des problèmes qui seront supprimés au fil du temps.

Langage visuel

Comme chaque support crée son propre langage visuel, ses règles et ses approches créatives, la vidéo volumétrique en est encore à ses balbutiements. Cela se compare à l'ajout de son aux images animées. De nouvelles philosophies de conception ont dû être créées et testées. Langue du cinéma actuellement, l'art de la mise en scène s'est endurci au cours des 100 dernières années. Dans un monde à six degrés de liberté, interactif et non linéaire, de nombreuses approches traditionnelles ne peuvent pas fonctionner. Plus les expériences sont créées et analysées, plus vite la communauté peut arriver à une conclusion sur ce langage d'expériences.

Perturbation du pipeline

Les pipelines et les productions actuels de réalisation de vidéos et de films ne sont pas prêts à devenir volumétriques. Chaque étape du processus de fabrication d'un film doit être repensée et réinventée. La capture sur le plateau, la mise en scène de talents sur le plateau, le montage, la photographie, la narration d'histoires et bien plus encore sont autant de domaines qui nécessitent du temps pour s'adapter aux flux de travail volumétriques. Actuellement, chaque production utilise une variété de technologies et essaye les règles d'engagement.

Débits de données

Afin de stocker et de lire les données capturées, d'énormes ensembles doivent être diffusés en continu vers le consommateur. Actuellement, le moyen le plus efficace consiste à créer des applications sur mesure qui sont livrées. Il n'y a pas encore de norme qui génère une vidéo volumétrique et la rende utilisable à la maison. La compression de ces données commence à être disponible avec le Moving Picture Experts Group à la recherche d'un moyen raisonnable de diffuser les données. Cela rendrait des projets immersifs vraiment interactifs disponibles pour être distribués et travaillés plus efficacement et doit être résolu avant que le média ne devienne courant.

Applications futures

Outre l'application dans le divertissement, plusieurs autres industries se sont intéressées à la capture de scènes détaillées décrites ci-dessus. Les événements sportifs bénéficieraient grandement d'une rediffusion détaillée de l'état d'un match. Cela se produit déjà dans le football américain et le baseball, ainsi que dans le football britannique. Ces rediffusions à 360 degrés permettront aux téléspectateurs à l'avenir d'analyser un match sous plusieurs angles.

La documentation des espaces pour des événements historiques, capturés en direct ou recréés, profitera grandement au secteur de l'éducation. Des conférences virtuelles décrivant les grands événements de l'histoire avec une composante immersive aideront les générations futures à imaginer des espaces et à apprendre en collaboration sur les événements. Cela peut être abstrait et utilisé pour visualiser des scénarios à micro-échelle au niveau cellulaire autant que des événements épiques qui ont changé le cours de l'expérience humaine. Le principal avantage étant que les sorties virtuelles sur le terrain sont la démocratisation des scénarios éducatifs haut de gamme. Pouvoir participer à la visite d'un musée sans y être physiquement permet un public plus large et permet également aux institutions de montrer l'intégralité de leur inventaire plutôt que la sous-section actuellement exposée.

L'immobilier et le tourisme pourraient prévisualiser les destinations avec précision et rendre le secteur de la vente au détail beaucoup plus personnalisé pour l'individu. La capture de produits a déjà été réalisée pour les chaussures et des miroirs magiques peuvent être utilisés dans les magasins pour visualiser cela. Les centres commerciaux ont commencé à adopter cela pour les repeupler en attirant des clients avec des arcades VR ainsi qu'en présentant des marchandises virtuellement.

Les références

Liste des expériences contribuant

  • House of Cards, Radiohead, Clip
  • Carne Y Arena, Alejandro G. Inarritu, exposition d'art LACMA
  • Blade Runner 2049 : Memory Lab, VR Experience (filmé au Microsoft Mixed Reality Capture Studio, Redmond, WA)
  • William Patrick Corgan: Aeronaut, VR Experience and Music Video (filmé au Microsoft Mixed Reality Capture Studio, Redmond, WA)
  • Awake: Episode One , Start VR & Animal Logic, Interactive Cinematic VR Experience (filmé au Microsoft Mixed Reality Capture Studio, Redmond, WA)