Fréquence d'images - Frame rate

Fréquence d'images (exprimée en images par seconde ouFPS) est lafréquence(taux) à laquelle desimagesconsécutives(frames) sont capturées ou affichées. Le terme s'applique également auxfilmsetcaméras vidéo,infographieetcapture de mouvementsystèmes. La fréquence d'images peut également être appeléefréquence de trame , et être exprimé enhertz. La fréquence d'images dans les spécifications des appareils photo électroniques peut faire référence à la fréquence maximale possible, où, dans la pratique, d'autres paramètres (tels que le temps d'exposition) peuvent réduire la fréquence à un nombre inférieur.

Vision humaine

La sensibilité temporelle et la résolution de la vision humaine varient en fonction du type et des caractéristiques du stimulus visuel, et elles diffèrent d'un individu à l'autre. Le système visuel humain peut traiter 10 à 12 images par seconde et les percevoir individuellement, tandis que des taux plus élevés sont perçus comme un mouvement. La lumière modulée (comme un écran d'ordinateur ) est perçue comme stable par la majorité des participants aux études lorsque la fréquence est supérieure à 50 Hz. Cette perception de la lumière modulée comme stable est connue sous le nom de seuil de fusion de scintillement . Cependant, lorsque la lumière modulée n'est pas uniforme et contient une image, le seuil de fusion du scintillement peut être beaucoup plus élevé, dans les centaines de hertz. En ce qui concerne la reconnaissance d'images , il a été constaté que les gens reconnaissent une image spécifique dans une série ininterrompue d'images différentes, dont chacune dure aussi peu que 13 millisecondes. La persistance de la vision explique parfois un stimulus visuel très court d'une milliseconde ayant une durée perçue comprise entre 100 ms et 400 ms. Des stimuli multiples qui sont très courts sont parfois perçus comme un seul stimulus, comme un éclair de lumière verte de 10 ms immédiatement suivi d'un éclair de lumière rouge de 10 ms perçu comme un seul éclair de lumière jaune.

Film et vidéo

Films muets

Les premiers films muets indiquaient des fréquences d'images allant de 16 à 24 images par seconde (fps), mais comme les caméras étaient à manivelle, la fréquence changeait souvent pendant la scène pour s'adapter à l'ambiance. Les projecteurs pourraient également modifier la fréquence d'images dans le cinéma en ajustant un rhéostat contrôlant la tension alimentant le mécanisme de transport du film dans le projecteur . Les sociétés cinématographiques voulaient souvent que les cinémas montrent leurs films muets à des fréquences d'images plus élevées que celles auxquelles ils ont été tournés. Ces fréquences d'images étaient suffisantes pour la sensation de mouvement, mais cela était perçu comme un mouvement saccadé. Pour minimiser le scintillement perçu, les projecteurs utilisaient des obturateurs à double et triple lame , de sorte que chaque image était affichée deux ou trois fois, augmentant le taux de scintillement à 48 ou 72 hertz et réduisant la fatigue oculaire. Thomas Edison a déclaré que 46 images par seconde était le minimum nécessaire pour que l'œil perçoive le mouvement : « Rien de moins fatiguera l'œil. Entre le milieu et la fin des années 1920, la fréquence d'images des films muets est passée entre 20 et 26 FPS.

Films sonores

Lorsque le film sonore a été introduit en 1926, les variations de vitesse du film n'étaient plus tolérées, car l'oreille humaine est plus sensible que l'œil aux changements de fréquence. De nombreux cinémas avaient projeté des films muets de 22 à 26 FPS, c'est pourquoi l'industrie a choisi 24 FPS pour les films sonores comme compromis. De 1927 à 1930, alors que divers studios modernisaient leur équipement, la cadence de 24 FPS est devenue la norme pour les films sonores 35 mm. À 24 FPS, le film traverse le projecteur à une vitesse de 456 millimètres (18,0 pouces) par seconde. Cela a permis à de simples obturateurs à deux lames de donner une série d'images projetées à 48 par seconde, satisfaisant la recommandation d'Edison. De nombreux projecteurs de films 35 mm modernes utilisent des obturateurs à trois lames pour donner 72 images par seconde - chaque image est flashée à l'écran trois fois.

Animation

Ce dessin animé d'un cheval au galop est affiché à 12 dessins par seconde, et le mouvement rapide est sur le point d'être saccadé.

Dans l' animation dessinée , les personnages en mouvement sont souvent tournés "à deux", c'est-à-dire qu'un dessin est affiché pour deux images de film (qui tourne généralement à 24 images par seconde), ce qui signifie qu'il n'y a que 12 dessins par seconde. Même si le taux de mise à jour des images est faible, la fluidité est satisfaisante pour la plupart des sujets. Cependant, lorsqu'un personnage doit effectuer un mouvement rapide, il est généralement nécessaire de revenir à l'animation « sur un », car les « deux » sont trop lents pour transmettre le mouvement de manière adéquate. Un mélange des deux techniques garde l'œil dupe sans coût de production inutile.

L'animation de la plupart des « dessins animés du samedi matin » était réalisée au moindre coût possible et était le plus souvent tournée en « trois » voire en « quatre », c'est-à-dire trois ou quatre images par dessin. Cela se traduit respectivement par seulement 8 ou 6 dessins par seconde. L'anime est également généralement dessiné sur trois.

Normes vidéo modernes

En raison de la fréquence du réseau électrique, la diffusion de la télévision analogique a été développée avec des fréquences d'images de 50 Hz (la plupart du monde) ou 60 Hz (Canada, États-Unis, Japon, Corée du Sud). La fréquence du réseau électrique était extrêmement stable et il était donc logique de l'utiliser pour la synchronisation.

L'introduction de la technologie de télévision couleur a obligé à abaisser cette fréquence de 60 FPS de 0,1% pour éviter le " dot crawl ", un artefact d'affichage apparaissant sur les anciens écrans noir et blanc, apparaissant sur des surfaces très saturées en couleurs. Il a été constaté qu'en abaissant la fréquence d'images de 0,1 %, l'effet indésirable était minimisé.

À partir de 2021, les normes de transmission vidéo en Amérique du Nord, au Japon et en Corée du Sud sont toujours basées sur 60/1,001 59,94 images par seconde. Deux tailles d'images sont généralement utilisées : 1920×1080 ("1080i") et 1280×720 ("720p"). De manière confuse, les formats entrelacés sont généralement indiqués à la moitié de leur taux d'image, 29,97 FPS, et le double de leur hauteur d'image, mais ces déclarations sont purement personnalisées ; dans chaque format, 60 images par seconde sont produites. Une résolution de 1080i produit 59,94 images 1920 × 540, chacune réduite à mi-hauteur lors du processus photographique et étirée pour remplir l'écran lors de la lecture sur un téléviseur. Le format 720p produit 59,94 images 1280×720p, non compressées, de sorte qu'aucune expansion ou compression de l'image n'est nécessaire. Cette confusion était répandue dans l'ensemble de l'industrie au début des logiciels vidéo numériques, avec de nombreux logiciels écrits de manière incorrecte, les codeurs estimant que seules 29,97 images étaient attendues chaque seconde, ce qui était incorrect. S'il était vrai que chaque élément d'image n'était interrogé et envoyé que 29,97 fois par seconde, l'emplacement du pixel immédiatement en dessous de celui-ci a été interrogé 1/60 de seconde plus tard, faisant partie d'une image complètement séparée pour l'image de 1/60 seconde suivante .

Film, à son 24 taux FPS natif ne peut pas être affiché sans le nécessaire pulldown processus, ce qui conduit souvent à « saccades »: Pour convertir 24 images par seconde en 60 images par seconde, chaque image impair est répété, en jouant deux fois, alors que chaque image même est triplé. Cela crée un mouvement inégal, apparaissant stroboscopique. D'autres conversions ont un doublement de trame inégal similaire. Les normes vidéo les plus récentes prennent en charge 120, 240 ou 300 images par seconde, de sorte que les images peuvent être échantillonnées de manière uniforme pour des fréquences d'images standard telles qu'un film à 24, 48 et 60 FPS ou une vidéo à 25, 30, 50 ou 60 FPS. Bien entendu, ces fréquences d'images plus élevées peuvent également être affichées à leurs fréquences natives.

La fréquence d'images dans les spécifications des appareils photo électroniques peut faire référence à la fréquence maximale possible, où, dans la pratique, d'autres paramètres (tels que le temps d'exposition) peuvent réduire la fréquence à un nombre inférieur.

Conversion ascendante de la fréquence d'images

L'up-conversion de fréquence d'images est le processus d'augmentation de la résolution temporelle d'une séquence vidéo en synthétisant une ou plusieurs images intermédiaires entre deux images consécutives. Une fréquence d' images faible provoque un aliasing , génère des artefacts de mouvement brusque et dégrade la qualité vidéo. Par conséquent, la résolution temporelle est un facteur important affectant la qualité vidéo. Les algorithmes pour FRC sont largement utilisés dans des applications, notamment l'amélioration de la qualité visuelle, la compression vidéo et la génération de vidéos au ralenti.

Vidéo à faible fréquence d'images
Vidéo avec une fréquence d'images 4 fois supérieure

Méthodes

La plupart des méthodes FRC peuvent être classées en méthodes de flux optique ou basées sur le noyau et basées sur les hallucinations de pixels.

FRC basé sur les flux

Les méthodes basées sur les flux combinent linéairement les flux optiques prédits entre deux trames d'entrée pour approximer les flux de la trame intermédiaire cible aux trames d'entrée. Ils proposent également une inversion de flux (projection) pour un gauchissement de l'image plus précis . De plus, il existe des algorithmes qui donnent des poids différents aux vecteurs de flux superposés en fonction de la profondeur de l' objet de la scène via une couche de projection de flux.

FRC basé sur l'hallucination des pixels

Les méthodes basées sur l'hallucination de pixels utilisent une convolution déformable vers le générateur de trame centrale en remplaçant les flux optiques par des vecteurs de décalage. Il existe des algorithmes qui interpolent également les trames intermédiaires à l'aide d'une convolution déformable dans le domaine des caractéristiques. Cependant, étant donné que ces méthodes hallucinent directement les pixels contrairement aux méthodes FRC basées sur le flux, les images prédites ont tendance à être floues lorsque des objets en mouvement rapide sont présents.

Instruments

Outil disponibilité Multiplicateur d'augmentation de trame maximum
Adobe Premiere Pro Essai commercial gratuit de 7 jours 100
Vegas Pro Essai commercial gratuit de 30 jours 100
Filtre de conversion de fréquence d'images AviSynth MSU Commercial Tout nombre entier positif
Convertisseur de fréquence d'images avancé (AFRC) Libérer Tout nombre entier positif
Topaz Video Enhance AI Essai commercial gratuit de 30 jours 100
  • Adobe Premiere Pro - Adobe Premiere Pro est un logiciel de montage vidéo commercial qui vous permet de ralentir votre vidéo à l'aide d'effets de flux optique et de remappage temporel sur des séquences tournées de manière conventionnelle afin de créer un ralenti plus beau et plus fluide.
  • Vegas Pro - Vegas Pro est également un logiciel commercial de montage vidéo. Il existe également une méthode pour créer une vidéo au ralenti. Pour l'exécuter, vous devez choisir l'amplitude du mouvement dans votre vidéo et les pourcentages de vitesse de lecture.
  • Filtre de conversion de fréquence d'images AviSynth MSU - Le filtre de conversion de fréquence d'images AviSynth MSU est un outil open source destiné à la conversion ascendante de la fréquence d'images vidéo. Il augmente les temps entiers de fréquence d'images. Il permet par exemple de convertir une vidéo à 15 fps en une vidéo à 30 fps.
  • Advanced Frame Rate Converter (AFRC) - Le principal avantage de l'algorithme AFRC est l'utilisation de plusieurs techniques d'amélioration de la qualité telles que le masquage adaptatif des artefacts, le traitement des bandes noires et le suivi de l'occlusion :
    • la technique de masquage adaptatif des artefacts permet de rendre les artefacts moins visibles pour les yeux, augmentant ainsi la qualité intégrale de la vidéo traitée ;
    • le traitement des bandes noires permet d'éviter les artefacts qui apparaissent couramment dans les trames interpolées en cas de bande noire présentée près des bords des trames ;
    • le suivi d'occlusion effectue une restauration de haute qualité des images interpolées près des bords en cas de présence de mouvement avec la direction vers/depuis le bord de l'image.
  • Topaz Video Enhance AI - Topaz Video Enhance AI a le modèle Chronos AI qui utilise l'apprentissage en profondeur pour augmenter la fréquence d'images vidéo sans artefacts. Cet algorithme génère de nouvelles images qui sont souvent impossibles à distinguer des images capturées dans l'appareil photo.

Voir également

Les références

Liens externes

  • "Temporal Rate Conversion" - un guide très détaillé sur les interférences visuelles de la télévision, de la vidéo et du PC

( copie Wayback Machine )