Désentrelacement - Deinterlacing

Le désentrelacement est le processus de conversion d'une vidéo entrelacée en une forme non entrelacée ou progressive . Les signaux vidéo entrelacés se trouvent généralement dans la télévision analogique , la télévision numérique ( HDTV ) au format 1080i , certains titres de DVD et un plus petit nombre de disques Blu-ray .

Une trame vidéo entrelacée est constituée de deux champs pris en séquence : le premier contenant toutes les lignes impaires de l'image, et le second toutes les lignes paires. La télévision analogique a utilisé cette technique car elle permettait une bande passante de transmission moindre tout en conservant une fréquence d'images élevée pour un mouvement plus fluide et plus réaliste. Un signal non entrelacé (ou à balayage progressif ) qui utilise la même bande passante ne met à jour l'affichage que deux fois moins souvent et s'est avéré créer un scintillement ou un bégaiement perçu. Les écrans à tube cathodique étaient capables d'afficher correctement la vidéo entrelacée en raison de leur nature entièrement analogique, se fondant parfaitement dans les lignes alternées. Cependant, depuis le début des années 2000, les écrans tels que les téléviseurs et les écrans d'ordinateur sont devenus presque entièrement numériques - en ce sens que l'écran est composé de pixels discrets - et sur de tels écrans, l'entrelacement devient perceptible et peut apparaître comme un défaut visuel gênant. Le processus de désentrelacement doit essayer de les minimiser.

Le désentrelacement est donc un processus nécessaire et est intégré à la plupart des lecteurs DVD, lecteurs Blu-ray, téléviseurs LCD/LED, projecteurs numériques, décodeurs TV, équipements de diffusion professionnels et lecteurs et éditeurs vidéo informatiques - bien que chacun avec différents niveaux de qualité.

Le désentrelacement fait l'objet de recherches depuis des décennies et utilise des algorithmes de traitement complexes ; cependant, il a été très difficile d'obtenir des résultats cohérents.

Fond

Exemple de vidéo entrelacée (ralentie)

Les films vidéo et photographiques capturent une série d' images (images fixes) en succession rapide ; cependant, les systèmes de télévision lisent l'image capturée en balayant en série le capteur d'image par lignes (rangées). En télévision analogique, chaque trame est divisée en deux champs consécutifs , l'un contenant toutes les lignes paires, l'autre les lignes impaires. Les champs sont capturés successivement à une fréquence deux fois supérieure à la fréquence d'images nominale. Par exemple, les systèmes PAL et SECAM ont un taux de 25 images/s ou 50 champs/s, tandis que le système NTSC délivre 29,97 images/s ou 59,94 champs/s. Ce processus de division d'images en champs demi-résolution à une fréquence d'images double est connu sous le nom d' entrelacement .

Étant donné que le signal entrelacé contient les deux champs d'une image vidéo tournée à deux moments différents, il améliore la perception du mouvement pour le spectateur et réduit le scintillement en tirant parti de la persistance de l' effet de vision . Il en résulte un doublement effectif de la résolution temporelle par rapport au métrage non entrelacé (pour des fréquences d'images égales aux fréquences de trame). Cependant, le signal entrelacé nécessite un affichage capable nativement d'afficher les champs individuels dans un ordre séquentiel, et seuls les téléviseurs traditionnels à tube cathodique sont capables d'afficher le signal entrelacé, en raison du balayage électronique et du manque de résolution fixe apparente.

La plupart des écrans modernes, tels que les écrans LCD , DLP et plasma , ne peuvent pas fonctionner en mode entrelacé, car ce sont des écrans à résolution fixe et ne prennent en charge que le balayage progressif. Afin d'afficher un signal entrelacé sur de tels affichages, les deux champs entrelacés doivent être convertis en une trame progressive avec un processus connu sous le nom de désentrelacement . Cependant, lorsque les deux champs pris à des moments différents sont recombinés en une image complète affichée à la fois, des défauts visuels appelés artefacts d'entrelacement ou peignage se produisent avec des objets en mouvement dans l'image. Un bon algorithme de désentrelacement doit essayer d'éviter autant que possible les artefacts d'entrelacement et de ne pas sacrifier la qualité de l'image au cours du processus, ce qui est difficile à obtenir de manière cohérente. Il existe plusieurs techniques disponibles qui extrapolent les informations d'image manquantes, mais elles entrent plutôt dans la catégorie de la création de trames intelligentes et nécessitent des algorithmes complexes et une puissance de traitement importante.

Les techniques de désentrelacement nécessitent un traitement complexe et peuvent donc introduire un retard dans le flux vidéo. Bien que cela ne soit généralement pas perceptible, cela peut entraîner un retard de l'affichage des anciens jeux vidéo par rapport à l'entrée du contrôleur. De nombreux téléviseurs disposent ainsi d'un "mode jeu" dans lequel un traitement minimal est effectué afin de maximiser la vitesse au détriment de la qualité de l'image. Le désentrelacement n'est qu'en partie responsable de ce décalage ; la mise à l'échelle implique également des algorithmes complexes qui prennent des millisecondes à s'exécuter.

Matériel source progressif

Certaines vidéos entrelacées peuvent avoir été créées à l'origine à partir de séquences progressives, et le processus de désentrelacement doit également en tenir compte.

Le matériel cinématographique typique est tourné sur un film à 24 images/s. La conversion d'un film en vidéo entrelacée utilise généralement un processus appelé télécinéma dans lequel chaque image est convertie en plusieurs champs. Dans certains cas, chaque image de film peut être présentée par exactement deux images segmentées progressives (PsF), et dans ce format, il ne nécessite pas d'algorithme de désentrelacement complexe car chaque champ contient une partie de la même image progressive. Cependant, pour correspondre à un signal PAL/SECAM entrelacé à 50 trames ou à un signal NTSC entrelacé à 59,94/60 trames , une conversion de fréquence d'images est nécessaire à l'aide de diverses techniques de « pulldown ». La plupart des téléviseurs avancés peuvent restaurer le signal original de 24 images/s en utilisant un processus de télécinéma inverse . Une autre option consiste à accélérer le film de 24 images de 4 % (jusqu'à 25 images/s) pour la conversion PAL/SECAM ; cette méthode est encore largement utilisée pour les DVD, ainsi que pour les émissions de télévision (SD & HD) sur les marchés PAL.

Les DVD peuvent soit encoder des films en utilisant l'une de ces méthodes, soit stocker une vidéo progressive originale de 24 images/s et utiliser des balises de décodeur MPEG-2 pour indiquer au lecteur vidéo comment les convertir au format entrelacé. La plupart des films sur Blu-ray ont conservé la cadence de film originale non entrelacée de 24 images/s et permettent une sortie au format progressif 1080p24 directement sur les périphériques d'affichage, sans qu'aucune conversion ne soit nécessaire.

Certains caméscopes HDV 1080i offrent également le mode PsF avec des fréquences d'images de type cinéma de 24 ou 25 images/s. Les équipes de production télévisuelle peuvent également utiliser des caméras spéciales qui fonctionnent à 25 ou 30 images/s, lorsque ce matériel n'a pas besoin de conversion de fréquence d'images pour la diffusion dans le format de système vidéo prévu.

Méthodes de désentrelacement

Lorsque quelqu'un regarde une vidéo entrelacée sur un moniteur progressif avec un mauvais désentrelacement, il peut voir un "peignage" en mouvement entre deux champs d'une même image.

Le désentrelacement nécessite que l'affichage mette en mémoire tampon un ou plusieurs champs et les recombine en images complètes. En théorie, cela serait aussi simple que de capturer un champ et de le combiner avec le prochain champ à recevoir, produisant une seule trame. Cependant, le signal enregistré à l'origine a été produit à partir de deux champs à des moments différents, et sans traitement spécial, tout mouvement à travers les champs entraîne généralement un effet de "peignage" où les lignes alternées sont légèrement décalées les unes des autres.

Il existe différentes méthodes pour désentrelacer une vidéo, chacune produisant des problèmes ou des artefacts qui lui sont propres. Certaines méthodes sont beaucoup plus propres dans les artefacts que d'autres méthodes.

La plupart des techniques de désentrelacement se répartissent en trois grands groupes :

  1. Désentrelacement par combinaison de trames qui prend les trames paires et impaires et les combine en une seule trame. Cela réduit de moitié la fréquence d'images perçue (la résolution temporelle) par laquelle 50i ou 60i sont convertis en 25p ou 30p.
  2. Désentrelacement d'extension de champ qui prend chaque champ (avec seulement la moitié des lignes) et l'étend à tout l'écran pour faire un cadre. Cela réduit de moitié la résolution verticale de l'image mais maintient le taux de trame d'origine (50i ou 60i est converti en 50p ou 60p).
  3. Désentrelacement de compensation de mouvement qui utilise des algorithmes plus avancés pour détecter le mouvement à travers les champs, en changeant de techniques si nécessaire. Cela produit le meilleur résultat de qualité, mais nécessite la plus grande puissance de traitement.

Les systèmes de désentrelacement modernes tamponnent donc plusieurs champs et utilisent des techniques telles que la détection des contours pour tenter de trouver le mouvement entre les champs. Ceci est ensuite utilisé pour interpoler les lignes manquantes du champ d'origine, réduisant ainsi l'effet de peignage.

Désentrelacement par combinaison de champs

Ces méthodes prennent les champs pairs et impairs et les combinent en une seule image. Ils conservent la résolution verticale complète au détriment de la résolution temporelle (cadence d'images perçue) par laquelle 50i/60i est converti en 24p/25p/30p, ce qui peut perdre la sensation douce et fluide de l'original. Cependant, si le signal entrelacé a été produit à l'origine à partir d'une source à fréquence d'images inférieure telle qu'un film, aucune information n'est perdue et ces méthodes peuvent suffire.

Tissage
  • Le tissage est la méthode la plus simple et la plus rudimentaire, réalisée en entrelaçant (« tissant ») les champs consécutifs ensemble dans une seule trame. Cette méthode ne pose aucun problème lorsque l'image n'a pas changé entre les champs, mais tout mouvement entraînera des artefacts appelés "peignage" lorsque les pixels d'un champ ne s'alignent pas avec les pixels de l'autre, formant un bord irrégulier.
Mélange
  • Le mélange est effectué en mélangeant , ou en faisant la moyenne de champs consécutifs à afficher sous la forme d'une seule image. Le peignage est évité car les images sont superposées. Cela laisse à la place un artefact connu sous le nom de fantôme. L'image perd à la fois la résolution verticale et la résolution temporelle. Bien que la vidéo produite avec cette technique ne nécessite que la moitié du nombre de pixels verticalement, elle est souvent associée à un redimensionnement vertical afin que la sortie n'ait pas de perte numérique en pixels verticaux. Lorsque l'interpolation est utilisée, elle peut donner une image encore plus douce. Le mélange perd également la moitié de la résolution temporelle puisque deux champs de mouvement sont combinés en une seule image.
  • Le mélange sélectif , ou le mélange intelligent ou le mélange adaptatif au mouvement , est une combinaison de tissage et de mélange. Comme les zones qui n'ont pas changé d'un cadre à l'autre ne nécessitent aucun traitement, les cadres sont tissés et seules les zones qui en ont besoin sont mélangées. Cela conserve la résolution verticale complète et la moitié de la résolution temporelle, et il a moins d'artefacts que le tissage ou le mélange en raison de la combinaison sélective des deux techniques.
  • Télécinéma inversé : Le télécinéma est utilisé pour convertir une source d'images animées à 24 images par seconde en vidéo TV entrelacée dans les pays qui utilisent le système vidéo NTSC à 30 images par seconde. Les pays qui utilisent PAL à 25 images par seconde n'ont pas besoin de télécinéma – les sources de films sont simplement accélérées de 4 % pour atteindre les 25 images par seconde nécessaires. Si Telecine a été utilisé, il est alors possible d'inverser l'algorithme pour obtenir le métrage original non entrelacé, qui a une fréquence d'images plus lente. Pour que cela fonctionne, le modèle de télécinéma exact doit être connu ou deviné. Contrairement à la plupart des autres méthodes de désentrelacement, lorsqu'il fonctionne, le télécinéma inverse peut parfaitement récupérer le flux vidéo progressif d'origine.
  • Algorithmes de style télécide : si le métrage entrelacé a été généré à partir d'images progressives à une fréquence d'images plus lente (par exemple, "déroulement de dessin animé"), les images originales exactes peuvent être récupérées en copiant le champ manquant à partir d'une image précédente/suivante correspondante. Dans les cas où il n'y a pas de correspondance (par exemple, de brèves séquences de dessins animés avec une fréquence d'images élevée), le filtre se rabat sur une autre méthode de désentrelacement telle que le mélange ou le doublage de ligne. Cela signifie que le pire des cas pour Telecide est des images occasionnelles avec des images fantômes ou une résolution réduite. En revanche, lorsque des algorithmes de détection de mouvement plus sophistiqués échouent, ils peuvent introduire des artefacts de pixels qui sont infidèles au matériau d'origine. Pour la vidéo télécinéma , la décimation peut être appliquée en tant que post-traitement pour réduire la fréquence d'images, et cette combinaison est généralement plus robuste qu'un simple télécinéma inversé, qui échoue lorsque des séquences entrelacées différemment sont épissées.

Désentrelacement d'extension de champ

Ces méthodes prennent chaque champ (avec seulement la moitié des lignes) et l'étendent à tout l'écran pour créer un cadre. Cela peut réduire de moitié la résolution verticale de l'image mais vise à maintenir le taux de trame d'origine (50i ou 60i est converti en 50p ou 60p).

Demi-pointure
  • La demi-dimensionnement affiche chaque champ entrelacé seul, ce qui donne une vidéo avec la moitié de la résolution verticale de l'original, sans mise à l'échelle. Bien que cette méthode conserve tous les pixels d'origine et toute la résolution temporelle, elle n'est naturellement pas utilisée pour une visualisation régulière en raison de son faux rapport hauteur/largeur. Cependant, il peut être utilisé avec succès pour appliquer des filtres vidéo qui s'attendent à une trame non entrelacée, tels que ceux exploitant les informations des pixels voisins (par exemple, la netteté).
Doublement de ligne
  • Le doublage de ligne ou "bobbing" prend les lignes de chaque champ entrelacé (constitué uniquement de lignes paires ou impaires) et les double, remplissant l'ensemble du cadre. Il en résulte que la vidéo a une fréquence d'images identique à la fréquence de trame d'origine, mais chaque trame a la moitié de la résolution verticale, ou une résolution égale à celle de chaque trame à partir de laquelle la trame a été créée. Le doublage de ligne empêche les artefacts de peignage et maintient un mouvement fluide, mais peut entraîner une réduction notable de la qualité de l'image en raison de la perte de résolution verticale et d'anomalies visuelles, les objets fixes pouvant sembler monter et descendre lorsque les lignes paires et impaires alternent. Ces techniques sont également appelées désentrelacement bob et désentrelacement linéaire pour cette raison. Une variante de cette méthode supprime un champ de chaque trame, réduisant de moitié la résolution temporelle.

Le doublage de ligne est parfois confondu avec le désentrelacement en général, ou avec l' interpolation (mise à l'échelle de l'image) qui utilise le filtrage spatial pour générer des lignes supplémentaires et donc réduire la visibilité de la pixellisation sur tout type d'affichage. La terminologie « doubleur de ligne » est plus fréquemment utilisée dans l'électronique grand public haut de gamme, tandis que le « désentrelacement » est utilisé plus fréquemment dans le domaine de l'informatique et de la vidéo numérique.

Désentrelacement de compensation de mouvement

Des algorithmes de désentrelacement plus avancés combinent les méthodes traditionnelles de combinaison de champs (tissage et mélange) et les méthodes d'extension de trame (doublement de bob ou de ligne) pour créer une séquence vidéo progressive de haute qualité. L'un des indices de base sur la direction et la quantité de mouvement serait la direction et la longueur des artefacts de peignage dans le signal entrelacé.

Les meilleurs algorithmes tentent également de prédire la direction et la quantité de mouvement de l'image entre les champs suivants afin de mieux mélanger les deux champs. Ils peuvent utiliser des algorithmes similaires à la compensation de mouvement de bloc utilisée dans la compression vidéo. Par exemple, si deux champs avaient le visage d'une personne se déplaçant vers la gauche, le tissage créerait un peignage et le mélange créerait des images fantômes. La compensation de mouvement avancée (idéalement) verrait que le visage dans plusieurs champs est la même image, juste déplacé vers une position différente, et essaierait de détecter la direction et la quantité d'un tel mouvement. L'algorithme essaierait ensuite de reconstruire tous les détails du visage dans les deux images de sortie en combinant les images, en déplaçant les parties de chaque champ le long de la direction détectée par la quantité de mouvement détectée. Les désentrelaceurs qui utilisent cette technique sont souvent supérieurs car ils peuvent utiliser des informations provenant de nombreux domaines, par opposition à un ou deux, mais ils nécessitent un matériel puissant pour y parvenir en temps réel.

La compensation de mouvement doit être combinée à la détection de changement de scène (qui a ses propres défis), sinon elle tentera de trouver un mouvement entre deux scènes complètement différentes. Un algorithme de compensation de mouvement mal mis en œuvre interférerait avec le mouvement naturel et pourrait conduire à des artefacts visuels qui se manifesteraient par des parties « sautantes » dans ce qui devrait être une image stationnaire ou en mouvement fluide.

Mesure de la qualité

Différentes méthodes de désentrelacement ont des caractéristiques de qualité et de vitesse différentes.

Habituellement, pour mesurer la qualité de la méthode de désentrelacement, l'approche suivante est utilisée :

  1. Un ensemble de vidéos progressives est composé
  2. Toutes ces vidéos sont entrelacées
  3. Chacune des vidéos entrelacées est désentrelacée avec une méthode de désentrelacement spécifique
  4. Toutes les vidéos désentrelacées sont comparées à la vidéo source correspondante via une métrique de qualité vidéo objective, telle que PSNR , SSIM ou VMAF .

La métrique principale de mesure de la vitesse est le nombre d' images par seconde (FPS) - le nombre d'images que le désentrelaceur est capable de traiter par seconde. En parlant de FPS, il est nécessaire de spécifier la résolution de toutes les trames et les caractéristiques matérielles, car la vitesse de la méthode de désentrelacement spécifique dépend de manière significative de ces deux facteurs.

Repères

Défi désentrelacement 2019

Ce benchmark a comparé 8 méthodes de désentrelacement différentes sur une vidéo synthétique. Il y a une courbe de Lissajous tridimensionnelle mobile sur la vidéo afin de la rendre difficile pour les méthodes de désentrelacement modernes. Les auteurs ont utilisé le MSE et le PSNR comme métriques objectives. En outre, ils mesurent la vitesse de traitement en FPS . Pour certaines méthodes, il n'y a qu'une comparaison visuelle, pour d'autres, uniquement objective.

Un autre algorithme du Deinterlacing Challenge 2019
Algorithme MSE PSNR Vitesse de traitement
(FPS)
Open source
Mélange de désentrelacement Vegas 8.086 43,594 3,53 Non
Interpolation de désentrelacement de Vegas 16.426 41,292 3.58 Non

Benchmark du désentrelaceur MSU

Ce benchmark a comparé plus de 20 méthodes sur 40 séquences vidéo. La longueur totale des séquences est de 834 images. Ses auteurs déclarent que la principale caractéristique de ce benchmark est la comparaison complète des méthodes avec des outils de comparaison visuelle, des graphiques de performance et le réglage des paramètres. Les auteurs ont utilisé le PSNR et le SSIM comme métriques objectives.

Meilleurs algorithmes de MSU DIB
Algorithme PSNR SSIM Vitesse de traitement
(FPS)
Open source
Désentrelaceur MSU 40.708 0,983 1.3 Non
VapourSynth TDeintMod 39,916 0,977 50.29 Oui
NNEDI 39.625 0,978 1,91 Oui
Filtre de désentrelacement FFmpeg Bob Weaver 39,679 0,976 46.45 Oui
Vapoursynth EEDI3 39.373 0,977 51,9 Oui
Désentrelaceur vidéo profond en temps réel 39.203 0,976 0,27 Oui

L'auteur de VapourSynth TDeintMod déclare qu'il s'agit d'un désentrelaceur adaptatif au mouvement bidirectionnel. La méthode NNEDI utilise un réseau neuronal pour désentrelacer les séquences vidéo. Le filtre de désentrelacement FFmpeg Bob Weaver fait partie du framework bien connu pour le traitement vidéo et audio. Vapoursynth EEDI3 est l'abréviation de « Enhanced Edge Dirigé Interpolation 3 », les auteurs de cette méthode précisent qu'elle fonctionne en trouvant le meilleur gauchissement non décroissant entre deux lignes selon une fonctionnelle de coût. Les auteurs de Real-Time Deep Video Deinterlacer utilisent Deep CNN pour obtenir la meilleure qualité de sortie vidéo.

Où le désentrelacement est effectué

Le désentrelacement d'un signal vidéo entrelacé peut être effectué à différents points de la chaîne de production TV.

Médias progressifs

Le désentrelacement est requis pour les programmes d'archives entrelacés lorsque le format de diffusion ou le format multimédia est progressif, comme dans la diffusion EDTV 576p ou HDTV 720p50, ou la diffusion mobile DVB-H ; il y a deux façons d'y parvenir.

  • Production – Le matériel vidéo entrelacé est converti en balayage progressif pendant la production du programme. Cela devrait généralement donner la meilleure qualité possible, car les vidéastes ont accès à un équipement et à un logiciel de désentrelacement coûteux et puissants et peuvent désentrelacer avec la meilleure qualité possible, en choisissant probablement manuellement la méthode de désentrelacement optimale pour chaque image.
  • Diffusion – Le matériel de désentrelacement en temps réel convertit les programmes entrelacés en balayage progressif immédiatement avant la diffusion. Étant donné que le temps de traitement est limité par la fréquence d'images et qu'aucune intervention humaine n'est disponible, la qualité de la conversion est très probablement inférieure à celle de la méthode de pré-production ; cependant, un équipement de désentrelacement coûteux et performant peut toujours donner de bons résultats lorsqu'il est correctement réglé.

Média entrelacé

Lorsque le format de diffusion ou le format multimédia est entrelacé, le désentrelacement en temps réel doit être effectué par des circuits intégrés dans un décodeur, un téléviseur, un processeur vidéo externe, un lecteur DVD ou DVR ou une carte tuner TV. Étant donné que les équipements électroniques grand public sont généralement beaucoup moins chers, ont une puissance de traitement considérablement moindre et utilisent des algorithmes plus simples que les équipements de désentrelacement professionnels, la qualité du désentrelacement peut varier considérablement et les résultats typiques sont souvent médiocres, même sur des équipements haut de gamme.

L'utilisation d'un ordinateur pour la lecture et/ou le traitement permet potentiellement un choix plus large de lecteurs vidéo et/ou de logiciels de montage non limité à la qualité offerte par l'appareil électronique grand public intégré, de sorte qu'une qualité de désentrelacement au moins théoriquement plus élevée est possible - surtout si l'utilisateur peut pré-convertir la vidéo entrelacée en balayage progressif avant la lecture et algorithmes de désentrelacement avancés et chronophages (c'est-à-dire en utilisant la méthode de "production").

Cependant, la qualité des logiciels grand public gratuits et commerciaux peut ne pas être à la hauteur des logiciels et équipements professionnels. De plus, la plupart des utilisateurs ne sont pas formés à la production vidéo ; cela entraîne souvent des résultats médiocres car de nombreuses personnes ne connaissent pas grand-chose au désentrelacement et ne savent pas que la fréquence d'images est la moitié de la fréquence de trame. De nombreux codecs/lecteurs ne se désentrelacent même pas par eux-mêmes et s'appuient sur la carte graphique et l'API d'accélération vidéo pour effectuer un désentrelacement correct.

Inquiétudes sur l'efficacité

L' Union européenne de radiodiffusion s'est prononcée contre l'utilisation de la vidéo entrelacée dans la production et la diffusion, recommandant 720p 50 ips (images par seconde) comme format de production actuel et collaborant avec l'industrie pour introduire 1080p 50 comme norme de production à l'épreuve du temps qui offre une verticale plus élevée. résolution, une meilleure qualité à des débits inférieurs et une conversion plus facile vers d'autres formats tels que 720p50 et 1080i50. L'argument principal est que, quelle que soit la complexité de l'algorithme de désentrelacement, les artefacts du signal entrelacé ne peuvent pas être complètement éliminés car certaines informations sont perdues entre les trames.

Yves Faroudja , le fondateur de Faroudja Labs et lauréat d'un Emmy Award pour ses réalisations en matière de technologie de désentrelacement, a déclaré que "l'entrelacement progressif ne fonctionne pas" et a déconseillé l'utilisation du signal entrelacé.

Voir également

Les références

Liens externes