Traitement de texte - Text processing

P.Oxy.6.993 texte transcrit.svg

En informatique, le terme traitement de texte fait référence à la théorie et à la pratique de l'automatisation de la création ou de la manipulation de texte électronique. Le texte fait généralement référence à tous les caractères alphanumériques spécifiés sur le clavier de la personne qui s'engage dans la pratique, mais en général, le texte désigne la couche d'abstraction immédiatement au-dessus de l' encodage de caractères standard du texte cible. Le terme traitement fait référence au traitement automatisé (ou mécanisé), par opposition à la même manipulation effectuée manuellement.

Le traitement de texte implique des commandes informatiques qui appellent le contenu, les modifications de contenu et le mouvement du curseur, par exemple pour

  • rechercher et remplacer
  • format
  • générer un rapport traité du contenu de, ou
  • filtrer un fichier ou rapport d'un fichier texte.

Le traitement de texte d'une expression régulière est une machine d'édition virtuelle, ayant un langage de programmation primitif qui a des registres nommés (identifiants) et des positions nommées dans la séquence de caractères comprenant le texte. En les utilisant, le "traitement de texte" peut, par exemple, marquer une zone de texte, puis la déplacer. Le traitement de texte d'un utilitaire est un programme de filtrage , ou filtre . Ces deux mécanismes comprennent le traitement de texte.

Définition

Étant donné que les balises standardisées telles que les codes d'échappement ANSI sont généralement invisibles pour l'éditeur, elles comprennent un ensemble de propriétés transitoires qui deviennent parfois indiscernables du traitement de texte . Mais les distinctions définitives avec le traitement de texte sont le traitement de texte proprement dit :

  • représente des "utilitaires de traitement de texte", pas seulement des applications "d'édition de texte".
  • est beaucoup plus "la manière du clavier", par opposition à "la manière de la souris" (par exemple, glisser-déposer, couper et coller) pour lancer une édition.
  • est l'accès séquentiel plutôt que l'accès aléatoire dans l'approche.
  • fonctionne directement au niveau de la couche de présentation plutôt qu'indirectement au niveau de la couche d'application .
  • travaille sur des données brutes standardisées et fonctionne de manière plus ouverte plutôt que de tendre vers des méthodes propriétaires.

De cette façon, le balisage tel que la police et la couleur ne sont pas vraiment un facteur distinctif, car les séquences de caractères qui affectent la police et la couleur sont simplement des caractères standard insérés automatiquement par un mode de traitement de texte en arrière - plan , conçus pour fonctionner de manière transparente par des éditeurs de texte conformes , mais devenant autrement visible en tant que commandes de traitement de texte lorsque ce mode n'est pas en vigueur. Ainsi, le traitement de texte est défini essentiellement (mais pas entièrement) autour des caractères visuels (ou graphèmes ) plutôt que des caractères standard, mais invisibles.

Histoire

Le développement du traitement de texte informatique a commencé sérieusement avec la formalisation par Kleene de ce qui est un langage régulier . De telles expressions régulières pourraient alors devenir un mini-programme, avec un processus de compilation, disponible pour effectuer n'importe quelle modification, une fois que ce langage a été étendu. De même, les filtres sont étendus en faisant évoluer des options particulières .

Concepts de base

Un éditeur appelle essentiellement un flux d'entrée et le dirige vers l'environnement de traitement de texte, qui est soit un interpréteur de commandes, soit un éditeur de texte . La sortie résultante est applicable à un traitement de texte ultérieur, dont le résultat final est comparable à une seule application d'un algorithme appliqué une fois par un programme informatique plus sophistiqué et structuré.

Le traitement de texte est, contrairement à un algorithme, une séquence administrée manuellement de macros plus simples qui sont les expressions d'action de modèle et les mécanismes de filtrage. Dans les deux cas, l'intention du programmeur est imprimée indirectement sur un ensemble donné de caractères textuels dans l'acte de traitement de texte. Les résultats d'une étape de traitement de texte ne sont parfois que prometteurs, et le mécanisme tenté fait souvent l'objet de plusieurs ébauches via un retour visuel, jusqu'à ce que les détails de l' expression régulière ou du langage de balisage, ou jusqu'à ce que les options utilitaires soient totalement maîtrisées.

Le traitement de texte concerne principalement la production de caractères textuels au plus haut niveau informatique, où ses activités sont juste en dessous des utilisations pratiques de l'informatique - la transmission manuelle d'informations.

En fin de compte, tout l'informatique est un traitement de texte, des caractères textuels auto-compilés d'un assembleur, en passant par le langage de programmation automatisé généré pour gérer une goutte de données graphiques, et enfin les métacaractères d'expressions régulières qui nettoient les documents texte existants.

Le traitement de texte est sa propre automatisation.

Personnages

Les caractères textuels sont fournis dans des jeux de caractères standardisés contenant également des caractères de contrôle tels qu'un caractère de nouvelle ligne, qui organise le texte. D'autres types de caractères de contrôle organisent la transmission, définissent les jeux de caractères et effectuent d'autres tâches d'entretien.

Voir également

Liens externes