Conditionnement opérant - Operant conditioning

Conditionnement opérant Extinction
Renforcement
Augmenter le comportement
Punition
Diminuer le comportement
Renforcement positif
Ajouter un stimulus appétit
après un comportement correct
Renforcement négatif Punition positive
Ajouter un stimulus nocif à la
suite d'un comportement
Punition négative
Supprimer le stimulus appétitif
suite à un comportement
Échappement
Supprimer les stimuli nocifs
après un comportement correct
Évitement actif Le
comportement évite les stimuli nocifs

Le conditionnement opérant (également appelé conditionnement instrumental ) est un type de processus d'apprentissage associatif par lequel la force d'un comportement est modifiée par renforcement ou punition. C'est aussi une procédure qui est utilisée pour provoquer un tel apprentissage.

Bien que le conditionnement opérant et le conditionnement classique impliquent tous deux des comportements contrôlés par des stimuli environnementaux, ils diffèrent par leur nature. Dans le conditionnement opérant, le comportement est contrôlé par des stimuli externes. Par exemple, un enfant peut apprendre à ouvrir une boîte pour y mettre les bonbons, ou apprendre à éviter de toucher une cuisinière chaude ; en termes opérationnels, la boîte et le poêle sont des "stimuli discriminants". Le comportement opérant est dit « volontaire ». Les réponses sont sous le contrôle de l'organisme et sont opérantes. Par exemple, l'enfant peut avoir le choix entre ouvrir la boîte et caresser un chiot.

En revanche, le conditionnement classique implique un comportement involontaire basé sur l'appariement de stimuli avec des événements biologiquement significatifs. Les réponses sont sous le contrôle de certains stimuli car ce sont des réflexes, automatiquement déclenchés par les stimuli appropriés. Par exemple, la vue de bonbons peut faire saliver un enfant, ou le bruit d'un claquement de porte peut signaler un parent en colère, faisant trembler un enfant. La salivation et le tremblement ne sont pas des opérants ; ils ne sont pas renforcés par leurs conséquences, et ils ne sont pas volontairement « choisis ».

Cependant, les deux types d'apprentissage peuvent affecter le comportement. Des stimuli conditionnés de manière classique, par exemple une image de bonbons sur une boîte, pourraient améliorer le conditionnement opérant en encourageant un enfant à s'approcher et à ouvrir la boîte. La recherche a montré qu'il s'agit d'un phénomène bénéfique dans les cas où le comportement opérant est sujet à erreur.

L'étude de l'apprentissage animal au 20e siècle a été dominée par l'analyse de ces deux types d'apprentissage, et ils sont toujours au cœur de l'analyse du comportement. Ils ont également été appliqués à l'étude de la psychologie sociale , aidant à clarifier certains phénomènes tels que l' effet de faux consensus .

Note historique

La loi de l'effet de Thorndike

Le conditionnement opérant, parfois appelé apprentissage instrumental , a d'abord été étudié de manière approfondie par Edward L. Thorndike (1874-1949), qui a observé le comportement des chats essayant de s'échapper des boîtes de puzzle faites maison. Un chat pouvait s'échapper de la boîte par une simple réponse telle que tirer une corde ou pousser un poteau, mais lorsqu'ils étaient contraints pour la première fois, les chats mettaient beaucoup de temps à sortir. Avec des essais répétés, les réponses inefficaces se produisaient moins fréquemment et les réponses positives se produisaient plus fréquemment, de sorte que les chats se sont échappés de plus en plus rapidement. Thorndike a généralisé cette conclusion dans sa loi de l'effet , qui stipule que les comportements suivis de conséquences satisfaisantes ont tendance à se répéter et que ceux qui produisent des conséquences désagréables sont moins susceptibles de se répéter. Bref, certaines conséquences renforcent le comportement et certaines conséquences affaiblissent le comportement. En traçant le temps d'évasion par rapport au numéro d'essai, Thorndike a produit les premières courbes d'apprentissage connues des animaux grâce à cette procédure.

Les humains semblent apprendre de nombreux comportements simples grâce au type de processus étudié par Thorndike, maintenant appelé conditionnement opérant. C'est-à-dire que les réponses sont retenues lorsqu'elles mènent à un résultat positif et rejetées lorsqu'elles ne le font pas, ou lorsqu'elles produisent des effets aversifs. Cela se produit généralement sans être planifié par aucun "enseignant", mais le conditionnement opérant est utilisé par les parents pour enseigner à leurs enfants depuis des milliers d'années.

BF Skinner

BF Skinner au département de psychologie de Harvard, vers 1950

BF Skinner (1904-1990) est appelé le Père du conditionnement opérant, et son travail est fréquemment cité en rapport avec ce sujet. Son livre de 1938 "Le comportement des organismes: une analyse expérimentale", a lancé son étude de longue date sur le conditionnement opérant et son application au comportement humain et animal. Suivant les idées d' Ernst Mach , Skinner a rejeté la référence de Thorndike aux états mentaux inobservables tels que la satisfaction, construisant son analyse sur le comportement observable et ses conséquences tout aussi observables.

Skinner pensait que le conditionnement classique était trop simpliste pour être utilisé pour décrire quelque chose d'aussi complexe que le comportement humain. Le conditionnement opérant, à son avis, décrit mieux le comportement humain en examinant les causes et les effets du comportement intentionnel.

Pour mettre en œuvre son approche empirique, Skinner a inventé la chambre de conditionnement opérant , ou « Skinner Box », dans laquelle des sujets tels que des pigeons et des rats étaient isolés et pouvaient être exposés à des stimuli soigneusement contrôlés. Contrairement à la boîte à puzzle de Thorndike, cet arrangement permettait au sujet de faire une ou deux réponses simples et répétables, et le taux de telles réponses est devenu la principale mesure comportementale de Skinner. Une autre invention, l'enregistreur cumulatif, produisait un enregistrement graphique à partir duquel ces taux de réponse pouvaient être estimés. Ces enregistrements étaient les principales données utilisées par Skinner et ses collègues pour explorer les effets sur le taux de réponse de divers programmes de renforcement. Un programme de renforcement peut être défini comme « toute procédure qui fournit un renforcement à un organisme selon une règle bien définie ». Les effets des horaires sont devenus, à leur tour, les conclusions de base à partir desquelles Skinner a développé son récit du conditionnement opérant. Il s'est également inspiré de nombreuses observations moins formelles du comportement humain et animal.

De nombreux écrits de Skinner sont consacrés à l'application du conditionnement opérant au comportement humain. En 1948, il publie Walden Two , un récit fictif d'une communauté paisible, heureuse et productive organisée autour de ses principes de conditionnement. En 1957, Skinner a publié Verbal Behavior , qui étendait les principes du conditionnement opérant au langage, une forme de comportement humain qui avait été analysée de manière assez différente par les linguistes et d'autres. Skinner a défini de nouvelles relations fonctionnelles telles que les « mandats » et les « tacts » pour capturer certains éléments essentiels du langage, mais il n’a introduit aucun nouveau principe, traitant le comportement verbal comme tout autre comportement contrôlé par ses conséquences, qui comprenaient les réactions de l’auditoire du locuteur.

Concepts et procédures

Origines du comportement opérant : variabilité opérante

Le comportement opérant est dit « émis » ; c'est-à-dire qu'au départ, il n'est suscité par aucun stimulus particulier. On peut donc se demander pourquoi cela se produit en premier lieu. La réponse à cette question est comme la réponse de Darwin à la question de l'origine d'une « nouvelle » structure corporelle, à savoir la variation et la sélection. De même, le comportement d'un individu varie d'un moment à l'autre, dans des aspects tels que les mouvements spécifiques impliqués, la quantité de force appliquée ou le moment de la réponse. Les variations qui conduisent au renforcement sont renforcées, et si le renforcement est cohérent, le comportement a tendance à rester stable. Cependant, la variabilité comportementale peut elle-même être altérée par la manipulation de certaines variables.

Modification du comportement opérant : renforcement et punition

Le renforcement et la punition sont les outils de base par lesquels le comportement opérant est modifié. Ces termes sont définis par leur effet sur le comportement. L'un ou l'autre peut être positif ou négatif.

  • Le renforcement positif et le renforcement négatif augmentent la probabilité d'un comportement qu'ils suivent, tandis que la punition positive et la punition négative réduisent la probabilité du comportement qu'ils suivent.

Une autre procédure est appelée "extinction".

  • L'extinction se produit lorsqu'un comportement précédemment renforcé n'est plus renforcé par un renforcement positif ou négatif. Pendant l'extinction, le comportement devient moins probable. Un renforcement occasionnel peut entraîner un délai encore plus long avant l'extinction du comportement en raison du facteur d'apprentissage d'instances répétées devenant nécessaires pour obtenir un renforcement, par rapport au renforcement étant donné à chaque occasion avant l'extinction.

Il y a au total cinq conséquences.

  1. Le renforcement positif se produit lorsqu'un comportement (réponse) est gratifiant ou que le comportement est suivi d'un autre stimulus gratifiant, augmentant la fréquence de ce comportement. Par exemple, si un rat dans une boîte Skinner obtient de la nourriture lorsqu'il appuie sur un levier, son taux de pression augmentera. Cette procédure est généralement appelée simplement renforcement .
  2. Le renforcement négatif (aka évasion) se produit lorsqu'un comportement (réponse) est suivi de la suppression d'unstimulus aversif , augmentant ainsi la fréquence du comportement d'origine. Dans l'expérience Skinner Box, le stimulus aversif pourrait être un bruit fort en continu à l'intérieur de la boîte ; le renforcement négatif se produirait lorsque le rat appuie sur un levier pour éteindre le bruit.
  3. La punition positive (également appelée "punition par stimulation contingente") se produit lorsqu'un comportement (réponse) est suivi d'un stimulus aversif. Exemple : douleurcauséepar une fessée , qui entraînerait souvent une diminution de ce comportement. La punition positive est un terme confus, de sorte que la procédure est généralement appelée «punition».
  4. La punition négative (pénalité) (également appelée "punition par retrait contingent") se produit lorsqu'un comportement (réponse) est suivi de la suppression d'un stimulus. Exemple : enlever le jouet d'un enfant suite à un comportement indésirable de sa part, ce qui entraînerait une diminution du comportement indésirable.
  5. L'extinction se produit lorsqu'un comportement (réponse) qui avait été précédemment renforcé n'est plus efficace. Exemple : un rat reçoit d'abord de la nourriture plusieurs fois pour avoir appuyé sur un levier, jusqu'à ce que l'expérimentateur ne donne plus de nourriture en récompense. Le rat appuie généralement moins souvent sur le levier, puis s'arrête. Le levier pressant serait alors dit « éteint ».

Il est important de noter que les acteurs (par exemple un rat) ne sont pas décrits comme étant renforcés, punis ou éteints ; ce sont les actions qui sont renforcées, punies ou éteintes. Renforcement, punition et extinction ne sont pas des termes dont l'usage est réservé au laboratoire. Les conséquences naturelles peuvent également renforcer, punir ou éteindre un comportement et ne sont pas toujours planifiées ou fournies à dessein.

Horaires de renforcement

Les programmes de renforcement sont des règles qui contrôlent la livraison du renforcement. Les règles précisent soit le moment où le renforcement doit être mis à disposition, soit le nombre de réponses à apporter, soit les deux. De nombreuses règles sont possibles, mais les suivantes sont les plus basiques et les plus couramment utilisées

  • Programme d'intervalle fixe : Le renforcement se produit après la première réponse après qu'un temps fixe s'est écoulé après le renforcement précédent. Ce calendrier produit un modèle de réponse « rupture » ; c'est-à-dire qu'après un entraînement selon ce programme, l'organisme fait généralement une pause après le renforcement, puis commence à répondre rapidement à l'approche du prochain renforcement.
  • Programme d'intervalle variable : Le renforcement se produit après la première réponse après qu'un temps variable s'est écoulé depuis le renforcement précédent. Ce calendrier donne généralement un taux de réponse relativement stable qui varie avec le temps moyen entre les renforcements.
  • Calendrier à ratio fixe : Le renforcement se produit après qu'un nombre fixe de réponses a été émis depuis le renforcement précédent. Un organisme entraîné selon ce calendrier fait généralement une pause pendant un certain temps après un renforcement, puis répond à un rythme élevé. Si l'exigence de réponse est faible, il se peut qu'il n'y ait pas de pause ; si l'exigence de réponse est élevée, l'organisme peut cesser de répondre complètement.
  • Calendrier à ratio variable : Le renforcement se produit après qu'un nombre variable de réponses a été émis depuis le renforcement précédent. Ce calendrier donne généralement un taux de réponse persistant très élevé.
  • Renforcement continu : Le renforcement se produit après chaque réponse. Les organismes réagissent généralement aussi rapidement qu'ils le peuvent, compte tenu du temps nécessaire pour obtenir et consommer du renforcement, jusqu'à ce qu'ils soient rassasiés.

Facteurs qui altèrent l'efficacité du renforcement et de la punition

L'efficacité du renforcement et de la punition peut être modifiée.

  1. Satiété/privation : L'efficacité d'un stimulus positif ou « appétitif » sera réduite si l'individu en a reçu suffisamment pour satisfaire son appétit. L'effet inverse se produira si l'individu est privé de ce stimulus : l'efficacité d'une conséquence augmentera alors. Un sujet avec l'estomac plein ne se sentirait pas aussi motivé qu'un sujet affamé.
  2. Immédiateté : Une conséquence immédiate est plus efficace qu'une conséquence différée. Si l'on donne à un chien une friandise pour s'asseoir dans les cinq secondes, le chien apprendra plus vite que si la friandise est donnée après trente secondes.
  3. Contingence : Pour être le plus efficace, le renforcement doit se produire systématiquement après les réponses et non à d'autres moments. L'apprentissage peut être plus lent si le renforcement est intermittent, c'est-à-dire qu'il ne suit que certains cas de la même réponse. Les réponses renforcées par intermittence sont généralement plus lentes à s'éteindre que les réponses qui ont toujours été renforcées.
  4. Taille : La taille, ou la quantité, d'un stimulus affecte souvent sa puissance en tant que renforçateur. Les humains et les animaux se livrent à une analyse coûts-avantages. Si une presse à levier apporte dix granulés alimentaires, l'appui sur levier peut être appris plus rapidement que si une presse n'apporte qu'un seul granulé. Un tas de pièces d'une machine à sous peut garder un joueur tirant le levier plus longtemps qu'un seul quart.

La plupart de ces facteurs remplissent des fonctions biologiques. Par exemple, le processus de satiété aide l'organisme à maintenir un environnement interne stable ( homéostasie ). Lorsqu'un organisme a été privé de sucre, par exemple, le goût du sucre est un renforçateur efficace. Lorsque la glycémie de l'organisme atteint ou dépasse un niveau optimal, le goût du sucre devient moins efficace, voire aversif.

Façonner

La mise en forme est une méthode de conditionnement très utilisée dans le dressage des animaux et dans l'enseignement non verbal aux humains. Elle dépend de la variabilité opérante et du renforcement, comme décrit ci-dessus. Le formateur commence par identifier le comportement final (ou "cible") souhaité. Ensuite, le dresseur choisit un comportement que l'animal ou la personne émet déjà avec une certaine probabilité. La forme de ce comportement est ensuite progressivement modifiée au fil des essais successifs en renforçant des comportements qui se rapprochent de plus en plus du comportement cible. Lorsque le comportement cible est finalement émis, il peut être renforcé et maintenu par l'utilisation d'un programme de renforcement.

Renfort non contingent

Le renforcement non contingent est la délivrance de stimuli de renforcement quel que soit le comportement de l'organisme. Un renforcement non contingent peut être utilisé pour tenter de réduire un comportement cible indésirable en renforçant plusieurs réponses alternatives tout en éteignant la réponse cible. Comme aucun comportement mesuré n'est identifié comme étant renforcé, il existe une controverse entourant l'utilisation du terme « renforcement » non contingent.

Contrôle du stimulus du comportement opérant

Bien que le comportement initialement opérant soit émis sans référence identifiée à un stimulus particulier, pendant le conditionnement opérant, les opérants sont sous le contrôle de stimuli présents lorsque le comportement est renforcé. De tels stimuli sont appelés "stimuli discriminants". Il en résulte une soi-disant « contingence à trois termes ». C'est-à-dire que les stimuli discriminants donnent l'occasion de réponses qui produisent une récompense ou une punition. Exemple : un rat peut être entraîné à n'appuyer sur un levier que lorsqu'une lumière s'allume ; un chien se précipite dans la cuisine lorsqu'il entend le cliquetis de son sac de nourriture ; un enfant attrape des bonbons lorsqu'il les voit sur une table.

Discrimination, généralisation & contexte

La plupart des comportements sont sous contrôle de stimulus. On peut en distinguer plusieurs aspects :

  • La discrimination se produit généralement lorsqu'une réponse n'est renforcée qu'en présence d'un stimulus spécifique. Par exemple, un pigeon peut être nourri pour picorer à un feu rouge et non à un feu vert ; en conséquence, il picore le rouge et arrête de picorer le vert. De nombreuses combinaisons complexes de stimuli et d'autres conditions ont été étudiées; par exemple, un organisme peut être renforcé selon un programme d'intervalle en présence d'un stimulus et selon un programme de ratio en présence d'un autre.
  • La généralisation est la tendance à répondre à des stimuli similaires à un stimulus discriminant préalablement formé. Par exemple, ayant été entraîné à picorer le « rouge », un pigeon peut également picorer le « rose », bien que généralement moins fort.
  • Le contexte fait référence aux stimuli qui sont continuellement présents dans une situation, comme les murs, les tables, les chaises, etc. dans une pièce, ou l'intérieur d'une chambre de conditionnement opérant. Les stimuli contextuels peuvent venir contrôler le comportement comme le font les stimuli discriminants, bien que généralement plus faiblement. Les comportements appris dans un contexte peuvent être absents ou modifiés dans un autre. Cela peut entraîner des difficultés pour la thérapie comportementale, car les comportements appris dans le cadre thérapeutique peuvent ne pas se produire dans d'autres situations.

Séquences comportementales : renforcement conditionné et enchaînement

La plupart des comportements ne peuvent pas être facilement décrits en termes de réponses individuelles renforcées une par une. Le champ de l'analyse opérante est élargi par l'idée de chaînes comportementales, qui sont des séquences de réponses liées entre elles par les contingences à trois termes définies ci-dessus. Le chaînage est basé sur le fait, démontré expérimentalement, qu'un stimulus discriminant non seulement donne l'occasion d'un comportement ultérieur, mais qu'il peut également renforcer un comportement qui le précède. C'est-à-dire qu'un stimulus discriminant est également un « renforçateur conditionné ». Par exemple, la lumière qui donne l'occasion d'appuyer sur le levier peut être utilisée pour renforcer le « retournement » en présence d'un bruit. Il en résulte la séquence "bruit – retournement – ​​lumière – levier de pression – nourriture". Des chaînes beaucoup plus longues peuvent être construites en ajoutant plus de stimuli et de réponses.

Evasion et évitement

Dans l'apprentissage d'évasion, un comportement met fin à un stimulus (aversif). Par exemple, se protéger les yeux de la lumière du soleil met fin à la stimulation (aversive) de la lumière vive dans les yeux. (Ceci est un exemple de renforcement négatif, défini ci-dessus.) Le comportement qui est maintenu en empêchant un stimulus est appelé « évitement », comme, par exemple, mettre des lunettes de soleil avant de sortir. Le comportement d'évitement soulève ce qu'on appelle le « paradoxe de l'évitement », car, peut-on se demander, comment la non-occurrence d'un stimulus peut-elle servir de renforçateur ? Cette question est abordée par plusieurs théories de l'évitement (voir ci-dessous).

Deux types de paramètres expérimentaux sont couramment utilisés : l'apprentissage d'évitement discriminé et l'apprentissage libre-opérant.

Apprentissage de l'évitement discriminé

Une expérience d'évitement discriminé implique une série d'essais dans lesquels un stimulus neutre tel qu'une lumière est suivi d'un stimulus aversif tel qu'un choc. Après l'apparition du stimulus neutre, une réponse opérante telle qu'une pression sur un levier empêche ou met fin au stimulus aversif. Dans les premiers essais, le sujet ne répond pas tant que le stimulus aversif n'a pas été déclenché, de sorte que ces premiers essais sont appelés essais d'"évasion". Au fur et à mesure que l'apprentissage progresse, le sujet commence à répondre pendant le stimulus neutre et empêche ainsi le stimulus aversif de se produire. De tels essais sont appelés « essais d'évitement ». On dit que cette expérience implique un conditionnement classique car un CS neutre (stimulus conditionné) est associé à l'US aversif (stimulus inconditionné); cette idée sous-tend la théorie à deux facteurs de l'apprentissage par évitement décrite ci-dessous.

Apprentissage d'évitement libre-opérant

Dans l'évitement libre-opérant, un sujet reçoit périodiquement un stimulus aversif (souvent un choc électrique) à moins qu'une réponse opérante ne soit faite ; la réponse retarde le début du choc. Dans cette situation, contrairement à l'évitement discriminé, aucun stimulus préalable ne signale le choc. Deux intervalles de temps cruciaux déterminent le taux d'apprentissage de l'évitement. Ce premier est l'intervalle SS (choc-choc). C'est le temps entre les chocs successifs en l'absence de réponse. Le deuxième intervalle est l'intervalle RS (réponse-choc). Ceci spécifie le temps par lequel une réponse opérante retarde le début du prochain choc. Notez qu'à chaque fois que le sujet effectue la réponse opérante, l'intervalle RS sans choc recommence.

Théorie de l'évitement à deux processus

Cette théorie a été proposée à l'origine pour expliquer l'apprentissage par évitement discriminant, dans lequel un organisme apprend à éviter un stimulus aversif en s'échappant d'un signal pour ce stimulus. Deux processus sont impliqués : un conditionnement classique du signal suivi d'un conditionnement opérant de la réponse d'échappement :

a) Conditionnement classique de la peur. Initialement, l'organisme expérimente l'appariement d'un CS avec un US aversif. La théorie suppose que cet appariement crée une association entre le CS et les États-Unis par le biais d'un conditionnement classique et, en raison de la nature aversive des États-Unis, le CS en vient à susciter une réaction émotionnelle conditionnée (CER) – « la peur ». b) Renforcement de la réponse opérante par réduction de la peur. À la suite du premier processus, le CS signale maintenant la peur ; cette réaction émotionnelle désagréable sert à motiver les réponses opérantes, et les réponses qui mettent fin à la CS sont renforcées par la fin de la peur. Notez que la théorie ne dit pas que l'organisme « évite » les États-Unis dans le sens de l'anticiper, mais plutôt que l'organisme « échappe » à un état interne aversif qui est causé par le CS. Plusieurs résultats expérimentaux semblent aller à l'encontre de la théorie à deux facteurs. Par exemple, le comportement d'évitement s'éteint souvent très lentement même lorsque l'appariement initial CS-US ne se reproduit plus, donc on peut s'attendre à ce que la réaction de peur s'éteigne (voir Conditionnement classique ). De plus, les animaux qui ont appris à éviter montrent souvent peu de signes de peur, ce qui suggère qu'il n'est pas nécessaire d'échapper à la peur pour maintenir un comportement d'évitement.

Théorie opérante ou « à un facteur »

Certains théoriciens suggèrent que le comportement d'évitement peut simplement être un cas particulier de comportement opérant maintenu par ses conséquences. Dans ce point de vue, l'idée de « conséquences » est élargie pour inclure la sensibilité à un modèle d'événements. Ainsi, dans l'évitement, la conséquence d'une réponse est une réduction du taux de stimulation aversive. En effet, des preuves expérimentales suggèrent qu'un "choc manqué" est détecté comme un stimulus et peut agir comme un renforçateur. Les théories cognitives de l'évitement poussent cette idée un peu plus loin. Par exemple, un rat en vient à « s'attendre » à un choc s'il n'appuie pas sur un levier et à « ne s'attendre à aucun choc » s'il l'appuie, et le comportement d'évitement est renforcé si ces attentes se confirment.

La thésaurisation opérante

La thésaurisation opérante fait référence à l'observation selon laquelle les rats renforcés d'une certaine manière peuvent permettre aux boulettes de nourriture de s'accumuler dans un plateau de nourriture au lieu de récupérer ces boulettes. Dans cette procédure, la récupération des boulettes instituait toujours une période d' extinction d' une minute pendant laquelle aucune boulette alimentaire supplémentaire n'était disponible mais celles qui avaient été accumulées auparavant pouvaient être consommées. Cette découverte semble contredire la découverte habituelle selon laquelle les rats se comportent de manière impulsive dans des situations dans lesquelles il y a un choix entre un objet alimentaire plus petit immédiatement et un objet alimentaire plus grand après un certain délai. Voir les horaires de renforcement .

Corrélats neurobiologiques

Les premières études scientifiques identifiant les neurones qui répondaient d'une manière suggérant qu'ils codent pour des stimuli conditionnés sont issues des travaux de Mahlon deLong et de RT Richardson. Ils ont montré que les neurones du noyau basal , qui libèrent de l' acétylcholine dans tout le cortex cérébral , sont activés peu de temps après un stimulus conditionné, ou après une récompense primaire si aucun stimulus conditionné n'existe. Ces neurones sont également actifs pour les renforçateurs positifs et négatifs, et il a été démontré qu'ils sont liés à la neuroplasticité dans de nombreuses régions corticales . Il existe également des preuves que la dopamine est activée à des moments similaires. Il existe de nombreuses preuves que la dopamine participe à la fois au renforcement et à l'apprentissage aversif. Les voies de la dopamine se projettent de manière beaucoup plus dense sur les régions du cortex frontal . Les projections cholinergiques , en revanche, sont denses même dans les régions corticales postérieures comme le cortex visuel primaire . Une étude de patients atteints de la maladie de Parkinson , une affection attribuée à l'action insuffisante de la dopamine, illustre davantage le rôle de la dopamine dans le renforcement positif. Il a montré que lorsqu'ils ne prenaient pas de médicaments, les patients apprenaient plus facilement avec des conséquences aversives qu'avec un renforcement positif. Les patients qui prenaient leurs médicaments ont montré le contraire, le renforcement positif s'avérant la forme d'apprentissage la plus efficace lorsque l'activité de la dopamine est élevée.

Un processus neurochimique impliquant la dopamine a été suggéré pour sous-tendre le renforcement. Lorsqu'un organisme subit un stimulus de renforcement, les voies de la dopamine dans le cerveau sont activées. Ce réseau de voies "libère une courte impulsion de dopamine sur de nombreuses dendrites , diffusant ainsi un signal de renforcement global aux neurones postsynaptiques ". Cela permet aux synapses récemment activées d'augmenter leur sensibilité aux signaux efférents (conduisant vers l'extérieur), augmentant ainsi la probabilité d'occurrence des réponses récentes qui ont précédé le renforcement. Ces réponses sont, statistiquement, les plus susceptibles d'avoir été le comportement responsable de la réussite du renforcement. Mais lorsque l'application du renforcement est soit moins immédiate, soit moins contingente (moins cohérente), la capacité de la dopamine à agir sur les synapses appropriées est réduite.

Questions sur la loi d'effet

Un certain nombre d'observations semblent montrer que des comportements opérants peuvent s'établir sans renforcement au sens défini ci-dessus. Le plus cité est le phénomène de mise en forme automatique (parfois appelé "suivi des signes"), dans lequel un stimulus est suivi à plusieurs reprises d'un renforcement, et en conséquence l'animal commence à répondre au stimulus. Par exemple, une touche de réponse est allumée, puis la nourriture est présentée. Lorsque cela est répété plusieurs fois, un sujet pigeon commence à picorer la clé même si la nourriture vient, que l'oiseau picote ou non. De même, les rats commencent à manipuler de petits objets, comme un levier, lorsque de la nourriture est présentée à proximité. Étonnamment, les pigeons et les rats persistent dans ce comportement même lorsque picorer la touche ou appuyer sur le levier conduit à moins de nourriture (entraînement par omission). Un autre comportement opérant apparent qui apparaît sans renforcement est la contre - charge .

Ces observations et d'autres semblent contredire la loi de l'effet , et elles ont incité certains chercheurs à proposer de nouvelles conceptualisations du renforcement opérant (par exemple) Une vue plus générale est que la mise en forme automatique est un exemple de conditionnement classique ; la procédure de mise en forme automatique est en fait devenue l'un des moyens les plus courants de mesurer le conditionnement classique. De ce point de vue, de nombreux comportements peuvent être influencés à la fois par des contingences classiques (stimulus-réponse) et des contingences opérantes (réponse-renforcement), et la tâche de l'expérimentateur est de déterminer comment celles-ci interagissent.

Applications

Le renforcement et la punition sont omniprésents dans les interactions sociales humaines, et de nombreuses applications des principes opérants ont été suggérées et mises en œuvre. Voici quelques exemples.

Addiction et dépendance

Le renforcement positif et négatif joue un rôle central dans le développement et le maintien de l' addiction et de la toxicomanie . Une drogue addictive est intrinsèquement gratifiante ; c'est-à-dire qu'il fonctionne comme un renforçateur positif primaire de la consommation de drogue. Le système de récompense du cerveau lui attribue une importance incitative (c'est-à-dire qu'il est « voulu » ou « désiré »), de sorte qu'à mesure qu'une dépendance se développe, la privation de la drogue conduit à l'envie. De plus, les stimuli associés à la consommation de drogue – par exemple, la vue d'une seringue et le lieu d'utilisation – deviennent associés au renforcement intense induit par la drogue. Ces stimuli auparavant neutres acquièrent plusieurs propriétés : leur apparition peut induire une envie irrépressible, et ils peuvent devenir des renforçateurs positifs conditionnés d'une utilisation continue. Ainsi, si un individu toxicomane rencontre l'un de ces signaux de drogue, un besoin impérieux de la drogue associée peut réapparaître. Par exemple, les agences antidrogue utilisaient auparavant des affiches avec des images d' attirail de drogue pour tenter de montrer les dangers de la consommation de drogue. Cependant, de telles affiches ne sont plus utilisées en raison des effets d'incitation à la rechute à la vue des stimuli illustrés dans les affiches.

Chez les personnes toxicomanes, le renforcement négatif se produit lorsqu'une drogue est auto-administrée afin d'atténuer ou d'« échapper » aux symptômes de dépendance physique (par exemple, tremblements et transpiration) et/ou de dépendance psychologique (par exemple, anhédonie , agitation, irritabilité et anxiété) qui surviennent pendant l'état de sevrage médicamenteux .

Dressage des animaux

Les dresseurs d'animaux et les propriétaires d'animaux appliquaient les principes et les pratiques du conditionnement opérant bien avant que ces idées ne soient nommées et étudiées, et le dressage des animaux fournit toujours l'un des exemples les plus clairs et les plus convaincants de contrôle opérant. Parmi les concepts et procédures décrits dans cet article, quelques-uns des plus saillants sont les suivants : (a) disponibilité de renforcement primaire (par exemple un sac de bonbons pour chiens) ; (b) l'utilisation d'un renforcement secondaire (par exemple, faire retentir un clicker immédiatement après une réponse souhaitée, puis donner un délicieux) ; (c) la contingence, en s'assurant que le renforcement (par exemple le clicker) suit le comportement souhaité et pas autre chose ; (d) façonner, comme faire progressivement sauter un chien de plus en plus haut; (e) renforcement intermittent, comme en réduisant progressivement la fréquence du renforcement pour induire un comportement persistant sans satiété ; (f) l'enchaînement, où un comportement complexe est progressivement construit à partir d'unités plus petites.

Exemple de dressage d'animaux de Seaworld lié au conditionnement opérant

Le dressage des animaux a des effets sur le renforcement positif et le renforcement négatif. Les horaires des renforts peuvent jouer un grand rôle dans le cas de l'entraînement des animaux.

Analyse appliquée du comportement

L'analyse appliquée du comportement est la discipline initiée par BF Skinner qui applique les principes du conditionnement à la modification du comportement humain socialement significatif. Il utilise les concepts de base de la théorie du conditionnement, y compris le stimulus conditionné (S C ), le stimulus discriminant (S d ), la réponse (R) et le stimulus de renforcement (S rein ou S r pour les renforçateurs, parfois Save pour les stimuli aversifs). Un stimulus conditionné contrôle les comportements développés par le conditionnement (classique) du répondant, tels que les réactions émotionnelles. Les trois autres termes se combinent pour former la « contingence à trois termes » de Skinner : un stimulus discriminant donne l'occasion de réponses qui conduisent au renforcement. Les chercheurs ont trouvé que le protocole suivant est efficace lorsqu'ils utilisent les outils du conditionnement opérant pour modifier le comportement humain :

  1. Énoncer l' objectif Clarifier exactement quels changements doivent être apportés. Par exemple, "réduire le poids de 30 livres."
  2. Surveiller le comportement Gardez une trace du comportement afin que l'on puisse voir si les effets souhaités se produisent. Par exemple, tenez un tableau des poids quotidiens.
  3. Renforcez le comportement souhaité Par exemple, félicitez la personne pour sa perte de poids. Chez les humains, un enregistrement du comportement peut servir de renforcement. Par exemple, lorsqu'un participant voit un schéma de perte de poids, cela peut renforcer la poursuite d'un programme comportemental de perte de poids. Cependant, les individus peuvent percevoir un renforcement qui se veut positif comme négatif et vice versa. Par exemple, un enregistrement de perte de poids peut agir comme un renforcement négatif s'il rappelle à l'individu à quel point il est réellement lourd. L' économie symbolique , est un système d'échange où les jetons sont donnés à titre de récompense pour les comportements souhaités. Les jetons peuvent ensuite être échangés contre un prix ou des récompenses souhaités tels que le pouvoir, le prestige, des biens ou des services.
  4. Réduisez les incitations à adopter des comportements indésirables Par exemple, retirez les bonbons et les collations grasses des étagères de la cuisine.

Les praticiens de l'analyse appliquée du comportement (ABA) appliquent ces procédures, ainsi que leurs nombreuses variantes et développements, à une variété de comportements et de problèmes socialement significatifs. Dans de nombreux cas, les praticiens utilisent des techniques opérantes pour développer des comportements constructifs et socialement acceptables pour remplacer les comportements aberrants. Les techniques de l'ABA ont été appliquées efficacement dans des domaines tels que les interventions comportementales intensives précoces pour les enfants atteints de troubles du spectre autistique (TSA) la recherche sur les principes influençant le comportement criminel , la prévention du VIH, la conservation des ressources naturelles, l'éducation, la gérontologie , la santé et l'exercice. , sécurité industrielle , acquisition du langage , litière , procédures médicales , parentalité, psychothérapie , port de la ceinture de sécurité , troubles mentaux graves , sports, toxicomanie , phobies , troubles de l'alimentation pédiatrique et gestion du zoo et soins des animaux . Certaines de ces applications sont parmi celles décrites ci-dessous.

Comportement de l'enfant – formation à la gestion des parents

Fournir un renforcement positif pour les comportements appropriés de l'enfant est un objectif majeur de la formation en gestion des parents. En règle générale, les parents apprennent à récompenser un comportement approprié par des récompenses sociales (telles que des éloges, des sourires et des câlins) ainsi que des récompenses concrètes (telles que des autocollants ou des points vers une récompense plus importante dans le cadre d'un système d'incitation créé en collaboration avec l'enfant). De plus, les parents apprennent à sélectionner des comportements simples comme objectif initial et récompensent chacun des petits pas que leur enfant franchit pour atteindre un objectif plus large (ce concept est appelé « approximations successives »).

Économie

Les psychologues et les économistes se sont intéressés à l'application de concepts et de découvertes opérants au comportement des humains sur le marché. Un exemple est l'analyse de la demande des consommateurs, telle qu'indexée par la quantité d'un produit acheté. En économie, le degré d'influence du prix sur la consommation est appelé « l'élasticité-prix de la demande ». Certaines matières premières sont plus élastiques que d'autres ; par exemple, un changement de prix de certains aliments peut avoir un effet important sur la quantité achetée, tandis que l'essence et d'autres produits de consommation courante peuvent être moins affectés par les changements de prix. En termes d'analyse opérante, de tels effets peuvent être interprétés en termes de motivations des consommateurs et de la valeur relative des marchandises en tant que renforçateurs.

Jeux d'argent – ​​programmation à ratio variable

Comme indiqué précédemment dans cet article, un calendrier à ratio variable donne un renforcement après l'émission d'un nombre imprévisible de réponses. Ce calendrier génère généralement une réponse rapide et persistante. Les machines à sous sont payantes selon un calendrier de ratios variables, et elles produisent exactement ce genre de comportement persistant de traction de levier chez les joueurs. Le rapport variable des gains des machines à sous et d'autres formes de jeu a souvent été cité comme un facteur sous-jacent à la dépendance au jeu.

Psychologie militaire

Les êtres humains ont une résistance innée à tuer et sont réticents à agir de manière directe et agressive envers les membres de leur propre espèce, même pour sauver des vies. Cette résistance au meurtre a rendu l'infanterie remarquablement inefficace tout au long de l'histoire de la guerre militaire.

Ce phénomène n'a pas été compris jusqu'à ce que SLA Marshall (Brigadier-général et historien militaire) ait entrepris des études d'entretiens sur l'infanterie de la Seconde Guerre mondiale immédiatement après l'engagement au combat. Le livre bien connu et controversé de Marshall, Men Against Fire, a révélé que seulement 15 % des soldats ont tiré avec leurs fusils dans le but de tuer au combat. Après l'acceptation des recherches de Marshall par l'armée américaine en 1946, le bureau de recherche sur les ressources humaines de l'armée américaine a commencé à mettre en œuvre de nouveaux protocoles d'entraînement qui ressemblent à des méthodes de conditionnement opérant. Les applications ultérieures de ces méthodes ont augmenté le pourcentage de soldats capables de tuer à environ 50 % en Corée et à plus de 90 % au Vietnam. Les révolutions dans la formation ont inclus le remplacement des champs de tir traditionnels par des cibles tridimensionnelles en forme d'homme qui s'effondraient lorsqu'elles étaient touchées. Cela a fourni une rétroaction immédiate et a agi comme un renforcement positif du comportement d'un soldat. D'autres améliorations aux méthodes d'entraînement militaire ont inclus le cours de tir chronométré; formation plus réaliste; répétitions élevées; louanges des supérieurs ; récompenses d'adresse au tir; et la reconnaissance du groupe. Le renforcement négatif comprend la responsabilité des pairs ou l'obligation de reprendre les cours. L'entraînement militaire moderne conditionne la réponse du cerveau moyen à la pression de combat en simulant étroitement le combat réel, en utilisant principalement le conditionnement classique pavlovien et le conditionnement opérant skinnérien (les deux formes de béhaviorisme ).

L'entraînement au tir moderne est un si excellent exemple de béhaviorisme qu'il a été utilisé pendant des années dans le cours d'introduction à la psychologie enseigné à tous les cadets de l'Académie militaire américaine de West Point comme exemple classique de conditionnement opérant. Dans les années 1980, lors d'une visite à West Point, BF Skinner a identifié l'entraînement au tir militaire moderne comme une application presque parfaite du conditionnement opérant.

Le lieutenant-colonel Dave Grossman déclare au sujet du conditionnement opérant et de la formation militaire américaine que :

Il est tout à fait possible que personne ne se soit intentionnellement assis pour utiliser des techniques de conditionnement opérant ou de modification du comportement pour former des soldats dans ce domaine… c'est exactement ce qui a été réalisé.

Théorie du coup de pouce

La théorie du nudge (ou nudge) est un concept des sciences du comportement , de la théorie politique et de l' économie qui soutient que les suggestions indirectes pour essayer d'obtenir une conformité non forcée peuvent influencer les motivations, les incitations et la prise de décision des groupes et des individus, au moins aussi efficacement - si pas plus efficacement que l'instruction directe, la législation ou l'application.

Louer

Le concept de louange comme moyen de renforcement comportemental est enraciné dans le modèle de conditionnement opérant de BF Skinner. À travers cette lentille, la louange a été considérée comme un moyen de renforcement positif, dans lequel un comportement observé est rendu plus susceptible de se produire en louant de manière contingente ledit comportement. Des centaines d'études ont démontré l'efficacité des éloges dans la promotion de comportements positifs, notamment dans l'étude de l'utilisation par les enseignants et les parents des éloges sur l'enfant pour promouvoir l'amélioration du comportement et des performances scolaires, mais aussi dans l'étude des performances au travail. Il a également été démontré que la louange renforce les comportements positifs chez les individus adjacents non loués (comme un camarade de classe du destinataire de la louange) par le biais du renforcement par procuration. La louange peut être plus ou moins efficace pour changer le comportement en fonction de sa forme, de son contenu et de sa diffusion. Pour que les éloges entraînent un changement de comportement positif, ils doivent dépendre du comportement positif (c. de manière crédible.

Reconnaissant l'effet de la louange en tant que stratégie de renforcement positif, de nombreuses interventions comportementales et cognitivo-comportementales ont intégré l'utilisation de la louange dans leurs protocoles. L'utilisation stratégique de l'éloge est reconnue comme une pratique fondée sur des preuves dans les interventions de gestion de classe et de formation parentale, bien que l'éloge soit souvent subsumé dans la recherche interventionnelle dans une catégorie plus large de renforcement positif, qui comprend des stratégies telles que l'attention stratégique et les récompenses comportementales.

Plusieurs études ont été menées sur l'effet de la thérapie cognitivo-comportementale et de la thérapie opérante-comportementale sur différentes conditions médicales. Lorsque les patients ont développé des techniques cognitives et comportementales qui ont modifié leurs comportements, leurs attitudes et leurs émotions ; leur sévérité de la douleur a diminué. Les résultats de ces études ont montré une influence des cognitions sur la perception de la douleur et l'impact présenté a expliqué l'efficacité générale de la thérapie cognitivo-comportementale (TCC) et de la thérapie opératoire-comportementale (OBT).

Manipulation psychologique

Braiker a identifié les moyens suivants par lesquels les manipulateurs contrôlent leurs victimes :

Collage traumatique

Le lien traumatique se produit à la suite de cycles continus d'abus dans lesquels le renforcement intermittent de la récompense et de la punition crée des liens émotionnels puissants qui résistent au changement.

L'autre source a indiqué que « les conditions nécessaires pour créer un lien traumatique sont qu'une personne doit dominer l'autre et que le niveau d'abus augmente de manière chronique puis diminue. » La relation est caractérisée par des périodes de comportement permissif, compatissant, voire affectueux de la part de la personne dominante, ponctuées d'épisodes intermittents d'abus intenses. Pour garder le dessus, le bourreau manipule le comportement de la victime et limite les options de la victime afin de perpétuer le déséquilibre de pouvoir. Toute menace à l'équilibre entre domination et soumission peut être confrontée à un cycle croissant de punitions allant de l'intimidation bouillonnante à des explosions de violence intense. L'agresseur isole également la victime d'autres sources de soutien, ce qui réduit la probabilité de détection et d'intervention, altère la capacité de la victime à recevoir une rétroaction d'autoréférence compensatoire et renforce le sentiment de dépendance unilatérale... Les effets traumatisants de ces relations abusives peut inclure l'affaiblissement de la capacité de la victime à s'auto-évaluer correctement, conduisant à un sentiment d'inadéquation personnelle et à un sentiment subordonné de dépendance vis-à-vis de la personne dominante. Les victimes peuvent également être confrontées à une variété de conséquences sociales et juridiques désagréables de leur affiliation émotionnelle et comportementale avec quelqu'un qui a commis des actes agressifs, même si elles-mêmes ont été les destinataires de l'agression. '.

Jeux vidéo

La majorité des jeux vidéo sont conçus autour d'une boucle de contrainte , ajoutant un type de renforcement positif via un programme à taux variable pour que le joueur continue de jouer. Cela peut conduire à la pathologie de l' addiction aux jeux vidéo .

Dans le cadre d'une tendance à la monétisation des jeux vidéo au cours des années 2010, certains jeux proposaient des loot boxes comme récompenses ou comme objets achetables par des fonds du monde réel. Les boîtes contiennent une sélection aléatoire d'objets en jeu. La pratique a été liée aux mêmes méthodes que les machines à sous et autres appareils de jeu distribuant des récompenses, car elle suit un barème de taux variable. Alors que la perception générale selon laquelle les loot boxes sont une forme de jeu, la pratique n'est classée comme telle que dans quelques pays. Cependant, les méthodes d'utilisation de ces objets comme monnaie virtuelle pour le jeu en ligne ou le commerce contre de l'argent réel ont créé un marché du jeu de peau qui est en cours d'évaluation légale.

Culture de la peur au travail

Ashforth a discuté des aspects potentiellement destructeurs du leadership et a identifié ce qu'il a qualifié de petits tyrans : des dirigeants qui exercent un style de gestion tyrannique, entraînant un climat de peur sur le lieu de travail. Un renforcement négatif partiel ou intermittent peut créer un climat efficace de peur et de doute . Lorsque les employés ont le sentiment que les intimidateurs sont tolérés, un climat de peur peut en résulter.

Les différences individuelles de sensibilité à la récompense , à la punition et à la motivation ont été étudiées selon les prémisses de la théorie de la sensibilité au renforcement et ont également été appliquées à la performance sur le lieu de travail .

L'une des nombreuses raisons avancées pour expliquer les coûts dramatiques associés aux soins de santé est la pratique de la médecine défensive. Prabhu passe en revue l'article de Cole et explique comment les réponses de deux groupes de neurochirurgiens sont un comportement opérant classique. Un groupe pratique dans un État avec des restrictions sur les poursuites médicales et l'autre groupe sans restrictions. Le groupe de neurochirurgiens a été interrogé anonymement sur leurs habitudes de pratique. Les médecins ont changé leur pratique en réponse à une rétroaction négative (crainte de poursuites) dans le groupe qui pratiquait dans un État sans restrictions sur les poursuites médicales.

Voir également

Les références

{78} Alexander BK (2010) Addiction: The View From Rat Park, extrait de Addiction: The View from Rat Park (2010)

Liens externes