Integrated Model of Text and Picture Comprehension (ITPC)

Version datée du 1 décembre 2025 à 11:27 par Admin (discussion | contributions) (Page créée avec « Schnotz - Integrated Model of Text and Picture Comprehension == Introduction == Au niveau cognitif, le multimédia implique l'usage de plusieurs canaux (la plupart du temps, auditif et visuel). Il existe plusieurs types d'appentissage multimédia (e.g. book based, mix d'oralité et de présentation de schémas, cartes, etc.) Le chapitre va parler de : * Représentations internes et externes * Comment l'apprentissage est "limité" par notre architecture cog... »)
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)

Schnotz - Integrated Model of Text and Picture Comprehension

Introduction

Au niveau cognitif, le multimédia implique l'usage de plusieurs canaux (la plupart du temps, auditif et visuel). Il existe plusieurs types d'appentissage multimédia (e.g. book based, mix d'oralité et de présentation de schémas, cartes, etc.)

Le chapitre va parler de :

  • Représentations internes et externes
  • Comment l'apprentissage est "limité" par notre architecture cognitive
  • L'intégration des principes précédents dans un modèle intégré de compréhension "texte-image"
  • Quelques études empiriques
  • Les conséquences pour l'apprentissage
  • Les limites du modèle et les directions pour de futures recherches

External and internal representations

Forms of representation

Il présente deux formes de représentations:

  • Descriptive representation: ce sont des symboles qui n'ont pas de similarité avec leur référent (e.g. le mot "oiseau" n'a pas de similarité avec un vrai oiseau)
  • Depictive representation: ce sont des "icones" ; elles ont un lien avec leur référent (par exemple, les photos, les cartes, une maquette)

Les représentations descriptives et dépictives n'ont pas le même but. Le descriptif permet de faire référence à des catégories (e.g. "mammifères"), ce que ne peut pas faire le dépictif. En revanche, le dépictif est bien plus "informationnaly complete": une photo permet de montrer plus de choses quant à la forme, la position, la taille, etc.

Mental representations

Lors de la lecture d'un texte, nous construisons 3 types de représentations:

  • Text surface representation: ce n'est pas encore apparenté à de la compréhension, mais elle permet la répétietion et mène au niveau suivant
  • Propositional representation: c'est une compréhension des idées en faisant abstraction de la construction grammaticale du contenu
  • Mental model: une nouvelle représentation mentale de ce qui a été présenté

Ce processus (i.e. la construction de modèles mentaux) existe aussi pour des éléments visuels.

Schnotz considère qu'il existe aussi une différence descriptive/depictive dans les représentations mentales: la text-surface representation et la propositional representation sont descriptives, là ou l'image et le Mental Model sont dépictives (à la différence près que l'image est sensory-specific, là ou le modèle mental est lié à des représentations visuelles, auditives, du toucher, etc.). Aussi, le modèle mental permet aussi d'ajouter des informations venant des connaissances préalables qui étaient absentes de l'image initiale.

Schnotz et Bannert (2003) ont proposé un modèle pour l'analyse des représentations des images et des textes. Il a une branche descriptive (c.f. image, à gauche) et dépictive (c.f. image, à droite)

Fichier:Image correspondant au schéma 7.2 (page 86)

Cognitive architecture for text and picture comprehension

Sensory registers

Les informations captées par l'oeil sont stockées un très court moment (~1 sec) dans le registre visuel (il en va de même pour les informations captées par les yeux (~3 sec)). Si l'attention est dirigée vers une information stockée dans le registre visuel, elle est transmise dans la mémoire de travail visuelle (idem pour l'information auditive).

Working memory

Selon Baddeley (1986), la mémoire de travail consiste en un "centre exécutif" et plusieurs sous-systèmes (pour le stockage de l'information). Les deux plus étudiés sont:

  • La mémoire de travail auditive: elle est conçue comme une boucle phonologique-articulatoire ; elle a une capacité limitée, correspondant à ce qui peut être dit en ~2 secondes. Les textes parlés activent des patterns lexicaux, là ou des sons non-verbaux activent des représentations perceptuelles acoustiques.
  • Mémoire de travail visuelle : elle fait référence au calepin visuo-spatial. Il a une capacité moyenne de 5 unités. Les textes activent des patterns graphémiques lexicaux ; les images activent des patterns visuo-spatiaux.

Dans la compréhension textes/images, la WM ne process pas que des informations perceptuelles, mais aussi des éléments de "plus haut niveau" amenant à des représentations mentales. Ils supposent que c'est lié à un sous-système spécifique: le système dédié à la création de représentations composées de propositions. Il ne peut traiter simultanément qu'un nombre limité de propositions simultanément dans la mémoire de travail.

Finalement, ils supposent un sous-système dédié à la construction de modèles mentaux dans la mémoire de travail. Il fait l'association entre des éléments perçus et les connaissances préalables (en mémoire à long-terme). Ce modèle est très dépendant de la reconnaissance des objets.

Il considère (sans preuve c.f. p.87) que la construction de modèle mentaux semblent plutôt être liés au spatial processing qu'au visual processing.

Long-term memory

La compréhension de texte et d'images dépend aussi des connaissances préalables stockées dans la mémoire à long-terme. Elle inclut notamment la :

  • lexical knowledge: elle est stockée dans le mental lexicon, lui-même composé du phonological lexicon ou auditory lexicon (qui concerne la reconnaissance de la sonorité des mots) et du graphemic lexicon ou visual lexicon, ou encore orthographic lexicon (dédié à la reconnaissance des mots écrits)
  • perceptual world knowledge: il est lié à l'apparence des objets (e.g. à quoi ressemblent différents oiseaux)
  • cognitive world knowledge: il fait référence aux relations internes à un domaine (e.g. l'élevage des oiseaux et les conditions météorologiques au fil des saisons) ainsi que l'appartenance d'un élément à une catégorie. Il est important pour la propositional representation et la construction de modèles mentaux dans la mémoire de travail.

Integrated comprehension of text and pictures

Il propose l'ITPC model (integrative model of text and picture comprehension) ; il intègre plusieurs modèle issus des sciences cognitives (dual coding, multiple memory systems, computational vision, etc.), des neurosciences, et il est lié aux modèles de text and picture comprehension de Schnotz et Bannert, ainsi qu'à la CTML de Mayer.

Il est basé sur les suppositions suivantes:

  1. La compréhension de textes et d'images prend place dans une architecture avec des registres sensoriels spécifiques à des modalités , une mémoire de travail avec une capacité limitée et une mémoire à long-terme
  2. Les informations verbales et picturales (incluant les images et les sons non-verbaux) sont transmises à travers des canaux visuels et auditifs. Ils ont une capacité limitée.
  3. Le semantic processing prend place dans deux sous-systèmes (depictive & descriptive). Les images et les sons sont d'abord traités via le sous-système dépictif (via l'object recognition et la structure mapping) puis ils sont traités dans le sous-système descriptif qui mènera ensuite aux propositional representations.
  4. La compréhension de textes et d'images est sont des processus actifs de création de cohérence. On cherche à rendre cohérent ce qui vient des sources externes (textes, images) et internes (connaissances préalables).

Fichier:Image se rapportant au ITPC model

Types of comprehension

L'ITPC distingue le traitement de surface (qui fait passer l'information en mémoire de travail) du traitement profond (qui se fait dans la mémoire de travail et qui résulte en des propositional representations et des modèles mentaux) ainsi que des échanges entre la mémoire de travail et la mémoire à long-terme.

Listening comprehension

L'information auditive pénètre par l'oreille et subit une analyse phonologique, ce qui permet l'identification des phonèmes et des schémas lexicaux. Ce processus mène à la représentation propositionnelle qui déclenche la construction d'un modèle mental.

Reading comprehension

La compréhension d'un texte écrit commence par l'entrée de l'information verbale visuelle dans le registre visuel, où une analyse graphémique identifie les graphèmes. Ce traitement aboutit à une représentation propositionnelle qui active un modèle mental.

Les lecteurs non expérimentés, utilisent des règles de conversion graphème-phonème pour décoder le texte écrit, ce qui peut rendre leur compréhension laborieuse. En revanche, les lecteurs compétents activent des schémas lexicaux graphémiques sans nécessiter de conversion phonologique, bien qu'ils puissent encore effectuer une conversion lexicale au niveau du mot, qui est non sémantique et permet de reconnaître des mots sans en connaître la signification.

Lorsque des mots écrits familiers sont reconnus, les schémas lexicaux graphémiques activent également des schémas phonologiques qui permettent de prononcer ces mots, que ce soit à haute voix ou sous forme de discours intérieur. Ce processus alimente l'analyse phonologique et active des schémas lexicaux phonologiques, essentiels pour les analyses syntaxiques, car des anomalies dans les phrases sont plus facilement détectées lorsque le discours intérieur est présent, illustrant ainsi que la conversion des schémas graphémiques en phonologiques est cruciale pour le traitement syntaxique.

Visual picture comprehension

Lorsque l'information visuelle d'une image est comprise, elle entre dans le registre visuel et subit une analyse des caractéristiques visuelles, créant des représentations perceptuelles dans la mémoire de travail. Après un traitement supplémentaire qui active des unités de reconnaissance d'objets, un modèle mental est construit, permettant d'inspecter des informations nouvelles. Par exemple, le cas d'une carte de la migration des oiseaux en Europe, où des connaissances préalables en géographie enrichissent la représentation et facilitent la lecture d'informations supplémentaires.

Sound comprehension

Lorsque un son est compris, l'information auditive pénètre par l'oreille et subit une analyse des caractéristiques acoustiques, créant des représentations perceptuelles dans la mémoire de travail. Grâce à un traitement supplémentaire et à la reconnaissance d'objets, un modèle mental est élaboré, permettant d'interpréter de nouvelles informations, comme dans le cas des appels d'un busard et d'un petit oiseau, où des connaissances sur ces oiseaux enrichissent la compréhension d'un scénario de prédateur et de proie.

Complementarity of text and picture comprehension

La compréhension d'images permet un accès plus direct à la construction de modèles mentaux par rapport à celle des textes, car les images sont traitées immédiatement par le sous-système dépictif, tandis que les textes passent d'abord par le sous-système descriptif. La compréhension des textes et des images se complète de plusieurs manières, notamment en présentant des informations spécifiques dans chaque format. Elles peuvent également s'influencer mutuellement, les images précisant le sens d'un texte et les textes fournissant une orientation conceptuelle pour le traitement des images, leur complémentarité étant principalement due à leurs principes de représentation fondamentalement différents et à leurs fonctions distinctes.

Les textes, en raison de leur structure linéaire, offrent une meilleure guidance conceptuelle à la compréhension, mais sont moins adaptés pour rechercher des informations spécifiques. En revanche, les images permettent un accès plus facile à des informations particulières, même si leur contenu sémantique est moins clairement défini.

Les différentes fonctions conduisent à une interaction spécifique entre le texte et l'image au cours des différentes phases de compréhension. Lors de la construction d'un modèle mental initial, les textes sont principalement utilisés en raison de leur guidance conceptuelle explicite, tandis que des regards brefs sur les images aident à saisir rapidement la structure globale du sujet. Cependant, lorsque des tâches spécifiques sont présentées, la mise à jour du modèle mental devient plus axée sur les images, car leur structure non linéaire permet un accès plus rapide et flexible à des informations précises.

Meaningful learning

Le "meaningful learning" à partir de textes et d'images nécessite un ensemble coordonné de processus cognitifs, notamment la sélection et l'organisation de l'information, l'activation des connaissances antérieures et la formation active de la cohérence en intégrant des informations provenant de différentes sources. Que ce soit pour des textes écrits, des images ou des sons, l'apprenant sélectionne les informations pertinentes, les organise, active ses connaissances antérieures et construit un modèle mental cohérent, accompagné d'une représentation propositionnelle.

Le modèle ITPC s'inscrit dans un cadre plus large de la cognition humaine, englobant divers concepts, tels que :

  • des idées issues de la recherche sur la mémoire et l'architecture cognitive humaine (y compris les différents systèmes de mémoire) ;
  • des notions issues de la sémiotique (comme la distinction symboles/icônes) ;
  • des éléments de la recherche sur le traitement des textes (différenciation entre représentations de surface, représentations propositionnelles et modèles mentaux) ;
  • des concepts issus de la recherche sur le traitement des images (distinction entre perception visuelle, imagerie et modèles mentaux) ;
  • des principes de la neuropsychologie cognitive (concernant l'interaction entre perception visuelle et reconnaissance d'objets).

De plus, le modèle ITPC prend en compte la nature active et constructive de la compréhension et de l'apprentissage. Il fournit un cadre pour analyser la compréhension des textes et des images, permettant ainsi d'expliquer une large variété de résultats empiriques.

Empirical evidence

Positive effects of combining text and pictures

Reading skills and prior knowledge

Redundancy

Coherence and contiguity

Dynamics of text-picture integration

Modality

Possible interference effects of combining texts and pictures

Sequencing

Verbal redundancy across modalities

Structure mapping

Neuropsychological disorders in multimedia comprehension

Cognitive economy

Instructional implications

Limitations of the integrated model and directions for future research