Integrated Model of Text and Picture Comprehension (ITPC)
Schnotz, W. (2021). Integrated Model of Text and Picture Comprehension. In R. E. Mayer & L. Fiorella (Eds.), The Cambridge Handbook of Multimedia Learning (pp. 82–99). chapter, Cambridge: Cambridge University Press.
Introduction
Au niveau cognitif, le multimédia implique l'usage de plusieurs canaux (la plupart du temps, auditif et visuel). Il existe plusieurs types d'appentissage multimédia (e.g. book based, mix d'oralité et de présentation de schémas, cartes, etc.)
Le chapitre va parler de :
- Représentations internes et externes
- Comment l'apprentissage est "limité" par notre architecture cognitive
- L'intégration des principes précédents dans un modèle intégré de compréhension "texte-image"
- Quelques études empiriques
- Les conséquences pour l'apprentissage
- Les limites du modèle et les directions pour de futures recherches
External and internal representations
Forms of representation
Il présente deux formes de représentations:
- Descriptive representation: ce sont des symboles qui n'ont pas de similarité avec leur référent (e.g. le mot "oiseau" n'a pas de similarité avec un vrai oiseau)
- Depictive representation: ce sont des "icones" ; elles ont un lien avec leur référent (par exemple, les photos, les cartes, une maquette)
Les représentations descriptives et dépictives n'ont pas le même but. Le descriptif permet de faire référence à des catégories (e.g. "mammifères"), ce que ne peut pas faire le dépictif. En revanche, le dépictif est bien plus "informationnaly complete": une photo permet de montrer plus de choses quant à la forme, la position, la taille, etc.
Mental representations

Lors de la lecture d'un texte, nous construisons 3 types de représentations:
- Text surface representation: ce n'est pas encore apparenté à de la compréhension, mais elle permet la répétietion et mène au niveau suivant
- Propositional representation: c'est une compréhension des idées en faisant abstraction de la construction grammaticale du contenu
- Mental model: une nouvelle représentation mentale de ce qui a été présenté
Ce processus (i.e. la construction de modèles mentaux) existe aussi pour des éléments visuels.
Schnotz considère qu'il existe aussi une différence descriptive/depictive dans les représentations mentales: la text-surface representation et la propositional representation sont descriptives, là ou l'image et le Mental Model sont dépictives (à la différence près que l'image est sensory-specific, là ou le modèle mental est lié à des représentations visuelles, auditives, du toucher, etc.). Aussi, le modèle mental permet aussi d'ajouter des informations venant des connaissances préalables qui étaient absentes de l'image initiale.
Schnotz et Bannert (2003) ont proposé un modèle pour l'analyse des représentations des images et des textes. Il a une branche descriptive (c.f. image, à gauche) et dépictive (c.f. image, à droite)
Cognitive architecture for text and picture comprehension
Sensory registers
Les informations captées par l'oeil sont stockées un très court moment (~1 sec) dans le registre visuel (il en va de même pour les informations captées par les oreilles (~3 sec)). Si l'attention est dirigée vers une information stockée dans le registre visuel, elle est transmise dans la mémoire de travail visuelle (idem pour l'information auditive).
Working memory
Selon Baddeley (1986), la mémoire de travail consiste en un "centre exécutif" et plusieurs sous-systèmes (pour le stockage de l'information). Les deux plus étudiés sont:
- La mémoire de travail auditive: elle est conçue comme une boucle phonologique-articulatoire ; elle a une capacité limitée, correspondant à ce qui peut être dit en ~2 secondes. Les textes parlés activent des patterns lexicaux, là ou des sons non-verbaux activent des représentations perceptuelles acoustiques.
- Mémoire de travail visuelle : elle fait référence au calepin visuo-spatial. Il a une capacité moyenne de 5 unités. Les textes activent des patterns graphémiques lexicaux ; les images activent des patterns visuo-spatiaux.
Dans la compréhension textes/images, la WM ne process pas que des informations perceptuelles, mais aussi des éléments de "plus haut niveau" amenant à des représentations mentales. Ils supposent que c'est lié à un sous-système spécifique: le système dédié à la création de représentations composées de propositions. Il ne peut traiter simultanément qu'un nombre limité de propositions simultanément dans la mémoire de travail.
Finalement, ils supposent un sous-système dédié à la construction de modèles mentaux dans la mémoire de travail. Il fait l'association entre des éléments perçus et les connaissances préalables (en mémoire à long-terme). Ce modèle est très dépendant de la reconnaissance des objets.
Il considère (sans preuve c.f. p.87) que la construction de modèle mentaux semblent plutôt être liés au spatial processing qu'au visual processing.
Long-term memory
La compréhension de texte et d'images dépend aussi des connaissances préalables stockées dans la mémoire à long-terme. Elle inclut notamment la :
- lexical knowledge: elle est stockée dans le mental lexicon, lui-même composé du phonological lexicon ou auditory lexicon (qui concerne la reconnaissance de la sonorité des mots) et du graphemic lexicon ou visual lexicon, ou encore orthographic lexicon (dédié à la reconnaissance des mots écrits)
- perceptual world knowledge: il est lié à l'apparence des objets (e.g. à quoi ressemblent différents oiseaux)
- cognitive world knowledge: il fait référence aux relations internes à un domaine (e.g. l'élevage des oiseaux et les conditions météorologiques au fil des saisons) ainsi que l'appartenance d'un élément à une catégorie. Il est important pour la propositional representation et la construction de modèles mentaux dans la mémoire de travail.
Integrated comprehension of text and pictures

Il propose l'ITPC model (integrative model of text and picture comprehension) ; il intègre plusieurs modèle issus des sciences cognitives (dual coding, multiple memory systems, computational vision, etc.), des neurosciences, et il est lié aux modèles de text and picture comprehension de Schnotz et Bannert, ainsi qu'à la CTML de Mayer.
Il est basé sur les suppositions suivantes:
- La compréhension de textes et d'images prend place dans une architecture avec des registres sensoriels spécifiques à des modalités , une mémoire de travail avec une capacité limitée et une mémoire à long-terme
- Les informations verbales et picturales (incluant les images et les sons non-verbaux) sont transmises à travers des canaux visuels et auditifs. Ils ont une capacité limitée.
- Le semantic processing prend place dans deux sous-systèmes (depictive & descriptive). Les images et les sons sont d'abord traités via le sous-système dépictif (via l'object recognition et la structure mapping) puis ils sont traités dans le sous-système descriptif qui mènera ensuite aux propositional representations.
- La compréhension de textes et d'images est sont des processus actifs de création de cohérence. On cherche à rendre cohérent ce qui vient des sources externes (textes, images) et internes (connaissances préalables).
Types of comprehension
L'ITPC distingue le traitement de surface (qui fait passer l'information en mémoire de travail) du traitement profond (qui se fait dans la mémoire de travail et qui résulte en des propositional representations et des modèles mentaux) ainsi que des échanges entre la mémoire de travail et la mémoire à long-terme.
Listening comprehension
L'information auditive pénètre par l'oreille et subit une analyse phonologique, ce qui permet l'identification des phonèmes et des schémas lexicaux. Ce processus mène à la représentation propositionnelle qui déclenche la construction d'un modèle mental.
Reading comprehension
La compréhension d'un texte écrit commence par l'entrée de l'information verbale visuelle dans le registre visuel, où une analyse graphémique identifie les graphèmes. Ce traitement aboutit à une représentation propositionnelle qui active un modèle mental.
Les lecteurs non expérimentés, utilisent des règles de conversion graphème-phonème pour décoder le texte écrit, ce qui peut rendre leur compréhension laborieuse. En revanche, les lecteurs compétents activent des schémas lexicaux graphémiques sans nécessiter de conversion phonologique, bien qu'ils puissent encore effectuer une conversion lexicale au niveau du mot, qui est non sémantique et permet de reconnaître des mots sans en connaître la signification.
Lorsque des mots écrits familiers sont reconnus, les schémas lexicaux graphémiques activent également des schémas phonologiques qui permettent de prononcer ces mots, que ce soit à haute voix ou sous forme de discours intérieur. Ce processus alimente l'analyse phonologique et active des schémas lexicaux phonologiques, essentiels pour les analyses syntaxiques, car des anomalies dans les phrases sont plus facilement détectées lorsque le discours intérieur est présent, illustrant ainsi que la conversion des schémas graphémiques en phonologiques est cruciale pour le traitement syntaxique.
Visual picture comprehension
Lorsque l'information visuelle d'une image est comprise, elle entre dans le registre visuel et subit une analyse des caractéristiques visuelles, créant des représentations perceptuelles dans la mémoire de travail. Après un traitement supplémentaire qui active des unités de reconnaissance d'objets, un modèle mental est construit, permettant d'inspecter des informations nouvelles. Par exemple, le cas d'une carte de la migration des oiseaux en Europe, où des connaissances préalables en géographie enrichissent la représentation et facilitent la lecture d'informations supplémentaires.
Sound comprehension
Lorsque un son est compris, l'information auditive pénètre par l'oreille et subit une analyse des caractéristiques acoustiques, créant des représentations perceptuelles dans la mémoire de travail. Grâce à un traitement supplémentaire et à la reconnaissance d'objets, un modèle mental est élaboré, permettant d'interpréter de nouvelles informations (p.ex.: reconnaître le cri d'un rapace et celui d'un petit oiseau permet d'éventuellement reconnaître un scénario prédateur-proie).
Complementarity of text and picture comprehension
La compréhension d'images permet un accès plus direct à la construction de modèles mentaux par rapport à celle des textes, car les images sont traitées immédiatement par le sous-système dépictif, tandis que les textes passent d'abord par le sous-système descriptif. La compréhension des textes et des images se complète de plusieurs manières, notamment en présentant des informations spécifiques dans chaque format. Elles peuvent également s'influencer mutuellement, les images précisant le sens d'un texte et les textes fournissant une orientation conceptuelle pour le traitement des images, leur complémentarité étant principalement due à leurs principes de représentation fondamentalement différents et à leurs fonctions distinctes.
Les textes, en raison de leur structure linéaire, offrent une meilleure guidance conceptuelle à la compréhension, mais sont moins adaptés pour rechercher des informations spécifiques. En revanche, les images permettent un accès plus facile à des informations particulières, même si leur contenu sémantique est moins clairement défini.
Les différentes fonctions conduisent à une interaction spécifique entre le texte et l'image au cours des différentes phases de compréhension. Lors de la construction d'un modèle mental initial, les textes sont principalement utilisés en raison de leur guidance conceptuelle explicite, tandis que des regards brefs sur les images aident à saisir rapidement la structure globale du sujet. Cependant, lorsque des tâches spécifiques sont présentées, la mise à jour du modèle mental devient plus axée sur les images, car leur structure non linéaire permet un accès plus rapide et flexible à des informations précises.
Meaningful learning
Le "meaningful learning" à partir de textes et d'images nécessite un ensemble coordonné de processus cognitifs, notamment la sélection et l'organisation de l'information, l'activation des connaissances antérieures et la formation active de la cohérence en intégrant des informations provenant de différentes sources. Que ce soit pour des textes écrits, des images ou des sons, l'apprenant sélectionne les informations pertinentes, les organise, active ses connaissances antérieures et construit un modèle mental cohérent, accompagné d'une représentation propositionnelle.
Le modèle ITPC s'inscrit dans un cadre plus large de la cognition humaine, englobant divers concepts, tels que :
- des idées issues de la recherche sur la mémoire et l'architecture cognitive humaine (y compris les différents systèmes de mémoire) ;
- des notions issues de la sémiotique (comme la distinction symboles/icônes) ;
- des éléments de la recherche sur le traitement des textes (différenciation entre représentations de surface, représentations propositionnelles et modèles mentaux) ;
- des concepts issus de la recherche sur le traitement des images (distinction entre perception visuelle, imagerie et modèles mentaux) ;
- des principes de la neuropsychologie cognitive (concernant l'interaction entre perception visuelle et reconnaissance d'objets).
De plus, le modèle ITPC prend en compte la nature active et constructive de la compréhension et de l'apprentissage. Il fournit un cadre pour analyser la compréhension des textes et des images, permettant ainsi d'expliquer une large variété de résultats empiriques.
Empirical evidence
Pour un modèle valide, l'ITPC est sensé être capable de repérer les conditions dans lesquels la combinaison texte-image améliore l'apprentissage, ou au contraire, le détériore (notamment en comparant avec la condition texte et image seuls).
Positive effects of combining text and pictures
C'est ce que Mayer appelle "l'effet multimedia"
Reading skills and prior knowledge
L'ITPC prédit que les mauvais·e·s lecteur·trice·s profitent plus des illustrations dans un texte que les bon·ne·s lecteur·trice·s. Pour l'ITPC, les images peuvent partiellement être utilisées à la place du texte (et vice versa).
L'ITPC prédit que si l'apprenant·e a peu de connaissances préalable, iel pourra bénéficier de l'image pour construire plus facilement ses modèles mentaux. Elle offre une "route" supplémentaire. Les élèves avec beaucoup de connaissances préalables, au contraire, construiront plus facilement un modèle mental sans images. Cette prédiction est appuyée par plusieurs études qui montrent que les élèves avec de faibles connaissances préalables bénéficient plus des images que celleux avec plus de connaissances.
Redundancy
Contrairement à la CTML, l'ITPC considère que la combinaison texte-image peut avoir des effets délétères sur l'apprentissage. Si une personne a de bonnes connaissances préalables, l'ajout de l'image (qui serait inutile en l'occurrence) à du texte peut générer un effet de "split attention" entre les deux source, ce qui peut être délétère pour l'apprentissage. C'est ce qu'on appelle le redundancy effect. Des études empiriques ont appuyé cette idée que les expert·e·s bénéficient d'une seule source d'information et ont baptisé cet effet "expert reversal effect".
Coherence and contiguity
Les gens apprennent mieux de la combinaison texte-image si les deux sont sont liés sémantiquement (principe de cohérence) et s'ils sont présentés proches dans l'espace et dans le temps (principe de contiguité). En effet, pour être efficace, il faut que les deux informations soient présentes simultanément dans la mémoire de travail.
Dynamics of text-picture integration
Images et textes peuvent être une source pour la construction de modèles mentaux. Cependant, elles n'ont pas exactement la même fonction dans le processus de compréhension: le texte est plus contraint que l'image, mais en même temps, il est sémantiquement mieux défini que l'image, et il est meilleur pour la "'conceptual guidance" pour la construction de modèles mentaux. L'image, ne dépendant pas d'un ordre de traitement pré-déterminé, permet un accès bien plus rapide à une information spécifique. En revanche, le contenu est moins bien défini sémantiquement.
Le modèle postule donc que lorsque une personne veut se faire un premier modèle mental, le traitement sera d'abord "text-driven" et de brefs regards sur l'image permet une consolidation. Par contre, s'il faut réaliser une tâche spécifique et qu'il faut mettre à jour son modèle mental, le traitement sera cette fois plutôt "picture-driven".
Ces points seraient appuyés par de la littérature utilisant de l'eye-tracking (Zhao, Schnotz, Wagner & Gaschler, 2020. En résumé, il semble que les textes guident l'analyse conceptuelle du lecteur en décrivant le sujet étape par étape, tandis que les images fonctionnent comme des outils cognitifs externes permettant de mettre à jour les modèles mentaux à la demande.
Modality
Lorsque une image est associée à un texte écrit, l'information doit transiter par la mémoire de travail via le registre visuel, ce qui limite le traitement simultané des deux types d'informations. Ce phénomène entraîne un besoin de navigation entre l'image et le texte, ce qui peut réduire la disponibilité conjointe de ces informations dans la mémoire de travail. La présentation rapprochée des images et du texte (contiguïté spatiale) réduit ces processus de recherche visuelle. Cela permet de minimiser la perte d'information due à la répartition de l'attention, facilitant ainsi une disponibilité quasi simultanée des informations picturales et verbales. En revanche, la combinaison d'une image avec un texte audio permet de traiter ces informations en même temps, évitant ainsi la séparation de l'attention et soutenant la théorie de l'effet de modalité, qui postule que cette approche maximise l'efficacité d'apprentissage.
L'effet de modalité est un dérivé de l'effet multimédia ; le but est de tirer un avantage maximal de la conjonction texte-image en maximisant la contiguité de l'information verbale et picturale, et en minimisant les obstacles découlant de la simultanéité de l'information picturale et verbale dans la mémoire de travail. Pour réaliser cela, le mieux est de transmettre l'information textuelle par le canal auditif, et l'information picturale par le visuel.
La source du phénomène de modalité reste peu claire, mais l'explication la plus répandue est l'évitement de l'attention divisée. Lorsque le texte écrit est associé à de l'animation, les apprenants risquent de manquer des informations picturales importantes. L'utilisation de texte parlé, en revanche, améliore la compréhension. Moreno et Mayer ont également montré que, même sans attention divisée, le texte parlé avec des images conduisait à un meilleur apprentissage que le texte écrit. Une autre explication réside dans l'engagement des mémoires visuelle et auditive. Cependant, le modèle ITPC conteste cette idée, affirmant que la mémoire auditive est impliquée dans la compréhension de tous les types de texte. Les recherches semblent montrer que même les lecture·trice·s expérimenté·e·s s'engagent dans une conversion de certains éléments de l'information visuelle vers l'information auditive. En outre, des recherches suggèrent que l'information acoustique peut être mieux retenue que l'information visuelle. Enfin, la compétence en lecture pourrait également influencer cet effet, car les personnes analphabètes comprennent mieux le langage oral associé aux images.
Possible interference effects of combining texts and pictures
Sequencing
Des recherches montrent que présenter une image avant le texte est plus efficace que l'inverse (Kulhavy, Stock, & Caterino, 1994). Le modèle ITPC explique cet effet de séquence par l'ambiguïté inhérente au texte, qui ne fournit souvent pas suffisamment de détails pour correspondre à une seule image ou modèle mental. Lorsque le modèle mental est uniquement basé sur le texte, il peut différer de l'image correspondante, entraînant une interférence si l'image est montrée après. Cette interférence est évitée lorsque l'image précède le texte, même avec un temps d'affichage bref. Eitel et ses collègues ont découvert qu'une image affichée pendant moins de deux secondes peut soutenir efficacement la construction de modèles mentaux. Cet avantage découle probablement de l'accès plus direct que les images offrent aux modèles mentaux grâce à un traitement pictural, contrairement au parcours plus long nécessaire pour comprendre le texte.
Verbal redundancy across modalities
Les concepteurs multimédias essaient de s'adapter aux préférences des apprenants en présentant des images avec du texte écrit et oral. Cependant, le modèle ITPC indique que l'apprentissage est plus efficace lorsque les images sont combinées uniquement avec du texte oral ou uniquement avec du texte écrit. Cette inefficacité est due à la difficulté d'ignorer un texte écrit lors de l'écoute et à des problèmes de synchronisation entre l'écoute et la lecture. Les lecteurs rapides risquent d'être distraits par la différence de rythme entre le texte écrit et oral. Des études montrent que ceux qui apprennent avec des images et du texte écrit et oral obtiennent de moins bons résultats que ceux qui utilisent uniquement du texte oral.
Structure mapping
Le même contenu peut être visualisé de différentes manières, et le modèle ITPC indique que la forme de visualisation est cruciale pour l'apprentissage. Contrairement à la théorie du double codage, qui favorise le codage verbal et pictural, pour l'IPTC, l'efficacité des images dépend de leur adéquation à la tâche. Cette prédiction découle de l'hypothèse que les images sont traitées dans le sous-système depitcive par structural mapping, impliquant que la forme de visualisation est mappée sur la structure du modèle mental. Les images ne sont bénéfiques que lorsqu'elles correspondent à la nature de la tâche ; sinon, elles peuvent nuire à l'apprentissage. Des études ont montré que des images formatées de manière appropriée améliorent la compréhension, tandis que des formats inappropriés interfèrent avec la construction des modèles mentaux nécessaires.
Neuropsychological disorders in multimedia comprehension
Les hypothèses du modèle ITPC sont soutenues par l'analyse des troubles chez des patients ayant des lésions cérébrales spécifiques. Les patients atteints d'agnosie visuelle ne peuvent reconnaître ni un objet ni son image, indiquant une connexion altérée entre la connaissance des objets et la vision, bien qu'ils puissent les identifier par le son. D'autres patients, bien qu'ayant une perception visuelle et une connaissance intactes des objets, ne peuvent pas relier ce qu'ils voient à leur mémoire visuelle, mais peuvent dessiner l'objet lorsqu'on leur donne son nom. Cela montre que la connexion entre le lexique mental et les unités de reconnaissance d'objets est conservée, tandis que la connexion entre ces unités et la perception visuelle est bloquée. Enfin, les patients atteints d'aphasie optique montrent une perception et une connaissance intactes, mais peinent à nommer les objets, ce qui entrave également leur capacité à les dessiner à partir de leur nom.
Cognitive economy
Le modèle ITPC offre un cadre pour examiner l'économie cognitive dans l'apprentissage à partir de représentations externes multiples, notamment des textes et des images. Bien que ces représentations facilitent la construction de modèles mentaux, elles entraînent également des coûts cognitifs. La compréhension de chaque représentation dépend de la facilité ou de la difficulté d'utiliser les canaux sensoriels et représentatifs concernés. À mesure que de nombreuses représentations sont traitées sur un même sujet, le gain de compréhension peut ne pas justifier les coûts cognitifs additionnels. Cela peut expliquer pourquoi les apprenants en auto-apprentissage tendent souvent à ignorer certaines sources d'information.
Instructional implications
Les conseils qui découlent de l'ITPC sont :
- Utilisation conditionnelle des multimédias : Combiner le texte avec des images pertinentes lorsque les apprenants ont peu de connaissances préalables mais une capacité cognitive suffisante.
- Cohérence texte-image : Utiliser des images uniquement lorsque leur lien sémantique avec le contenu du texte est clair.
- Contiguïté spatiale et temporelle : Présenter le texte écrit près de l'image, ou le texte parlé juste avant l'image pour faciliter la compréhension.
- Éviter les redondances : Ne pas combiner texte et images si les apprenants peuvent construire un modèle mental à partir d'une seule source d'information.
- Modalité de texte pour les images animées : Privilégier le texte parlé avec des animations afin d'éviter l'attention divisée.
- Modalité de texte pour les images statiques : Lorsque le temps d'apprentissage n'est pas limité, équilibrer les avantages du texte écrit et oral selon la complexité du contenu.
- Redondance verbale à travers les modalités : Éviter d'ajouter du texte écrit qui duplique le texte parlé accompagné d'images.
- Séquencement : Ne pas présenter un texte lié à une image avant que celle-ci ne soit visible par l'apprenant.
- Cartographie de structure : Choisir l'image la plus appropriée pour visualiser un sujet lorsqu'il peut être représenté de différentes manières équivalentes.
- Texte comme point d'entrée : Orienter d'abord l'attention des apprenants vers le texte pour éviter les distractions dues à des images complexes.
Limitations of the integrated model and directions for future research
L'ITPC, bien qu'il soit relativement complexe, simplifie considérablement les concepts, nécessitant ainsi un approfondissement. Il propose l'idée de plusieurs niveaux de représentations propositionnelles, allant de micro-propositions détaillées à des macro-propositions plus larges, et de différents niveaux de modèles mentaux, des aperçus généraux aux modèles plus détaillés. De plus, l'interaction entre les sous-systèmes descriptif et déictique pourrait se produire directement entre les propositions et les modèles mentaux, permettant la construction de modèles mentaux à partir d'entrées phonologiques ou graphémiques sans passer par des propositions. Des chemins plus directs peuvent également établir une proposition à partir de représentations visuelles, ce qui n'est pas représenté dans le schéma proposé.
Un autre aspect non pris en compte dans le modèle ITPC est que l'apprentissage à partir de textes et d'images nécessite non seulement une compréhension des informations verbales et picturales, mais aussi la connaissance de leur emplacement respectif. Dans des environnements multimédias, ces informations sont souvent dispersées dans un hyperspace complexe et non linéaire. Ainsi, l'apprenant doit construire non seulement un modèle mental du contenu d'apprentissage, mais également un modèle mental de cet hyperspace.
Il est nécessaire de mener davantage de recherches pour spécifier les effets de la combinaison de textes et d'images dans diverses conditions d'apprentissage. Les conditions externes, telles que la structure du texte, la cohérence entre le texte et l'image, ainsi que les contraintes de temps et les objectifs d'apprentissage, peuvent influer sur ces effets, tout comme des conditions internes comme les connaissances préalables et les préférences individuelles. Le modèle ITPC ne prend en compte que le traitement perceptif et cognitif des textes et des images d'instruction. En revanche, les images décoratives, même si elles n'apportent pas beaucoup d'informations, peuvent distraire l'apprenant. Toutefois, certaines études montrent que ces images peuvent améliorer l'humeur et la concentration, ce qui peut finalement favoriser l'apprentissage, en particulier chez les apprenants ayant peu de connaissances préalables. D'autres recherches sont nécessaires pour mieux comprendre ces relations.
Les recherches futures doivent également examiner les stratégies des apprenants pour sélectionner des informations verbales ou picturales pertinentes lors de la construction de modèles mentaux, en lien avec les objectifs d'apprentissage. L'efficacité des différentes voies pour construire des représentations mentales, en suivant le principe de l'économie cognitive, est essentielle pour l'apprentissage autodirigé. Des études devraient analyser les préférences individuelles pour le traitement d'informations verbales ou picturales, ainsi que les modalités visuelles ou auditives dans l'apprentissage multimédia. Le modèle ITPC de compréhension texte-image sert de cadre pour analyser l'apprentissage à partir de multiples représentations et vise à améliorer la prise de décisions en matière de conception pédagogique. Cependant, il devra être affiné pour éviter une simplification excessive des processus cognitifs complexes impliqués, notamment la distinction entre les lexiques graphiques et phonologiques.