Nous enseignons aux jeunes à écrire. À l'ère de l'IA, nous devons leur apprendre à voir

Par TJ Thomson, Daniel Pfurtscheller, Katharina Christ, Katharina Lobinger, Nataliia Laba, la conversation

Dès la première année d'école, les enfants commencent à apprendre à exprimer des idées de différentes manières. Les lignes à travers une page, une lettre bancale ou un dessin simple forment la base de la façon dont nous partageons le sens au-delà de la langue parlée.

Au fil du temps, ces premières marques évoluent en idées complexes. Les enfants apprennent à combiner des mots avec des visuels, à exprimer des concepts abstraits et à reconnaître comment les images, les symboles et le design ont un sens dans différentes situations.

Mais l'intelligence artificielle générative (IA), un logiciel qui crée du contenu basé sur des invites d'utilisateurs, remodèle ces compétences fondamentales. L'IA change la façon dont les gens créent, éditent et présentent à la fois du texte et des images. En d'autres termes, cela change la façon dont nous voyons – et comment nous décidons de ce qui est réel.

Prenez des photos, par exemple. Ils étaient autrefois considérés comme un « miroir » de la réalité. Maintenant, plus de gens reconnaissent leur nature construite.

De même, l'IA génératrice perturbe les hypothèses de longue date sur l'authenticité des images. Ceux-ci peuvent apparaître photoréaliste mais peuvent représenter des choses ou des événements qui n'ont jamais existé.

Nos dernières recherches, publiées dans le Journal of Visual Literacy, identifie les littératies clés à chaque étape du processus de génération d'images d'IA, de la sélection d'un générateur d'images d'IA à la création et à la raffinement du contenu.

À mesure que la façon dont les gens apportent des images changent, savoir comment fonctionne l'IA génératrice vous permettra de mieux comprendre et évaluer de manière critique ses résultats.

Liphérique textuelle et visuelle

L'alphabétisation s'étend aujourd'hui au-delà de la lecture et de l'écriture. Le programme d'études australien définit l'alphabétisation comme la capacité «d'utiliser la langue en toute confiance pour apprendre et communiquer à l'école et hors de l'école». L'Union européenne élargit cela pour inclure la navigation sur les matériaux visuels, audio et numériques. Ce sont des compétences essentielles non seulement à l'école, mais pour la citoyenneté active.

Ces capacités s'étendent sur le sens, la communication et la création par des mots, des visuels et d'autres formes. Ces capacités nécessitent également d'adapter l'expression à différents publics. Vous pouvez envoyer un SMS à un ami de manière informelle, mais envoyez un e-mail à un fonctionnaire avec plus de soins, par exemple. Les ordinateurs exigent également différentes formes d'alphabétisation.

Dans les années 1960, les utilisateurs ont interagi avec des ordinateurs via des commandes écrites. Dans les années 1970, des éléments graphiques comme les icônes et les menus ont émergé, ce qui rend l'interaction plus visuelle.

L'IA générative est souvent un mélange entre ces deux approches. Certaines technologies, comme Chatgpt, comptent sur des invites de texte. D'autres, comme Adobe d'Adobe, utilisent à la fois les commandes de texte et les commandes de bouton.

Le logiciel interprète ou devine souvent l'intention des utilisateurs. Cela est particulièrement vrai pour les invites minimalistes, comme un seul mot ou même un emoji. Lorsque ceux-ci sont utilisés pour les invites, le système d'IA renvoie souvent une représentation stéréotypée en fonction de ses données de formation ou de la façon dont elle a été programmée.

Être plus précis dans votre invite aide à arriver à un résultat plus aligné sur ce que vous envisagez. Cela souligne que nous avons besoin de littératies «multimodales»: connaissances et compétences qui coupent les modes d'écriture et visuels.

Quelles sont les littératies clés dans la génération d'IA?

L'une des premières litcaes génératrices de l'IA est de savoir quel système utiliser.

Certains sont gratuits. D'autres sont payés. Certains peuvent être gratuits mais construits sur des ensembles de données contraires à l'éthique. Certains ont été formés sur des ensembles de données particuliers qui rendent les sorties plus représentatives ou moins risquées du point de vue de la violation du droit d'auteur. Certains prennent en charge une gamme plus large d'entrées, y compris des images, des documents, des feuilles de calcul et d'autres fichiers. D'autres pourraient prendre en charge les entrées en texte uniquement.

Après avoir sélectionné un générateur d'images, vous devez être en mesure de travailler avec lui de manière productive.

Si vous essayez de faire une image carrée pour un message Instagram, vous avez de la chance. En effet, de nombreux systèmes d'IA produisent des images avec une orientation carrée par défaut. Mais que se passe-t-il si vous avez besoin d'une image horizontale ou verticale? Vous devrez demander cela ou savoir comment modifier ce paramètre.

Et si vous voulez du texte inclus dans votre image? L'IA a toujours du mal à rendre du texte, de la même manière que la façon dont les premiers systèmes d'IA ont eu du mal à représenter avec précision les doigts et les oreilles humains. Dans ces cas, vous pourriez mieux ajouter du texte dans un logiciel différent, comme Canva ou Adobe InDesign.

De nombreux systèmes d'IA créent également des images qui manquent de contexte culturel spécifique. Cela les permet d'être facilement utilisés dans des contextes plus larges. Pourtant, cela pourrait réduire l'attrait émotionnel ou l'engagement parmi les publics qui perçoivent ces images comme inauthentiques.

Travailler avec l'IA est une cible en mouvement

L'apprentissage de l'IA signifie suivre le rythme avec un changement constant. Les nouveaux produits d'IA génératifs apparaissent régulièrement, tandis que les plates-formes existantes évoluent rapidement.

Plus tôt cette année, Openai a intégré la génération d'images dans Chatgpt et Tiktok a lancé son outil AI Alive pour animer les photos. Pendant ce temps, la vidéo cinématographique VEO 3 de Google avec des utilisateurs de Canva de Google, et MidJourney ont introduit des sorties vidéo.

Ces exemples montrent où les choses vont. Les utilisateurs pourront créer et modifier du texte, des images, du son et de la vidéo en un seul endroit plutôt que d'avoir à utiliser des outils distincts pour chacun.

La construction de littératies multimodales signifie développer les compétences pour adapter, évaluer et co-créer à mesure que la technologie évolue.

Si vous voulez commencer à construire ces littératies maintenant, commencez par quelques questions simples.

Qu'est-ce que je veux que mon public voie ou comprenne? Dois-je utiliser l'IA pour créer ce contenu? Quelle est la production de l'outil d'IA et comment puis-je façonner le résultat?

L'approche d'une IA générative visuelle avec curiosité, mais aussi de la pensée critique est la première étape vers la compétence pour utiliser ces technologies intentionnellement et efficacement. Cela peut nous aider à raconter des histoires visuelles qui portent des valeurs humaines plutôt que de machines.