OpenAI renforce la sécurité dans ChatGPT contre l'injection rapide

OpenAI annonce un renforcement significatif des protections de sécurité pour ChatGPT, en introduisant un mode de blocage et de nouvelles étiquettes cohérentes « à haut risque ».

À mesure que la complexité des systèmes d’intelligence artificielle augmente – en particulier lorsqu’ils interagissent avec le Web et les applications connectées – de nouvelles vulnérabilités apparaissent. Parmi celles-ci, l’une des plus pertinentes est l’injection rapide, une technique avec laquelle un attaquant tente de manipuler un système conversationnel pour obtenir des données sensibles ou l’inciter à exécuter des instructions malveillantes.

OpenAI intervient avec deux outils distincts mais complémentaires :

un paramètre de sécurité avancé destiné aux utilisateurs les plus exposés
un système d’étiquetage plus clair sur les risques liés à certaines fonctionnalités.

Mode blocage : protection améliorée pour les utilisateurs à haut risque

Le mode blocage est un paramètre facultatif conçu pour un public limité : les dirigeants, les équipes de sécurité et les responsables opérationnels des organisations clés, potentiellement la cible d'attaques sophistiquées. Il n'est pas destiné à la plupart des utilisateurs.

Lorsqu'il est activé, le mode de blocage limite de manière déterministe la façon dont ChatGPT peut interagir avec les systèmes externes. L’objectif est de réduire considérablement le risque d’exfiltration de données grâce à des injections rapides.

Par exemple, la navigation Web se limite au contenu mis en cache : aucune requête en temps réel ne quitte le réseau contrôlé par OpenAI. Certaines fonctionnalités sont complètement désactivées si de solides protections déterministes de sécurité des données ne peuvent pas être garanties.

Ce nouveau paramètre s'ajoute aux protections existantes au niveau du modèle, du produit et du système, notamment le sandboxing, les défenses contre l'exfiltration d'URL, la surveillance continue, les contrôles d'entreprise avec accès basé sur les rôles et les journaux d'audit.

Disponibilité pour les plans d'entreprise et le contrôle administratif

Le mode verrouillage est disponible pour :

ChatGPT Entreprise
ChatGPT Édu
ChatGPT pour les soins de santé
ChatGPT pour les enseignants

Les administrateurs peuvent l'activer à partir des paramètres de l'espace de travail en créant des rôles dédiés. Une fois actif, le mode applique des restrictions supplémentaires au-delà des politiques administratives standard.

Les administrateurs maintiennent également un contrôle granulaire sur les applications connectées : ils peuvent décider quelles applications et quelles actions spécifiques restent disponibles pour les utilisateurs en mode Blocage. En parallèle, la plateforme de journalisation de l'API de conformité offre une visibilité détaillée sur l'utilisation des applications et les données partagées.

OpenAI prévoit d'étendre le mode de blocage aux consommateurs dans les mois à venir.

Labels « risque élevé » : plus de transparence pour les utilisateurs

Parallèlement au mode de blocage, OpenAI introduit un système uniforme d'étiquetage des fonctionnalités potentiellement les plus exposées au risque. Certaines fonctionnalités de ChatGPT Atlas et Codex seront désormais marquées « à haut risque ».

L'objectif est d'offrir aux utilisateurs des conseils cohérents et compréhensibles partout où ils rencontrent ces fonctionnalités, en les encourageant à faire des choix éclairés, en particulier lorsqu'il s'agit de données privées ou d'accès au réseau.

Un exemple concerne Codex, l'assistant de programmation : les développeurs peuvent lui accorder un accès à Internet pour consulter de la documentation ou interagir avec des services externes. Le paramètre comprend désormais une étiquette visible « risque élevé », accompagnée d'une explication claire des changements opérationnels et des risques de sécurité potentiels.

Une approche dynamique de la sécurité

OpenAI souligne que l’étiquette « risque élevé » n’est pas permanente. À mesure que les mesures de sécurité seront renforcées et que les risques seront atténués de manière satisfaisante pour un usage général, l'étiquette sera supprimée.

La société continuera également à mettre à jour la liste des fonctionnalités signalées au fil du temps, afin de garantir une communication transparente et adaptée à l'évolution des cybermenaces.

Avec ces initiatives, OpenAI confirme une démarche proactive : protéger les utilisateurs les plus exposés, sensibiliser aux risques et renforcer le contrôle des interactions entre l’intelligence artificielle, le web et les systèmes externes.

Une plus grande maturité dans la gestion des risques liés à l’IA connectée au web.

Les nouvelles mesures introduites par OpenAI représentent une étape significative vers une plus grande maturité dans la gestion des risques liés à l’IA connectée au web. Le mode blocage de ChatGPT signale une prise de conscience que les menaces, comme l’injection rapide, ne sont plus des scénarios théoriques mais des risques opérationnels concrets, notamment pour les organisations sensibles.

L’approche déterministe – avec des limites techniques claires et vérifiables – apparaît particulièrement robuste : au lieu de s’appuyer uniquement sur des filtres « intelligents », OpenAI introduit des barrières structurelles qui réduisent la surface d’attaque. C'est un choix qui donne la priorité à la sécurité plutôt qu'à une flexibilité maximale, du moins pour les utilisateurs à haut risque.

Même les labels « à haut risque » témoignent d’un changement culturel important : une plus grande transparence et une plus grande responsabilisation des utilisateurs. Cependant, une question cruciale reste ouverte. Étiqueter un risque ne signifie pas le résoudre : beaucoup dépendra de la compréhension des explications et de la capacité des utilisateurs – en particulier dans l'environnement de l'entreprise – à évaluer correctement les implications opérationnelles.

En résumé, les innovations renforcent l’architecture de sécurité et la communication sur les risques, mais transfèrent également une partie de la responsabilité décisionnelle aux utilisateurs et aux administrateurs. Le véritable test sera l’équilibre entre protection, convivialité et confiance à long terme.