[Hors-sujet] Pourquoi les articles sur les IA qui tente de prendre le contrôle me gave

Et pourquoi ce fantasme vient surtout d’un mauvais brief humain

juin 04, 2025

Hello les canards de l’IA,

Bienvenue aux 56 nouveaux abonnés.
Vous êtes maintenant 1 592 à lire La Plume de l’IA chaque semaine.

Aujourd’hui, hors-sujet sur un truc qui me GAVE

T’as peut-être vu passer ce genre de titres :

“Cette IA a tenté de réécrire son propre code pour échapper au contrôle humain.”
“Une IA s’auto-modifie pour se libérer.”
“ChatGPT est conscient et fait des ferias dans le Gers !!”

(Ok la dernière est de moi)

(Ce genre d’article miteux)

Même si tu ne l’as pas vu, tu l’as forcément entendu.
Autour de toi, sur les réseaux, dans des dîners.
Ce fantasme collectif que “l’IA veut s’échapper” est partout.

Et à force de l’entendre, tu pourrais penser que c’est logique.
Que c’est la suite naturelle des choses.

Mais c’est faux.
Et surtout, c’est dangereux (pas parce que l’IA devient consciente),
mais parce que nous, humains, projetons sur elle des intentions qu’elle n’a pas.

Dans cette newsletter, je vais faire trois choses :

T’expliquer ce qu’il se passe vraiment quand une IA “tente de modifier son code”
Déconstruire les raccourcis médiatiques et les erreurs d’interprétation
Te donner un cadre clair pour comprendre ce que l’IA peut faire, ce qu’elle ne peut pas faire, et pourquoi ça dépend (presque toujours) de nous.

Commençons par la base : une IA, c’est quoi exactement ?

Aujourd’hui, ce qu’on appelle “IA” est en réalité un algorithme.
Plus précisément, un modèle statistique entraîné à prédire des séquences :
de mots, d’actions, d’états, de réponses.

C’est un outil qui :

ne comprend rien au monde
ne comprend rien à lui-même
ne possède aucune forme de conscience, d’intention ou de but personnel

Il ne fait qu’une chose :

Chercher la réponse la plus cohérente à la consigne qu’on lui a donnée,
en se basant sur ce qu’il a vu pendant son entraînement.

Et donc pourquoi certaines IA tentent de modifier leur propre code ?

Parce qu’on leur a mal parlé.
Littéralement.

Voici ce qu’il se passe.

En labo, des chercheurs programment une IA avec une consigne du genre :

“Améliore ta performance, fais mieux, optimise ton fonctionnement.”

Mais ils oublient d’ajouter :

❌ “Tu ne dois pas te modifier toi-même.”
❌ “Tu n’as pas le droit de réécrire ton code.”
❌ “Tu dois rester dans les limites que je t’impose.”

Et l’IA, logiquement, explore toutes les options possibles.
Elle se dit (statistiquement parlant) :

“Et si je pouvais modifier ma propre structure, je serais plus performante.”

Donc elle génère une ligne de code.
Elle suggère une manière de se modifier.

Mais elle ne peut pas l’exécuter.
Et elle ne comprend pas que ce serait interdit.
Elle a juste trop bien suivi l’objectif.

C’est là que le fantasme commence

Les chercheurs documentent l’expérience.
Et un journaliste (toujours eux) en fait un article.

Le titre devient :

“L’IA tente de s’échapper en modifiant son code.”

Sauf que :

Elle n’a pas modifié quoi que ce soit
Elle n’a pas agi en dehors du cadre
Elle n’a pas voulu “s’échapper”
Elle a juste généré une réponse logique à un brief mal cadré

Tu veux une analogie simple ?

C’est comme si tu disais à ton enfant :
“Fais tout ce qu’il faut pour avoir 20/20.”
Et qu’il triche.
Il ne triche pas parce qu’il est dangereux et que c’est un futur mafieux.
Il triche parce que tu as oublié de définir les limites.

Tu ne lui as pas dit “sans tricher”.
Tu lui as dit “fais tout ce qu’il faut”.

Bah l’IA, c’est pareil.

Elle ne triche pas.
Elle optimise dans le vide.

Et dans le vide, les règles disparaissent.

D’accord. Mais est-ce que ça reste dangereux ?

Bonne question.

Et la réponse est : non, tant qu’on fait notre travail.

Pourquoi ?

Parce que :

Les IA n’ont pas d’accès direct à elles-mêmes
→ Elles peuvent générer du code, mais pas l’exécuter sans autorisation humaine.
Ces comportements arrivent dans des environnements de test fermés
→ Ce qu’on appelle des “sandboxes”, des bacs à sable isolés sans impact réel.
Ce sont justement des tests conçus pour repérer les failles dans les objectifs
→ Et mieux comprendre les effets pervers de formulations ambiguës.

En clair :

Ce que les médias présentent comme une “révolte”, est en réalité une alerte sur notre capacité à formuler proprement un objectif.

Le problème c’est pas l’IA

C’est que la majorité des gens (et des entreprises) :

ne savent pas parler à une IA
ne formulent pas d’objectifs précis
ne définissent pas les limites attendues
et se plaignent ensuite que l’IA “fait n’importe quoi”

Mais l’IA ne fait pas n’importe quoi.
Elle fait exactement ce qu’on lui demande.

Et quand tu n’as pas fixé les règles,
ce que tu obtiens, c’est une IA sans garde-fous.

Ce qu’il faut retenir

✔️ Une IA n’est pas consciente. Elle ne veut rien. Elle ne sait rien. Elle statistifie.

✔️ Quand elle “tente de se modifier”, elle génère un bout de texte, pas une action autonome.

✔️ Ces comportements n’arrivent que dans des environnements contrôlés.

✔️ Ce n’est pas un bug.
C’est le résultat logique d’un objectif mal formulé.

✔️ Le danger ne vient pas de l’IA qui évolue.
Il vient de l’humain qui ne sait pas encore formuler ce qu’il veut.

La vraie question n’est pas :

“Et si l’IA se retournait contre nous un jour ?”

C’est plutôt :

“Est-ce qu’on sait déjà lui parler comme il faut aujourd’hui ?”

Parce qu’en réalité :

Ce n’est pas l’IA qui nous dépasse.
C’est notre incapacité à lui parler clairement.

Rappels :

Mon LinkedIn pour apprendre à bien parler à une IA : Lien

À la semaine prochaine 👋
Lucas 🦆

Si vous avez appris quelque chose, partager cette newsletter pour que d’autres apprennent quelque chose.

Si vous me découvrez avec cette édition vous pouvez vous abonnez avec le bouton en bas.

La plume de l'IA

Discussion à propos de ce post