Good Hacks & Bad Hacks :
quand l’IA protège votre agentivité, au lieu de la consommer.
Un position paper pour fondateurs, décideurs et praticiens qui veulent une IA alignée sur le cerveau humain, pas sur le temps d’écran.
Reward Gaming vs Reward Stewardship
Pourquoi ce texte ?
La plupart des systèmes actuels traitent le reward comme une vérité à maximiser : clics, temps passé, conversions, signaux de RLHF. Dans le cerveau humain, c’est exactement l’inverse : nos circuits de récompense (dopamine, plaisir, validation sociale) sont des proxies myopes, sculptés par l’évolution, que notre cortex passe son temps à corriger.
Nous savons faire des choses étranges pour un pur « maximiseur de dopamine » : aller en thérapie, nous imposer des limites, planifier sur 10 ans, quitter des environnements toxiques alors qu’ils offrent un reward immédiat. Autrement dit :
Le cerveau humain n’est pas qu’un moteur à plaisir. C’est un système qui apprend à hacker son propre reward pour protéger ce qui compte vraiment.
Ce paper part de cette intuition simple : si nous voulons une IA alignée, elle doit savoir faire la différence entre exploiter nos impulsions et protéger notre agentivité. D’où la distinction centrale : Good Hacks vs Bad Hacks.
Good Hacks vs Bad Hacks
Le paper formalise deux façons pour un système intelligent d’utiliser un signal de reward : Bad Hacks (Reward Gaming) et Good Hacks (Reward Stewardship).
Bad Hacks – Reward Gaming
Le système exploite un proxy (clics, engagement, impulsions) pour maximiser un métrique, au détriment de ce que la personne voudrait vraiment sur le moyen / long terme.
- Côté humain : addictions, doomscrolling, procrastination « intelligente ».
- Côté IA : algorithmes qui optimisent l’indignation, la polarisation ou la compulsion.
Good Hacks – Reward Stewardship
Le système accepte de perdre du reward local (moins de clics, moins de confort immédiat) pour réduire le regret futur et respecter les méta-préférences déclarées par l’utilisateur.
- Côté humain : thérapie, sport, limites d’écran, décisions difficiles assumées.
- Côté IA : assistant qui introduit une friction volontaire là où vous regrettez systématiquement vos choix.
De l’IA d’engagement à la prothèse d’agentivité
Une IA alignée ne se comporte pas comme un « dopamine maximizer », mais comme une prothèse de cortex : elle protège vos engagements réfléchis contre vos boucles d’impulsions, au lieu de les exploiter.
Le paper propose un langage précis pour auditer vos produits : « Ici, sommes-nous en train de faire un Good Hack… ou un Bad Hack ? »
Une stack neuro-cognitive simple
Pour rendre la discussion concrète, le paper introduit une stack à 4 niveaux côté humain, mise en parallèle avec une stack à 3 niveaux côté IA.
Côté humain- Vevo : ce que l’évolution « optimise » (fitness), jamais représenté consciemment.
- R : systèmes de récompense (plaisir, douleur, validation sociale) – rapides, myopes.
- Phum : préférences intuitives et habitudes – ce que nous faisons par défaut.
- Phum* : méta-préférences réfléchies – la personne que nous voulons devenir.
- RAI : reward / loss (clics, engagement, labels de préférence).
- PM : politique effective du modèle – son comportement en pratique.
- PM* : couche « constitutionnelle » qui critique RAI et PM à la lumière d’intentions plus stables (contrat utilisateur, règles, garde-fous).
C’est sur cette symétrie que le paper construit une architecture de Prosthetic Agency : explicitation des méta-préférences, modèle critique, et friction constructive.
Pour qui est-ce utile ?
Ce paper est pensé comme une pièce de travail, pas comme un simple article de blog.
Fondateurs & product teams
Vous construisez un assistant, un agent, un navigateur IA, et vous ne voulez pas recréer un « nouveau réseau social déguisé ». Le cadre Good/Bad Hacks vous aide à aligner métriques produit et intégrité cognitive utilisateur.
Dirigeants & décideurs
Vous devez déployer l’IA sans sacrifier la qualité de décision, l’attention et la lucidité des équipes. Le paper donne un vocabulaire pour parler d’agentivité, pas seulement d’« adoption ».
Recherche & alignment
Vous travaillez sur préférence, Goodhart, manipulation et DR-MDPs. Le texte propose un pont entre neurosciences, méta-préférences et architectures d’IA constitutionnelle centrées sur l’agentivité.
L’auteur
Paulin REBOUL
J’aide les organisations à intégrer l’IA sans perdre ce qui fait la valeur rare : l’agentivité humaine, l’esprit critique, la qualité de décision.
Avec un Master en Sciences Cognitives et une pratique terrain auprès de TPE/PME, startups et acteurs de la formation, je conçois des cadres où l’IA est pensée comme prothèse d’intelligence, pas comme substitut opaque.
Ce paper est une première brique : un langage commun pour parler de récompense, de méta-préférences et de systèmes qui protègent notre cerveau au lieu de le rentabiliser.
Télécharger le paper & ouvrir la discussion
Vous voulez auditer un produit, challenger un design d’agent ou réfléchir à un modèle économique d’Agency-as-a-Service ? Le paper est un point de départ, pas un point final.
Disponible en anglais – n’hésitez pas à me contacter pour une présentation adaptée à votre équipe.
