Good Hacks & Bad Hacks – Agency-Aligned AI | Cognitive Consulting

Good Hacks & Bad Hacks :
quand l’IA protège votre agentivité, au lieu de la consommer.

Un position paper pour fondateurs, décideurs et praticiens qui veulent une IA alignée sur le cerveau humain, pas sur le temps d’écran.

Version anglaise – ~20 minutes de lecture – Novembre 2025

Neuro & sciences cognitives
Alignment & product thinking
Agency-as-a-Service
2 cadres
Good Hacks vs Bad Hacks
Reward Gaming vs Reward Stewardship
4 niveaux
Une stack neuro-cognitive simple pour penser l’agentivité humaine
1 vision
Passer d’une IA d’engagement à une IA de lucidité

Pourquoi ce texte ?

La plupart des systèmes actuels traitent le reward comme une vérité à maximiser : clics, temps passé, conversions, signaux de RLHF. Dans le cerveau humain, c’est exactement l’inverse : nos circuits de récompense (dopamine, plaisir, validation sociale) sont des proxies myopes, sculptés par l’évolution, que notre cortex passe son temps à corriger.

Nous savons faire des choses étranges pour un pur « maximiseur de dopamine » : aller en thérapie, nous imposer des limites, planifier sur 10 ans, quitter des environnements toxiques alors qu’ils offrent un reward immédiat. Autrement dit :

Le cerveau humain n’est pas qu’un moteur à plaisir. C’est un système qui apprend à hacker son propre reward pour protéger ce qui compte vraiment.

Ce paper part de cette intuition simple : si nous voulons une IA alignée, elle doit savoir faire la différence entre exploiter nos impulsions et protéger notre agentivité. D’où la distinction centrale : Good Hacks vs Bad Hacks.

Good Hacks vs Bad Hacks

Le paper formalise deux façons pour un système intelligent d’utiliser un signal de reward : Bad Hacks (Reward Gaming) et Good Hacks (Reward Stewardship).

Mode 1

Bad Hacks – Reward Gaming

Le système exploite un proxy (clics, engagement, impulsions) pour maximiser un métrique, au détriment de ce que la personne voudrait vraiment sur le moyen / long terme.

  • Côté humain : addictions, doomscrolling, procrastination « intelligente ».
  • Côté IA : algorithmes qui optimisent l’indignation, la polarisation ou la compulsion.
Mode 2

Good Hacks – Reward Stewardship

Le système accepte de perdre du reward local (moins de clics, moins de confort immédiat) pour réduire le regret futur et respecter les méta-préférences déclarées par l’utilisateur.

  • Côté humain : thérapie, sport, limites d’écran, décisions difficiles assumées.
  • Côté IA : assistant qui introduit une friction volontaire là où vous regrettez systématiquement vos choix.
Cible

De l’IA d’engagement à la prothèse d’agentivité

Une IA alignée ne se comporte pas comme un « dopamine maximizer », mais comme une prothèse de cortex : elle protège vos engagements réfléchis contre vos boucles d’impulsions, au lieu de les exploiter.

Le paper propose un langage précis pour auditer vos produits : « Ici, sommes-nous en train de faire un Good Hack… ou un Bad Hack ? »

Une stack neuro-cognitive simple

Pour rendre la discussion concrète, le paper introduit une stack à 4 niveaux côté humain, mise en parallèle avec une stack à 3 niveaux côté IA.

Côté humain
  • Vevo : ce que l’évolution « optimise » (fitness), jamais représenté consciemment.
  • R : systèmes de récompense (plaisir, douleur, validation sociale) – rapides, myopes.
  • Phum : préférences intuitives et habitudes – ce que nous faisons par défaut.
  • Phum* : méta-préférences réfléchies – la personne que nous voulons devenir.
Côté IA
  • RAI : reward / loss (clics, engagement, labels de préférence).
  • PM : politique effective du modèle – son comportement en pratique.
  • PM* : couche « constitutionnelle » qui critique RAI et PM à la lumière d’intentions plus stables (contrat utilisateur, règles, garde-fous).

C’est sur cette symétrie que le paper construit une architecture de Prosthetic Agency : explicitation des méta-préférences, modèle critique, et friction constructive.

Pour qui est-ce utile ?

Ce paper est pensé comme une pièce de travail, pas comme un simple article de blog.

Fondateurs & product teams

Vous construisez un assistant, un agent, un navigateur IA, et vous ne voulez pas recréer un « nouveau réseau social déguisé ». Le cadre Good/Bad Hacks vous aide à aligner métriques produit et intégrité cognitive utilisateur.

Dirigeants & décideurs

Vous devez déployer l’IA sans sacrifier la qualité de décision, l’attention et la lucidité des équipes. Le paper donne un vocabulaire pour parler d’agentivité, pas seulement d’« adoption ».

Recherche & alignment

Vous travaillez sur préférence, Goodhart, manipulation et DR-MDPs. Le texte propose un pont entre neurosciences, méta-préférences et architectures d’IA constitutionnelle centrées sur l’agentivité.

L’auteur

Paulin REBOUL

Cogniticien & consultant IA – Fondateur de Cognitive Consulting

J’aide les organisations à intégrer l’IA sans perdre ce qui fait la valeur rare : l’agentivité humaine, l’esprit critique, la qualité de décision.

Avec un Master en Sciences Cognitives et une pratique terrain auprès de TPE/PME, startups et acteurs de la formation, je conçois des cadres où l’IA est pensée comme prothèse d’intelligence, pas comme substitut opaque.

Ce paper est une première brique : un langage commun pour parler de récompense, de méta-préférences et de systèmes qui protègent notre cerveau au lieu de le rentabiliser.

Paulin Reboul - Cognitive Consulting

Télécharger le paper & ouvrir la discussion

Vous voulez auditer un produit, challenger un design d’agent ou réfléchir à un modèle économique d’Agency-as-a-Service ? Le paper est un point de départ, pas un point final.

Disponible en anglais – n’hésitez pas à me contacter pour une présentation adaptée à votre équipe.