Le zombie qui refuse de mourir
- La Petite Sirène
- il y a 3 jours
- 24 min de lecture
Le « changement de perspective » : une nouvelle étude soutient qu’il ne faut pas utiliser le terme « santé mentale » pour mesurer l’efficacité d’une intervention en santé mentale. Analysons cela de plus près.
@mungerilal, Substack | 14 janvier 2026
Partie 1 : L'examen qui a changé la donne
Un nouvel article de synthèse de Weixel et al. (2025) a été publié en novembre dernier. Il prétend résumer les « Résultats récents sur les conséquences psychosociales des soins médicaux d’affirmation de genre pour les jeunes transgenres ».
Étant donné que ces soins médicaux sont présentés comme une intervention vitale en matière de santé mentale , on pourrait s'attendre à ce qu'une étude de cette nature se concentre sur, eh bien, la santé mentale.
Vous auriez tort.
La thèse centrale et étonnante de cet article est que la santé mentale ne devrait absolument pas servir de « critère de mesure ».
Les auteurs écrivent :
Nous soutenons que l’amélioration de la santé mentale ne devrait pas être le « critère de mesure » pour déterminer l’efficacité du GnRHa et du GAHT (p. 2).
Et:
« …bien que l’optimisation de la santé mentale et des résultats psychosociaux soit un objectif global, ceux-ci ne représentent peut-être pas les meilleurs résultats primaires pour évaluer l’efficacité d’interventions médicales spécifiques telles que le GnRHa ou le GAHT… » (p. 4)
Ce sont des affirmations remarquables. (Une réaction moins polie serait : « Mais qu’est-ce que c’est que ça ? »)
C'est comme si un article sur un nouveau médicament de chimiothérapie affirmait que la « survie du patient » ne devrait pas être le critère d'évaluation. « Certes, c'est un "objectif global" (entre guillemets), mais enfin ! C'est un cancer ! Soyons sérieux ! »
C'est un signal d'alarme immédiat et criard indiquant que quelque chose cloche profondément – très profondément – dans les preuves.
Effectivement, les auteurs proposent ensuite de nouveaux objectifs. Le véritable but, selon eux, est de « cibler la dysphorie de genre et d’accroître la congruence de l’apparence comme résultats immédiats » (p. 4).
Et si cela ne conduit pas à une meilleure santé mentale ? L’étude apporte également une réponse à cette question : il est « irréaliste » d’espérer une amélioration de la santé mentale en raison des « structures sociétales et systémiques transphobes et cisnormatives » en vigueur. (p. 4)
Tout ce que je peux dire, c'est bravo ! bravissimo!
Il s'agit d'une hypothèse parfaite et irréfutable, et d'une « carte de sortie de prison » pour toute étude du passé, du présent ou du futur qui justifie n'importe quelle conclusion :
Si les données d'une étude montrent que la santé mentale s'améliore : « Vous voyez, l'intervention fonctionne ! “Il existe de plus en plus de preuves démontrant l'utilité positive des soins médicaux d'affirmation de genre pour les jeunes transgenres.” (p. 4) Je vous l'avais dit ! »
Et si les données d'une étude ne montrent aucune amélioration de la santé mentale : « L'intervention fonctionne toujours , mais ses bienfaits sont masqués par le “stress minoritaire”. Ne nous regardez pas, nous avons essayé. Allez blâmer les “facteurs de stress systémiques, chroniques et stigmatisants… subis par les jeunes transgenres et de genre divers en raison de leur identité de genre marginalisée.” (p. 4) »
Il s'agit là d'une rationalisation a posteriori des plus parfaites, le sophisme classique du tireur d'élite texan , où le tireur tire au hasard sur une grange puis dessine une cible autour du groupe de tirs le plus dense pour faire croire à une intentionnalité. (Je citerai Wikipédia pour expliquer le sophisme du tireur d'élite texan, car l'allusion deviendra limpide par la suite : « Le sophisme du tireur d'élite texan survient souvent lorsqu'une personne dispose d'une grande quantité de données, mais ne se concentre que sur un petit sous-ensemble de ces données. »)
Et comme nous le verrons, c’est une rationalisation qu’ils – et plus précisément, l’ auteure correspondante Diane Chen – ont été contraints de faire .
Les chercheurs affirment qu’il existe « des preuves de plus en plus nombreuses démontrant l’utilité positive » (p. 4) de ces soins.
Existe-t-il une telle étude ? Je vais faire ce que le trio – Weixel, Whitebread et Chen – n’a pas réussi à faire : examiner toutes les études longitudinales majeures qu’ils ont citées et vérifier leurs conclusions. Que révèlent réellement ces études ?
Partie 2 : La preuve irréfutable – L’étude de 2023 de l’auteur correspondant (Chen et al. 2023)
Pour comprendre pourquoi ces chercheurs intrépides ont dû revoir leurs objectifs à la baisse en 2025, il faut examiner leur propre étude phare de 2023 publiée dans le New England Journal of Medicine (cette étude était dirigée par Diane Chen, qui est maintenant mentionnée comme troisième auteure et auteure correspondante dans cet article).
L’étude de 2023 – décrite par le « livre blanc » de 2024 du Yale Integrity Project comme « l’étude la plus longue et la plus vaste à ce jour sur les traitements médicaux d’affirmation de genre chez les jeunes » – est celle où le changement de paradigme est apparu au grand jour, pour peu qu’on prenne la peine de l’examiner. (Ce « livre blanc » du Yale Integrity Project aurait dû s’intituler « La fragilité des livres blancs » : à y regarder de plus près, tout son édifice s’écroule .) ¹
Les objectifs initiaux et prédéfinis
Le protocole initial de 2016 pour cette étude (l’« Étude sur la prise en charge des jeunes trans ») était explicite. L’hypothèse 2a (page 32 du protocole d’étude ) stipulait que :
« Les patients traités par hormones du sexe opposé présenteront une diminution des symptômes d’anxiété et de dépression , de dysphorie de genre , d’ automutilation , de symptômes traumatiques et de tendances suicidaires , ainsi qu’une amélioration de l’estime de soi et de la qualité de vie au fil du temps. »
Il convient de noter que la « congruence d’apparence » ( seul résultat positif de l’étude publiée ) est absente de l’hypothèse principale. Les objectifs prédéfinis étaient clairs : mesurer la dysphorie de genre, les idées suicidaires, l’automutilation et la santé mentale . La « congruence d’apparence » figurait parmi la vingtaine de mesures recueillies, aux côtés des mesures prédéfinies de la dysphorie de genre et de l’image corporelle, telles que :
Échelle de dysphorie de genre d'Utrecht (UGDS)
Questionnaire sur l'identité de genre/la dysphorie de genre
Échelle d'estime corporelle
Échelle d'image corporelle
(En fait, la « congruence d'apparence » était si mineure dans l'ensemble des choses que l'expression n'apparaît même pas une seule fois dans le protocole d'étude de 130 pages. Plus de détails à ce sujet plus tard.)
Le protocole imposait également l’utilisation d’un outil diagnostique, le DISC-Y , pour évaluer « plus de 30 diagnostics psychiatriques chez l’enfant et l’adolescent, selon les critères du DSM-IV » (page 25 du protocole de l’étude). Il s’agissait là des véritables objectifs : des résultats prédéfinis, robustes et difficiles à contourner.
Le changement des critères (Comment les mesures initiales ont été supprimées)
Alors, qu’est-il advenu de ces mesures ? Les modifications apportées au protocole (pp. 91-130 du protocole d’étude) montrent comment les mesures originales et prédéfinies de la dysphorie de genre et de l’image corporelle ont été systématiquement supprimées, ne laissant subsister que la « congruence d’apparence ».
12 octobre 2016 : Étape 1 : Suppression de l’outil de dépistage des troubles psychopathologiques. Amendement n° 3 (page 94 du protocole d’étude) : Le DISC-Y a été retiré. La justification est stupéfiante : « La durée de l’entretien DISC… s’est avérée plus longue que prévu initialement en raison du grand nombre de réponses positives aux questions diagnostiques , notamment chez les jeunes présentant de nombreux diagnostics potentiels. »
Soyons clairs : ils ont jeté aux oubliettes leur meilleur outil de diagnostic parce qu'il permettait d'identifier avec succès des taux élevés de comorbidité psychiatrique .
Décembre 2016 : Étape 2 : Suppression de la mesure du risque suicidaire de l’ outil de remplacement . Amendement n° 5 : Le DISC-Y a été remplacé par un outil de dépistage moins performant (le MINI/MINI Kid) le 1er décembre (Amendement n° 4, page 96), puis immédiatement vidé de sa substance (Amendement n° 5, page 98) seulement 26 jours plus tard. Cet amendement « supprime les sections suivantes du MINI : Risque suicidaire… » et « Cette lettre d’autorisation supprime les sections suivantes du MINI Kid : Risque suicidaire… ».
Imaginez à quel point les résultats ont dû être mauvais avec le nouveau système de sélection, pour que quelqu'un doive envoyer une lettre de modification deux jours après Noël !
En résumé : en deux mois, ils avaient éliminé à la fois leur principal outil de diagnostic de la comorbidité psychiatrique et le module de suicidalité de leur outil de remplacement.
29 janvier 2019 : Étape 3 : Suppression des mesures initiales de dysphorie de genre. Amendement n° 12 (p. 111-112 du protocole d’étude) : Cet amendement, intervenant près de trois ans après le protocole de 2016, supprime l’ UGDS (la principale échelle de dysphorie de genre) et le GIGDQ-AA des principales évaluations de suivi. Les mesures initiales de dysphorie de genre sont désormais officiellement abandonnées.
2 avril 2021 : L’amendement n° 17 supprime les « questions du DSM 5 concernant le diagnostic de dysphorie de genre » de la cohorte GAH (p. 126).
2 avril 2021 : Étape 4 : Ajout du nouvel indicateur de résultat. Amendement n° 17. L’ étude a maintenant cinq ans (la version 1 du protocole date du 18 avril 2016). Dans le même amendement n° 17 qui supprime les mesures initiales de diagnostic de la dysphorie de genre, l’« Échelle de congruence transgenre » est officiellement ajoutée à la cohorte Blocker pour la première fois. Ceci est important : c’est à partir de cette échelle que provient le seul résultat positif de l’article de 2023, la « congruence d’apparence ».
Passons maintenant à quelques faits intéressants sur l'échelle de congruence transgenre et la congruence d'apparence :
Anecdote intéressante n° 1 : L’échelle de congruence transgenre (TCS) a été introduite pour la première fois dans un article intitulé « Mesurer le confort des personnes transgenres face à leur identité et apparence de genre » par Kozee et al. en 2012. Le protocole néerlandais original remonte aux années 1990. Ainsi, le seul résultat positif de l’étude de Chen et al. (2023) provient d’un outil de mesure proposé pour la première fois deux décennies après les études néerlandaises initiales. Il n’est donc pas surprenant que, lorsque l’étude a débuté en 2016, cette nouvelle échelle n’ait été qu’une idée de dernière minute. Pourtant, au moment de la publication de l’étude, elle allait s’avérer cruciale.
Anecdote intéressante n° 2 : La congruence d’apparence est l’une des deux mesures de l’échelle de congruence transgenre. Elle « représente la mesure dans laquelle les participants estimaient que leur apparence extérieure reflétait leur identité de genre » (p. 187). L’autre mesure est l’acceptation de l’identité de genre, qui « mesure la mesure dans laquelle les personnes transgenres ont accepté l’identité de genre qu’elles perçoivent comme étant la leur, plutôt que celle qui leur est assignée par la société ». On pourrait supposer que cette mesure – celle de l’acceptation de l’identité de genre – serait un critère plus pertinent pour évaluer l’efficacité des traitements hormonaux. Pourtant, même après l’avoir vraisemblablement mesurée, Chen et al. ne font aucune mention de cette dernière mesure.
Anecdote amusante n° 3 : L’expression « congruence d’apparence » n’apparaît jamais dans le protocole d’étude de Chen (130 pages). Nulle part.
Anecdote intéressante n° 4 : Dans leur article proposant le TCS, Kozee et al. vantent ses mérites : « Il est bref, facile à administrer et à interpréter, et ne prend que quelques minutes à remplir » (p. 193). Près de sept ans après la publication de la première version du protocole d’étude, les chercheurs ont publié les résultats d’une étude menée auprès de 315 participants (dont environ 220 étaient encore présents après deux ans ; voir ci-dessous) – et les données proviennent exclusivement d’un instrument de 12 items « facile à administrer et à interpréter » et « ne prenant que quelques minutes à remplir ».
J'imagine que ces sept années ont été consacrées à l'élaboration des cinq versions du protocole d'étude et des 18 lettres d'amendement afin de déterminer quelles parties des arguments concernant le tireur d'élite texan seraient finalement retenues.
Il s'agit du « changement de poteau de but », un aveu qui figure dans les propres dossiers de Chen : la suppression systématique des résultats initiaux, robustes et prédéfinis de l'étude et leur substitution de dernière minute par un résultat nouveau et différent qu'ils revendiqueront plus tard comme leur principal succès.
Résultats finaux et publiés nuls
Ce changement était essentiel car, même après ces modifications , l'étude de 2023 a été marquée par des résultats nuls et des événements négatifs.
Aucune amélioration pour les personnes transféminines (désignées comme hommes à la naissance). Point final : les données de l’article (pp. 244-245) et la figure supplémentaire S3 (p. 24) ont montré que l’« amélioration du fonctionnement psychosocial » ne concernait pas les participantes transféminines (désignées comme hommes à la naissance). Leurs scores de dépression, d’anxiété et de satisfaction de vie sont restés inchangés. Ni le résumé ni la conclusion de l’étude n’ont mentionné ce fait pourtant fondamental : pour l’un des deux sexes, aucun bénéfice n’a été constaté .
Données contradictoires : Le résumé de l’article affirme une amélioration significative de l’« affect positif », ce que contredisent les données elles-mêmes. L’article principal (tableau 3, p. 246) utilise un modèle complexe de courbe de croissance latente pour identifier une amélioration faible mais statistiquement significative (plus précisément, l’augmentation moyenne de l’affect positif n’était que de 1,12 sur une échelle de 0 à 100 ). Or, l’annexe (tableau S5) présente un résultat beaucoup plus simple. Celle-ci utilise un simple test t de Student apparié comparant les scores initiaux à ceux obtenus après 24 mois. Ce test ne révèle aucun changement statistiquement significatif de l’affect positif (p = 0,39). Cela suggère qu’une analyse plus simple et plus directe a été négligée au profit d’un modèle complexe pour parvenir à un résultat « positif » statistiquement significatif (mais cliniquement non pertinent) .
Exclusion des participants ayant abandonné l'étude : Le diagramme de flux de l'étude (figure S1, annexe p. 20) montre que 9 participants ayant interrompu le traitement par GAH ont été exclus de l'échantillon d'analyse à 2 ans. Les participants qui interrompent une intervention constituent une part importante des données, car ils peuvent le faire en raison d'effets indésirables ou d'une aggravation de leur santé mentale. Leur exclusion contrevient au principe d'« intention de traiter » et biaise les résultats. (L'intention de traiter est un principe des essais cliniques selon lequel tous les participants sont analysés dans le groupe auquel ils ont été initialement affectés, qu'ils aient terminé le traitement ou non. Cette approche inclut les patients qui ont pu abandonner l'étude, ne pas respecter le protocole ou recevoir un traitement différent, afin d'éviter les biais qui pourraient résulter d'une analyse sélective des seuls participants ayant respecté le protocole.)
Malgré tout cela , les données montrent qu'une grande partie de la cohorte est restée en grande détresse, les améliorations statistiques ont été faibles et l'étude a enregistré des événements indésirables graves.
Faibles tailles d'effet (Tableau S5, Annexe, p. 13) : Les données de l'étude, présentées en annexe, indiquent les tailles d'effet (d de Cohen) pour la variation sur 24 mois. Par convention, une taille d'effet inférieure à 0,2 est considérée comme négligeable. Une taille d'effet de 0,2 est qualifiée de faible, tandis qu'une taille d'effet comprise entre 0,2 et 0,5 est considérée comme un effet « faible à moyen ». Une taille d'effet de 0,5 est considérée comme un effet « moyen ».
Dépression : 0,20 (faible, à la limite de la négligeabilité)
Anxiété : 0,25 (faible)
Satisfaction de vie : -0,39 (effet faible à moyen)
Affect positif : -0,06 (négligeable et non statistiquement significatif, voir ci-dessus)
Amélioration clinique minimale (tableau S6, annexe) : Ces faibles effets statistiques se reflètent dans la réalité clinique. Une grande partie de la cohorte est restée en détresse.
Anxiété : 58,8 % de la cohorte présentaient une anxiété cliniquement significative au départ. Après deux ans de traitement hormonal, 47,5 % (près de la moitié) présentaient encore une anxiété cliniquement significative. En supposant qu’aucun participant n’ait vu son état s’aggraver après les interventions hormonales, près de 81 % n’ont pas bénéficié de cette mesure.
Dépression : 34,2 % des participants présentaient une dépression modérée à sévère au départ. Après deux ans, 23,6 % (près d’une personne sur quatre) en souffraient encore . Près de 70 % n’ont pas bénéficié des interventions.
Événements indésirables graves (Tableau 2, Article principal) : L’étude rapporte que 2 participants sont décédés par suicide et que 11 autres ont fait état d’idées suicidaires lors d’une visite. Ce constat, associé à la suppression explicite de l’échelle de suicidalité de l’analyse principale et du module de suicidalité de l’outil de dépistage diagnostique, constitue un défaut majeur.
Certains pourraient qualifier cela de négligence criminelle. Prenons l'exemple d'une cohorte de 315 adolescents, préalablement sélectionnés afin d'exclure les patients présentant des comorbidités mentaux graves. Malgré cela, deux suicides ont été recensés au cours des douze premiers mois, alors que le nombre de participants avait chuté à environ 250. Ce taux de suicides (calculé sur la base d'un dénominateur de 315 et en supposant que ces décès se soient produits sur deux ans plutôt qu'en un an) est plus de 24 fois supérieur à celui observé chez les enfants suivis à la clinique GIDS du NHS, qu'ils reçoivent un traitement hormonal ou soient sur liste d'attente . Les dernières données du NHS England font état de 12 suicides en six ans parmi les enfants de toute l'Angleterre orientés vers les cliniques du NHS. Bien que des effectifs aussi réduits ne permettent pas de tester une hypothèse, on aurait pu s'attendre à ce que les chercheurs interrompent, ou du moins suspendent, l'étude après ces deux suicides survenus dès la première année. Or, il n'en a rien été. (Tout en déplorant ces détails, je finis par penser : « Au moins, ces chercheurs ont fourni leur protocole d'étude et inclus tous ces détails compromettants. Les autres études ne le font même pas ! »)
N'oubliez pas : il s'agit des résultats obtenus après des modifications importantes apportées au protocole de l'étude ( que les auteurs ne reconnaissent pas dans l'article principal , où ils écrivent, à la page 241 : « Les auteurs garantissent l'exactitude et l'exhaustivité des données ainsi que la fidélité de l'étude au protocole. » Ils auraient dû ajouter : « …après 18 amendements qui ont complètement réécrit les hypothèses originales et n'ont pas utilisé la quasi- totalité des données collectées. » 🤡).
Voici les résultats obtenus malgré toutes les manipulations méthodologiques. Après avoir perdu plus de 28 % des participants au cours des deux années de l'étude (une perte supérieure à 20 % « menace sérieusement la validité » des résultats).
En résumé : ils ont supprimé leurs meilleurs indicateurs, enregistré deux suicides et obtenu des résultats nuls pour la moitié de leur cohorte. Le seul « résultat » incontestable qu’ils ont pu constater après tout cela était la « congruence d’apparence », un indicateur qu’ils ont intégré à la dernière minute. Ceci s’inscrit dans le contexte de « l’étude la plus longue et la plus vaste menée à ce jour sur les traitements médicaux d’affirmation de genre chez les jeunes ».
Cette nouvelle étude de 2025 réalisée par Chen et ses coauteurs est leur tentative de déclarer rétroactivement que la « congruence d'apparence » était le véritable objectif depuis le début.
Partie 3 : Les « preuves » les plus citées s’évaporent (Tordoff et al. 2022)
Passons aux autres études que Weixel et al. citent comme preuve de « l’utilité positive ». La plus célèbre est celle de Tordoff et al. (2022) , que Chen et ses co-auteurs citent comme ayant trouvé des « réductions significatives des symptômes dépressifs » (p. 2).
(Par ailleurs, la littérature grise du YIP affirmait que Tordoff et al. (2022) « démontrent des réductions statistiquement significatives de la dépression et des tendances suicidaires ».)
Dans le langage typiquement discret du monde universitaire, le langage utilisé pour décrire les résultats de Tordoff était : « La version de Tordoff et al. (2022) est spectaculaire . »
Ceci est un article Substack, donc je n'ai pas à respecter le ton des publications académiques : l'étude de Tordoff et al. (2022) est une ineptie totale. Et c'est très facile à prouver. (Elle a été disséquée à l'infini , et pourtant elle continue de prospérer comme un zombie. Et elle est toujours citée à outrance – près de 800 citations au moment de la publication de cet article, selon Google Scholar.)
Le résultat « positif » de l'étude Tordoff n'est pas seulement dû à un défaut méthodologique ; c'est une aberration statistique. Les auteurs ont apparemment comparé un groupe de 69 jeunes ayant reçu des hormones (le groupe traité) à 35 n'en ayant pas reçu (le groupe « sans traitement »).
Examinons les données de leur tableau supplémentaire eTable 3 à la page 4.
1. La dépression du groupe de traitement n'a pas changé .
Au départ , 57 % des participants du groupe traité présentaient une dépression modérée à sévère. À 12 mois , ce pourcentage était de 56 %. Ce résultat est non significatif : une variation de 1 % est négligeable sur le plan statistique.
2. Le résultat « positif » est un artefact dû à un groupe témoin minuscule et imparfait .
D’où vient donc cette « réduction de 60 % des risques de dépression » ? Elle provient de l’aggravation de l’état du groupe « sans traitement ».
Mais attendez. Combien de personnes se trouvaient dans le groupe « sans traitement » au bout de 12 mois ? Consultez à nouveau le tableau électronique 3.
N = 7. Ce nombre était de 35 au départ . Il y a eu un taux d'attrition stupéfiant de 80 % en 12 mois (rappelons qu'une perte de plus de 20 % est généralement considérée comme inacceptable – voir l'exercice ci-dessous qui illustre pourquoi).
L' intégralité des conclusions positives de cette étude largement citée repose sur le fait que 6 participants sur 7 d'un groupe « témoin » hautement interchangeable, non équivalent et auto-sélectionné ont déclaré souffrir de dépression, ce qui est ensuite comparé au groupe de traitement qui n'a pas beaucoup changé .
L'explication la plus plausible, selon le principe du rasoir d'Occam, pour les 28 personnes qui n'ont pas pu se rendre à la clinique après 12 mois est qu'elles se sentaient mieux spontanément et ont cessé de venir (rien de bien compliqué : on va à la clinique pour se faire soigner et on n'y va plus quand on se sent mieux). Les 7 autres, quant à elles, ne se sentaient pas mieux et continuaient de venir à la clinique, mais leur état était probablement si instable et elles présentaient tellement de comorbidités qu'on leur a refusé un traitement hormonal pendant un an. Ce sont ces sept adolescentes qui constituent le « groupe témoin ».
Il est très rare qu'autant d'efforts aient été investis dans la création d'un récit qui a été répété (et largement cité dans la littérature académique ainsi que devant la Cour suprême des États-Unis) sur la base des réponses de sept adolescents de la région de Seattle !
Ajoutez seulement quelques-uns des 28 enfants qui ont cessé de venir à la clinique, sans doute parce qu'ils se sentaient mieux, au numérateur et/ou au dénominateur de ce « groupe témoin », et vous obtenez soudain des résultats très différents.
Par exemple, si un quart des 28 personnes ayant cessé de fréquenter la clinique étaient disponibles au bout de 12 mois, le pourcentage de personnes se sentant mieux dans le groupe sans traitement grimperait à 58 %, soit nettement plus que les 42 % du groupe traité. Même si seulement trois des 28 adolescents revenaient au bout de 12 mois et affirmaient ne plus être déprimés, le résultat serait nul : statistiquement parlant, aucune différence significative n’aurait été observée entre le groupe traité et le groupe sans traitement. Je ne prétends pas que ce soit le cas – la vérité est que nous l’ignorons tout simplement – mais ces expériences psychologiques illustrent parfaitement l’absurdité des résultats et expliquent pourquoi un taux d’abandon supérieur à 20 % compromet gravement leur validité .
Voilà la « preuve » derrière ce que Weixel et al. rapportent comme une « réduction significative des symptômes dépressifs » !
Si l'article de Weixel était le premier à analyser l'étude de Tordoff et al. (2022), j'y verrais une simple négligence. Mais après les nombreuses critiques approfondies déjà publiées ? Ces dernières ont méthodiquement mis en lumière les lacunes de cette « étude », qui, si elle était présentée lors d'un séminaire de master, susciterait probablement de longs échanges entre l'étudiant et son directeur de thèse. Elle relève de la catégorie « même pas fausse ». Ne pas présenter ces critiques dans une analyse publiée en 2025 est inacceptable et laisse supposer une volonté manifeste de tromper.
Partie 4 : La Fondation Crubling (de Vries 2011 et Carmichael 2021)
D'accord, les nouvelles études présentent donc des lacunes. Cependant, l'analyse de Weixel cite l'étude fondatrice « primitive » menée aux Pays-Bas (de Vries, 2011). Elle doit être solide, non ?
Vérifions cela.
de Vries et al. (2011) : L'histoire de l'origine du « Protocole néerlandais »
Voici l'article fondateur. Son objectif était de tester l'efficacité de la suppression de la puberté. Quels ont été ses résultats ?
L' objectif principal de l'étude était d'évaluer la dysphorie de genre et la satisfaction corporelle. Or, l'étude n'a permis de constater aucune amélioration concernant ces principaux critères d'évaluation.
Résultat nul explicite : L’article indique clairement dans ses résultats et sa conclusion : « La dysphorie de genre et la satisfaction corporelle n’ont pas changé entre T0 et T1. »
Données (tableau 3) : Le score moyen à l’échelle de dysphorie de genre d’Utrecht (UGDS) était de 53,20 à l’inclusion (T0) et de 53,9 au suivi (T1). Les scores à l’échelle d’image corporelle (BIS) n’ont également montré aucune variation statistiquement significative.
Conclusion simple : l’intervention n’a pas atteint son objectif principal, préalablement défini, d’améliorer la dysphorie de genre et la satisfaction corporelle.
Mais ce n'est pas tout. Le protocole de l'étude ne permet pas d'attribuer les améliorations observées au médicament (GnRHa). La période de « traitement » consistait en réalité en une intervention psychothérapeutique intensive de longue durée (22,5 mois, soit presque deux ans), durant laquelle les participants prenaient également du GnRHa. Pendant toute cette période, « les adolescents étaient tous régulièrement suivis par un psychologue ou un psychiatre de la clinique », et « les problèmes psychologiques ou sociaux pouvaient ainsi être pris en charge rapidement » (p. 2281). En clair, il s'agit d'un essai non contrôlé et ouvert (psychothérapie + GnRHa). Les légères améliorations du « fonctionnement global » sont tout aussi susceptibles, voire plus, d'être le fruit de près de deux ans de suivi psychologique continu dans une clinique spécialisée (sans oublier, bien sûr, le processus de maturation ).
L'affirmation de l'article concernant l'« amélioration » du fonctionnement psychologique repose sur des changements statistiquement significatifs, mais cliniquement minimes, au sein d'une cohorte qui, en moyenne, ne présentait pas de symptômes dépressifs ni de troubles du comportement auto-déclarés au départ. Les enfants allaient bien au début. Deux ans plus tard, ils allaient toujours bien.
Dépression (BDI) : Le score moyen initial était de 8,31 à l’Inventaire de dépression de Beck, un score de 0 à 10 étant considéré comme normal (« ces fluctuations sont considérées comme normales »). Le score s’est amélioré pour atteindre 4,95 (également considéré comme normal).
Comportement (YSR) : Le « score T total » autodéclaré de la cohorte était de 55,46 . Le seuil clinique est un score T de 65 ou plus .
Comportement (CBCL) : Le score CBCL rapporté par les parents était de 60,70, ce qui est considéré comme « limite », et non « clinique ».
Une autre observation positive semble ressortir de cette étude : l’amélioration du « fonctionnement global » (CGAS). Le CGAS (Children’s Global Assessment Scale) est un score unique (de 1 à 100) qui évalue le fonctionnement d’un jeune, selon l’appréciation du clinicien traitant . Les cliniciens évaluant les patients étaient les mêmes qui leur avaient dispensé près de deux ans de psychothérapie. Ils n’étaient pas en aveugle et connaissaient l’hypothèse de recherche . Ceci introduit un biais d’attente important de la part de l’observateur . Et qu’ont-ils constaté ? L’évaluation subjective du fonctionnement de leurs propres patients par les cliniciens est passée de 70,24 (« très bien ») à 73,90 (« toujours très bien ») sur la période de deux ans.
Et ce n'est pas tout. Les conclusions de l'étude reposent sur une petite cohorte de « survivants » présélectionnés.
Taux d'attrition élevé : L'étude a débuté avec 111 adolescents éligibles au traitement par GnRHa. Parmi les 70 premiers à avoir commencé le traitement par CSH, les analyses finales reposent sur un nombre bien plus restreint de participants ayant rempli tous les questionnaires aux deux temps de mesure : N = 54 pour les problèmes de comportement, N = 57 pour l'image corporelle et seulement N = 41 pour l'ensemble des mesures (dépression, anxiété, colère, dysphorie et CGAS). Ceci représente une perte de données importante , ce qui, comme nous le savons, peut avoir des conséquences néfastes.
Biais de sélection : Les 70 participants ont été présélectionnés parmi 196 personnes orientées. Pour être admissibles, ils devaient présenter une « dysphorie de genre persistante depuis l’enfance », vivre dans un « environnement favorable » et ne pas souffrir de « troubles psychiatriques comorbides graves » (p. 2277).
196 → 70 → 55.
En définitive, la conclusion de l'étude est tautologique. Elle affirme qu'« aucun adolescent n'a interrompu le traitement de suppression de la puberté et tous ont commencé un traitement hormonal de transition » (p. 2276). Ceci est présenté comme une preuve de persistance. Or, l'étude ne portait que sur des adolescents présélectionnés pour leur persistance et leur stabilité. Cette conclusion est une tautologie : elle prouve qu'un groupe choisi pour sa persistance est resté persistant après deux ans.
L'étude de de Vries ne porte pas sur les bloqueurs de puberté. Il s'agit d'une étude sur une psychothérapie intensive et de longue durée ( incluant également ces bloqueurs) qui n'a pas permis d'améliorer la dysphorie et n'a constaté qu'une amélioration minimale et subjective du « fonctionnement » chez les enfants qui persistaient dans leurs convictions et qui se portaient déjà très bien.
Carmichael et al. (2021) : L’étude phare britannique (Tavistock), également citée par Weixel, a suivi 44 jeunes sous bloqueurs de puberté. Cette étude n’a pas permis de reproduire les résultats « positifs » des études néerlandaises (« les critères d’éligibilité ont été choisis pour correspondre à ceux utilisés pour une cohorte néerlandaise »). Ses conclusions sont encore plus accablantes. (Comme l’ a documenté le Dr Michael Biggs de l’Université d’Oxford , ces résultats ont été dissimulés pendant de nombreuses années, jusqu’à ce que cela devienne impossible. La journaliste Hannah Barnes a révélé ce qui s’est passé dans cette étude dans un article du New Statesman et dans son ouvrage primé, « Time To Think ».)
La principale conclusion de cette étude est son incapacité à mettre en évidence un changement statistiquement significatif dans les indicateurs de santé mentale et d'automutilation pré-spécifiés et validés.
Résultat nul : Les auteurs déclarent clairement : « Il n’y a eu aucun changement entre la valeur de référence et les scores t totaux CBCL ou YSR à 12 ou 24 mois, ni pour les indices d’automutilation CBCL ou YSR, ni pour le score t total CBCL ou l’indice d’automutilation à 36 mois. » ( Résumé et Tableau 4 ).
Autres mesures stagnantes : Pour les résultats non formellement testés, les auteurs notent : « Les estimations ponctuelles des scores sur le Kidscreen-52 [Qualité de vie], le BIS [Image corporelle], l’UGDS [Dysphorie de genre] et le CGAS [Fonctionnement global] ont montré peu de changement au fil du temps . » ( Tableau 5 ).
Il s'agit d'un résultat nul et complet . Pour toutes les mesures psychologiques standardisées, la suppression pubertaire n'a été associée à aucune amélioration de la santé mentale, de la qualité de vie, de l'image corporelle ou de la dysphorie de genre.
N'ayant constaté aucune amélioration, les auteurs interprètent ce résultat nul comme un résultat potentiellement positif . Ils avancent que, la santé mentale se détériorant souvent à l'adolescence, « l'absence de changement dans un résultat qui s'aggrave normalement… pourrait refléter une évolution favorable, c'est-à-dire que le traitement par GnRHa aurait réduit cette aggravation normale des problèmes ». Il s'agit là d'un exemple classique d'hypothèse non réfutable, ce qu'ils admettent d'ailleurs par la suite : « En l'absence de groupe témoin, nous ne pouvons trancher entre ces possibilités. » L'affirmation d'un effet « préventif » relève de la pure spéculation, sans aucun fondement issu de l'étude, et est directement contredite par l'aveu même des auteurs de leur incapacité à le prouver.
Quelques observations supplémentaires. La « suppression pubertaire » vise à retarder le déclenchement de la puberté. Cette étude a administré des bloqueurs à des adolescents qui, en moyenne, avaient déjà atteint ou presque atteint leur puberté. L'âge médian était de 13,6 ans (intervalle interquartile [IQR] : 12,8 à 14,6 ans ; étendue : 12,0 à 15,3 ans). La majorité des participants (57 %) étaient au stade 4 ou 5 de Tanner (puberté tardive à complète). 79 % des participantes avaient déjà leurs premières règles. Cette étude n'évalue pas la « suppression pubertaire précoce », mais l'administration d'un agoniste de la GnRH (GnRHa) à des adolescents dont la puberté naturelle était déjà établie ou terminée.
La cohorte (N = 44) est un petit échantillon, constitué dans les conditions les plus favorables, et non représentatif de la population clinique générale. Comment le savons-nous ? Les participants avaient été suivis par l’équipe de GIDS pendant au moins six mois et avaient participé à au moins quatre entretiens avant même d’être pris en considération. La cohorte bénéficiait d’une évaluation et d’un soutien psychosociaux depuis une durée médiane de deux ans (jusqu’à six ans et demi) avant même de commencer le traitement médicamenteux. Ce processus de présélection élimine toutes les personnes présentant une incertitude diagnostique, celles en détransition et celles dont la santé mentale est instable : il s’agit de la cohorte « idéale » qu’ils pouvaient constituer. Et pourtant, aucun résultat significatif.
Enfin, les données de suivi de l'étude reposent sur un nombre de participants de plus en plus restreint. L'étude a débuté avec 44 participants. À 24 mois, les données d'auto-évaluation YSR n'étaient disponibles que pour 15 participants. À 36 mois, ces données n'étaient disponibles que pour 6 participants. Les conclusions à 24 et 36 mois sont donc basées sur une fraction de la cohorte initiale, déjà réduite, ce qui rend les résultats très peu fiables.
En résumé : les études fondamentales des protocoles néerlandais et britannique – citées par Weixel et al. comme « preuves croissantes » – sont en fait deux des résultats nuls les plus puissants de tout le domaine.
Partie 5 : Un château de cartes – Un bref aperçu du reste
Ce message est déjà bien trop long. J'écrirai peut-être un autre article un jour pour vérifier les résultats de chacune des études mentionnées par le trio de Weixel. En attendant, voici un bref résumé de quelques autres études. Chacune d'elles s'effondre dès le premier contact.
Kuper et al. (2020) : taux d’abandon de 29 %. Aucune amélioration de la dépression rapportée par les cliniciens. Le tableau 5 montre que les taux de tentatives de suicide au cours de l’année précédente étaient de 4 % et les automutilations non suicidaires de 18 % pendant l’étude. Ces taux sont supérieurs à ceux observés avant l’étude, qui étaient respectivement de 2 % et 10 %.
López de Lara et al. (2020) : La dysphorie de genre déclarée aurait « disparu ». Comment ? En changeant de test. Ils ont utilisé l’échelle de dysphorie de genre d’Utrecht (UGDS) au départ, mais ne l’ont pas utilisée lors du suivi . Ils ont utilisé un autre test (le SDQ), lui ont appliqué un critère de réussite/échec absurde et ont crié victoire.
Achille et al. (2020) : Une étude préliminaire de petite envergure, avec un taux d’attrition de 47,4 % , n’a pas permis de mettre en évidence d’amélioration statistiquement significative de son critère principal d’évaluation, la qualité de vie ( p = 0,085). Elle n’a pas non plus permis de constater d’amélioration significative de la dépression ou de l’anxiété dans le sous-groupe FTM (n = 33), qui représentait la majorité de la cohorte.
Baines et Connelly (2023) : Une étude de très petite envergure (N = 26). Son principal résultat, relégué au second plan : aucune différence statistiquement significative de la qualité de vie entre le début de l’étude et le sixième mois ( p = 0,71).
Partie 6 : L'hypothèse irréfutable
L’idée de « preuves croissantes » en faveur d’une « utilité positive » est un fantasme.
L'étude phare de l'auteur correspondant (Chen 2023) a été un désastre méthodologique et éthique, produisant des résultats nuls, qui n'ont été sauvés qu'en révisant ses conclusions.
L'étude la plus citée (Tordoff 2022) est basée sur un fantôme statistique.
Les études fondamentales (de Vries, 2011 ; Carmichael, 2021) rapportent des résultats nuls pour leurs principaux résultats psychologiques.
Les autres (Kuper, Achille, López de Lara, etc.) ne sont qu’un tas de rapports « préliminaires » à forte attrition, non significatifs ou contradictoires.
Voilà pourquoi cette nouvelle évaluation était nécessaire pour Chen. Il s'agit d'un exercice rhétorique visant à masquer l'échec total des preuves. Elle prétend que la santé mentale n'est pas un critère d'évaluation pertinent, car aucune de leurs études ne démontre d'amélioration .
Et il faut créer l’excuse du « stress minoritaire » — que la stigmatisation masque les avantages — pour expliquer les résultats nuls de Carmichael, de Vries et Chen.
Mais cette dernière excuse est, elle-même, réfutée par les citations mêmes de la critique.
Wittlin 2025 : Weixel cite cette étude portant sur des jeunes ayant connu une transition sociale précoce. Il s’agit d’une cohorte « idéale » présentant un stress minoritaire minimal (parents pleinement présents, puberté sans difficultés). Selon la logique même de Weixel , ce groupe devrait jouir d’une santé mentale quasi parfaite. Pourtant, malgré ce stress minoritaire minimal, aucun changement significatif n’a été observé concernant l’anxiété ou la dépression après le début d’une intervention médicale.
Chelliah 2024 : Weixel cite également cette étude, qui portait spécifiquement sur le stress minoritaire. Son constat ? Les changements de santé mentale n’étaient PAS corrélés aux changements de victimisation ou de soutien social.
L’argument du « stress minoritaire » n’est pas seulement une excuse irréfutable ; c’est une excuse que les données contredisent activement.
L’étude de Weixel et al. (2025) n’est pas un résumé des données probantes. Il s’agit d’un acte de « blanchiment narratif » : utiliser l’apparence de la recherche pour masquer un échec total et constant des données sous-jacentes.
Le document YIP a été coécrit par Johanna Olson-Kennedy, l'une des auteures de l'étude de 2023. Bravo pour l'autopromotion, sans doute. Les affirmations non étayées de ce document non évalué par les pairs ont été systématiquement réfutées dans une publication scientifique rigoureuse et évaluée par les pairs, début 2025, intitulée à juste titre « Critiques du rapport Cass : vérification des faits dans la littérature scientifique et la littérature grise ». De la littérature grise, vraiment ?




