Translate

dimanche 30 septembre 2012

Le Rythme des Vagues d'OVNI : un Système contrôlé d'Accommodation ? Ou une Cuisine statistique ?

Bonjour,

Une étude de Michael Vaillant sur sa page WIKI "U-Sphère" s'intéresse dans un premier temps aux possibles relations ou fonctions mathématiques qu'il y aurait entre les différentes vagues d'OVNI. 
Le texte est richement illustré et "savant" a priori et l'approche semble être rigoureuse, s'appuyant largement sur l'outil statistique.

Il en ressort des graphiques imposants et des fonctions mathématiques particulières pouvant rendre compte des données. Si bien que l'étude pourrait donner l'impression que le chercheur a réussi à établir ou démontrer une relation statistique et mathématique particulière entre les différentes vagues d'OVNI. 
Plus étonnant ou séduisant encore, cette relation entre les vagues ainsi prétendument mise en lumière serait de même type que celle montrée dans certaines études concernant l'apprentissage humain et viendrait assoir l'hypothèse d'une sorte de système de contrôle de la part d'un "phénomène" ou d'une "entité" restant à définir, qui accommoderait les Humains à sa présence avant LE contact !

Un résultat fascinant et surtout fort séduisant pour les personnes attendant beaucoup de leur passion pour le phénomène OVNI. Mais qu'en est-il vraiment ?

A l'inverse, les "UFO-sceptiques" - dont je me réclame - définissent en général les vagues d'OVNI de la façon suivante, et pensent qu'elles sont relativement imprévisibles, sans réelle liaison ou relation statistique entre elles, et jusqu'à preuve du contraire :
 Lorsque la couverture médiatique conduit le public à croire qu'il y a des ovnis dans les environs, il y a de nombreux objets naturels ou artificiels qui, particulièrement lorsqu'ils sont vus la nuit, peuvent prendre des caractéristiques inhabituelles dans l'esprit d'un observateur plein d'espoir. Leurs observations d'ovnis s'ajoutent en retour à l'excitation de masse, ce qui encourage encore plus de témoins à chercher à voir des ovnis. Cette situation se nourrit d'elle-même jusqu'à ce que les médias perdent leur intérêt pour le sujet, et alors le phénomène retombe.
Klass, P. (1986). UFOs : The public deceived. New York : Prometheus Books, p. 303/304.
 
***

Entrez des données dans un logiciel, il en ressortira toujours des résultats, des courbes et des graphiques.
Avais-je coutume de dire en module d'introduction à l'analyse des données à mes étudiants.
Si on se livre à une étude exploratoire, en ce sens qu'il n'y a pas d'hypothèse particulière avant ou a priori de l'expérience ou du traitement des données - l'idée étant justement de voir si les données ont tendance à se distribuer de façon notable, ou non - les logiciels à qui l'on demandera de sortir calculs ou graphiques, vont bien sûr, "irrépressiblement" aurais-je envie de dire, les produire.
Ils vous sortiront donc toujours "quelque chose". Il conviendra alors au chercheur de savoir si ce "quelque chose" qui sort, est dû au hasard, ou bien s'il existe des variables explicatives à ce qui sort et qui lui paraît notable et remarquable. On se propose alors d'expliquer après et a posteriori. La subjectivité risque alors de prendre le pas sur l'objectivité, car il n'a pas été formulé d'hypothèse(s) précise(s) qu'on se proposait de vérifier. Si la subjectivité entre trop en compte, on s'éloignera alors de l'approche expérimentale et donc de la Méthode Scientifique. On aurait ainsi l'illusion de rigoureusement s'y tenir, alors qu'il n'en serait rien. Voilà le risque. Et quand on continue à sélectionner de façon subjective les données parmi les données, et ainsi de suite, on bricole plus qu'autre chose. A terme, à force d'avoir sélectionné et sélectionné encore, quitte à perdre et éliminer une écrasante majorité des données qu'on s'était pourtant donné pour but de voir si elles se distribuaient notablement, le miracle se produit.

Ce miracle est celui du sophisme ou biais des statistiques des petits nombres : on tire des conclusions sur un échantillon inadéquat, et en l’occurrence ici, qui ne serait plus représentatif de celui de départ, puisqu'on l'a plus que très considérablement réduit.

J'avais déjà commenté cette étude de Michael Vaillant sur au moins deux forums et je me propose de réunir et résumer, ou encore compléter ici ce qui m'avait frappé et gêné particulièrement, invalidant pour moi les résultats obtenus ou ce que l'on a bien voulu leurs faire dire.

***

  • Le problème principal de ce genre d'étude : c'est sans doute qu'elle s'appuie sur des bases de données "OVNI", alors que d'autres études ou contre-études critiques montrent une indiscernabilité OVI/OVNI (un OVI est un cas ou une observation non identifiée sur le coup - et donc qui a pris le statut OVNI - dont le stimulus réel et prosaïque sera identifié ensuite, après enquête par exemple).
Autrement dit, si le chercheur appliquait exactement la même étude et la même méthodologie statistique sur les cas OVNI identifiés (OVI) - il existe en effet des bases statistiques OVI -, il est fort probable du fait de cette indiscernabilité et non indépendance entre les deux échantillons OVI/OVNI, qu'il retrouve exactement ou plus ou moins les mêmes tendances. Ce serait assez fâcheux pour ce que ce genre d'étude est censé démontrer. De là, je trouve étonnant que les cas OVI ne servent pas de "groupe contrôle" dans ce genre d'étude. C'est un premier point critique.

Intrinsèquement aussi à la base de données, il y a le problème de la fiabilité des cas recensés et utilisés pour les statistiques comme échantillon. Je m'explique : l'étude en effet se sert de la base de données de Larry Hatch ("U-Database") qui recence.... 17774 cas d'OVNI !!! - Elle doit même être de 18500 cas à ce jour - .
Autrement dit, sur les cas OVNI retenus pour l'échantillon de données que l'on va entrer dans les logiciels, il est indéniable qu'un (très) grand nombre de cas appartiennent à l'échantillon simplement parce qu'il n'a pas été possible, par manque de données, d'identifier le stimulus prosaïque à la source de l'observation. Voire que des cas ont été simplement déposés, et qu'aucune enquête n'a été réalisée en réalité.

Par exemple, quand on sait que la base d'Allan Hendry contient environ 1300 cas, mais que 8 à 9 % seulement sont OVNI (et seulement 20 cas considérés comme très solides), et qu'on utilise ici une base de 17800 cas UFO environ, il est clair que l'échantillon retenu est sujet à caution.
Par exemple toujours, dans cette étude, c'est la vague de 1954 qui contribue le plus en cas OVNI (et à la base de données appuyant cette étude). Or, des études ont épuré les cas de cette vague de 1954 pour montrer qu'il y a toute raison de penser qu'il s'agissait de canulars ou encore de méprises Lune pour un très grand nombre d'entre eux.
Le risque est donc alors de s'auto-illusionner en faisant de la statistique sur des cas ayant le statut d'inexpliqué par simple manque de données ou carrément par absence d'enquête.

  • Le problème de l'opérationnalisation subjective de la variable "vague d'OVNI"  : ensuite, le chercheur nous invite à relever des pics d'activité à partir de l'échantillon, mais la méthode permettant d'attribuer le statut de pic à tel ensemble de points, plutôt qu'à un autre, est-elle objective, ou non ?

Les pics d'observations retenus pour l'étude, noté de 0 à 12.


Force est-il de constater qu'il y a 12 pics considérées comme des "vagues", notées v0 à v12 (on n'a pas pris la peine de noter les vagues v6, v7 et v8 dans ce graphique pour une raison que j'ignore).
Curieusement, certains autres pics qui sont pourtant plus ou moins de même taille en effectif que ceux retenus ne sont pas considérés comme des vagues. Sur quel(s) critère(s) ? Ainsi, le choix d'attribuer à tel pic le statut de vague serait arbitraire.
En effet, 1979, est plus ou moins de même ampleur que v11 ou v12. Alors pourquoi ne pas l'avoir retenu, au même titre que ceux-ci et donc comme un pic ou une vague ? 1995/96 constitue v12, mais 1972/73, pourtant plus ou moins de même ampleur là-encore, n'est pas retenu pour la suite comme une vague. Pourquoi ? On a également un pic en 1956/57, mais là encore, on ne le considère pas.

Il y a semble-t-il ici un problème majeur d'opérationnalisation de la variable "vague OVNI" : autrement dit, on se propose d'effectuer des statistiques sur des variables opérationnalisées de façon subjective et non rigoureuse, pour démontrer ou proposer ensuite une fonction mathématique pouvant rendre compte de la distribution de celles-ci...

  • Une fonction d'apprentissage et d'accoutumance ? L'auteur propose qu'une fonction de même type que celle montrée pour l'apprentissage humain en psychologie cognitive pourrait rendre compte et expliquer les relations entre les vagues et assoir l'hypothèse d'un système de contrôle "à la Jacques Vallée", telle une sorte de système d'apprentissage et d'accoutumance optimal.  Qu'en est-il vraiment ?
En psychologie cognitive et pour faire court, certaines expériences montreraient que l'apprentissage humain optimal suit une distribution particulière (allure exponentielle) : le temps d'attente entre deux sessions d'apprentissage ou deux révisions peut être espacé de façon exponentielle : trop rapprocher les sessions n'a aucun ou très peu d'effet, aussi on peut espacer celles-ci, de plus en plus, sans que les performances d'apprentissage s'en ressentent. En d'autres termes, un apprentissage optimal présente des sessions d'apprentissage de moins en moins rapprochées les unes des autres. Ou dit encore autrement, plus le temps passe, moins le renforcement des connaissances acquises est utile : l'apprentissage se fait essentiellement au départ, puis on atteint un plateau, et ensuite, seuls des renforcements périodiques seraient nécessaires pour rafraichir et maintenir les connaissances. 

L'auteur pense ou affirme avoir trouvé ce même type de relations pour ce qui est des périodes qui séparent les différentes vagues d'OVNI entre elles.

D'abord, notons que l'auteur semble partir du principe que c'est le nombre de cas (d'expositions) qui déterminerait la force et la puissance de l'apprentissage ou de l'accoutumance que "l'intelligence supposée" manipulerait ; Et non pas, par exemple le nombre de témoins qu'une observation va impliquer ; ou encore le caractère spectaculaire de la manifestation, ou non ; sa médiatisation, etc. 
Je veux dire par là que seule la fréquence importerait et impacterait. Chacun des cas ayant en somme "la même valeur", qu'importe soit le nombre de témoins touchés, qu'importe sa couverture médiatique, etc.
Cela me semble assez "réducteur" et "subjectif" au sein même d'une hypothèse carrément subjective.

Un autre problème est le suivant : il existe aussi des cas OVNI "uniques" et pourtant fortement médiatisés qui n'appartiennent pas à ces vagues. Cas qui ont eu pourtant un impact assez important sur la Société et les contemporains (ou au sein du microcosme ufologique). Par exemple, 1964 est une année "morne" en terme de nombre de cas d'OVNI si on regarde le graphique, mais c'est l'année du cas de Socorro, un cas fortement médiatisé, beaucoup discuté, affiché dans le microcosme ufologique.
Si l'on assoit, comme le fait l'auteur, que le phénomène OVNI a un impact sur la Société et procèderait tel un système de contrôle, semblable à une méthode d'apprentissage ou d'accoutumance optimale, comment rendre compte de ces cas fortement médiatisés, et qui appartiennent à des années relativement "mornes" en nombre de cas et donc en effectif ?
Ces autres pics (non retenus pour opérationnaliser la variable "vagues d'OVNI", et, alors qu'ils sont de même ampleur que d'autres retenus) et les cas isolés pourtant fortement médiatisés ne participeraient pas au système de contrôle que l'auteur propose d'assoir pourtant ici, tout en relevant quand même de celui-ci ? Nous avons relevé en effet, au moins deux pics, en 1972/73 et 1979, soit deux pics assez rapprochés et "en milieu "de distribution, et qui vont donc a priori à l'encontre de l'idée ou hypothèse que les vagues seraient de plus en plus espacées (devenant ensuite une sorte de rafraichissement des connaissances).

Cela tombe bien, on a viré ces deux pics de l'analyse des données...

La distribution des cas d'OVNI depuis 1947 serait telle une application, où le temps d'attente entre chaque vague serait exponentiel (avant le contact !) et semblable à une courbe d'apprentissage optimisée (pour faire court, doublant plus ou moins le temps d'attente entre deux répétitions)... tout en n'y ressemblant pas !

  • Du bricolage ? Ou comment transformer une fonction linéaire attendue en une fonction exponentielle.

Une échelle d'intervalle en "statistiques" est une échelle de mesure avec pour unités A, B, C, etc., où l'écart (étendue) entre A et B = l'écart entre B et C = l'écart entre C et D, etc. C'est très commun dans la vie courante : c'est par exemple le cas pour les échelles de mesure du temps, comme en années, les échelles de mesure de la température, comme en degrés Celsius, des distances, comme en mètres, de mesure de la vitesse, comme en kilomètres par heure, etc. 

A partir de telles échelles d'intervalle, il est évident d'obtenir une fonction linéaire si l'on ordonne les longueurs d'intervalle qui existent entre A et B, puis A et C, puis A et D, puis A et E, etc. Ainsi, pour les cas des années, on conviendra mentalement assez facilement qu'il y a une année entre 1900 et 1901, deux années entre 1900 et 1902, trois années entre 1900 et 1903, quatre années entre 1900 et 1904, etc. 
Maintenant, opérons la chose suivante sur une période allant de 1900 à 1978: si je prends certaines longueurs uniquement au début de cette transformation (par exemple, je ne garde que mon écart 1 - d'une année entre 1900 et 1901-, puis mon écart 4 - de quatre années entre 1900 et 1904 -,  puis mon écart 7 - de sept années entre 1900 et 1907-, que je prenne un écart au centre de la distribution, comme mon écart 34 - de trente-quatre années entre 1900 et 1934 - puis que j'aille vers la fin, par exemple, à mon écart 72  - de soixante-douze années entre 1900 et 1972 - et que je relie ces points, la tendance ou l'allure cette fois-ci ne sera plus linéaire, mais plutôt exponentielle. Or, nous allons voir que c'est sans doute ce qui se passe pour une partie des résultats obtenus.
En d'autres termes, en sélectionnant certains points d'une fonction linéaire, je peux obtenir assez facilement et voir apparaître une tendance ou une allure exponentielle.
Observons justement ce qui se passe pour le graphique suivant, tiré de l'étude de Michael Vaillant (ouvrez-le grâce clic droit + nouvel onglet ou nouvelle fenêtre pour une meilleure visibilité).
 

Relations entre les périodes d'activité du phénomène OVNI (1)

Les Xn en jaune dans ce premier graphique sont une notation adoptée pour exprimer la période (en années) qui s'écoule entre les vagues d'observations (chacune choisie subjectivement - voir plus haut - ).  Ainsi, X3 : période entre v0 et v2 ; X4 = période entre v0 et v3 ; etc. ; X12 = entre v0 et v11. 

Dans cette partie de l'étude, le chercheur veut montrer que la durée des périodes répond à une fonction exponentielle semblable à celle des périodes optimales entre des sessions d'apprentissage, comme cela existe en psychologie de la cognition (pour optimiser l'apprentissage, une méthode consiste à espacer les séances d'apprentissage ou de révision environ du double de la période précédente), comme si le phénomène voulait acculturer et accoutumer les Hommes. C'est ce que l'auteur a obtenu : X3 X4 X5 X9 et X12 s'ordonnent exponentiellement. On s'aperçoit que l'on est également passé d'un moyennage du nombre des observations (cas) sur 3 mois à un moyennage sur 6 mois, et on a ainsi transformé la distribution de départ de façon à faire apparaître des pics plus "artificiellement".
On se décide surtout, pour une raison que j'ignore, d'agglomérer ou de concaténer v5 à v9 (+ v10 ?), soit pas moins de 5 ou 6 pics/vagues pour calculer ce X9 ! Pourquoi ?  Qu'est-ce qui peut bien justifier cela ?

Parce que ces pics et vagues "du milieu" de la distribution sont trop rapprochés, et les garder tels quels irait contre l'hypothèse ? En effet, on s'attend à ce que, chronologiquement, les pics et les vagues soient de moins en moins rapprochés. Or, en milieu de distribution, on a 6 vagues qui vont à l'encontre de cela. Autant les agglomérer/concaténer en une seule !

Cette fonction exponentielle n'existe donc que pour les X3 X4 X5 X9 X12 - choisis arbitrairement - (cela donne périodes = 5, puis 7 puis 10, puis 21, puis 43 ans), mais cela ne marche pas si l'on inclut toutes les "vagues". C'est à dire que si l'on entrait dans le calcul, les périodes v0 à v1, v0 à v2; v0 à v3; ... v0 à v12, cela ne fonctionnera pas. (Et si le chercheur avait gardé les deux pics des années 70's dont nous avons causés et qui ne sont curieusement et arbitrairement pas retenus, cela serait encore pire).
On obtiendra forcément une tendance linéaire (elle est inhérente à toute échelle d'intervalle si l'on procède ainsi, comme nous l'avons montré), mais pour ce qui est d'une tendance exponentionnelle, pas le moins du monde.
Pourquoi enlever des vagues et les périodes associées, vagues que l'on a pourtant opérationnalisées comme telles, si ce n'est pour ne plus les retenir après ?

L'échantillon retenu ici n'a décidément plus rien à voir avec l'échantillon de départ, alors que l'on se proposait de voir si cet échantillon se distribuait notablement.

Au total, c'est sur les périodes v0 à v1, v0 à v2, .. v0 à v12 qu'il aurait été intéressant de retrouver une fonction exponentielle (en se mettant à la place du chercheur et de ce qu'il attend). Or, cela ne marche pas le moins du monde. La tendance linéaire qu'on obtiendrait n'est pas surprenante : sur n'importe quelle distribution s'inscrivant sur une échelle d'intervalle, l'écart entre A et B, puis l'écart entre A et C ,puis A et D, etc. a forcément une tendance linéaire.
Intéressons-nous maintenant au second graphique.


Relations entre les périodes d'activité du phénomène OVNI (2)

Regardez attentivement ce second graphique. On obtient une nouvelle fonction exponentielle "correspondant" à une courbe d'apprentissage (démarrant en 1947 ?). Résultat concluant en apparence. Qu'en est-il vraiment ?

L'auteur produit en effet une autre courbe exponentielle en entrant des données dans le logiciel. Celle-ci donnerait l'impression que les périodes se suivent chronologiquement, puisque les X sont indicés ordinalement, de X1 à X11. En ne retenant que X1 X2 X6 X8 X10 X11, l'auteur fait effectivement apparaître une nouvelle tendance exponentielle. Mais entre quelle période et quelles autres périodes ?
En fait, si on y regarde de près, pour obtenir cette courbe, on a relié arbitrairement et ad hoc v2 à v3 -X1- (on ne part plus de la vague de 1947 !), v3 à v4 -X2-, v3 à v8 -X6- (notez que l'on reste sur v3 - pourquoi donc ? - pour sauter pas moins de 4 vagues ou pics se suivant pourtant chronologiquement !) , puis, "abracadabra", voilà que l'on remonte dans le temps à 1947, et on repart de v0, pour prendre arbitrairement et cette fois-ci l'intervalle v0 à v10 - X10-, puis on s'en retourne arbitrairement à v3, pour considérer enfin l'intervalle de v3 à.... v11 -X11 -.
Pourquoi ne plus ordonner chronologiquement les vagues ou périodes, si l'on veut mettre en évidence un apprentissage, une accommodation, une acculturation au-fur-et-à-mesure ? Qu'est-ce qui justifie ce qui est relié de ce qui ne l'est pas ?  Étrange exercice que voilà ou marelle ?

C'est avec cette "gymnastique" que l'on a obtenu la jolie courbe exponentielle...

***

Au total, il a fallu "bidouiller", "bricoler", concaténer, agglomérer, ficher en l'air et à la poubelle nombre des vagues que l'on a opérationnalisées pourtant (de façon sujette à caution), choisir des intervalles d'une façon totalement arbitraire et en en laissant de très nombreux autres de côté. La fonction exponentielle n'est donc obtenue qu'au détriment d'une élimination drastique de cas, de pics et de périodes entre les vagues (par exemple, pour le premier graphique).
Ou encore (et ici pour ce second graphique), en choisissant des intervalles ou périodes entre les vagues n’obéissant à aucun critère, ni règle précise, en gardant ad hoc, que ceux qui permettent d'obtenir le résultat "escompté".

Du coup, on peut se demander si ce n'est pas la personne qui fait l'étude et qui choisit subjectivement des observations statistiques sur la distribution des cas d'OVNI, le véritable système de contrôle ici... 
  
  • Des Variables sociopsychologiques.
La médiatisation du phénomène OVNI et son impact sociétal ne suivent sans doute pas le rythme et la chronologie des observations d'OVNI au moment où celles-ci se produisent. Or, la littérature et la cinématographie consacrées au phénomène OVNI participent et ont bien évidemment un très fort impact, à inscrire les OVNI dans les consciences. On peut légitimement se demander si ce genre de variables socioculturelles ne serait pas en fait bien plus important que les cas OVNI eux-mêmes, notamment à inscrire les OVNI dans la culture ambiante.

Conclusion

L'étude se heurte d'abord aux problèmes bien connus liés aux bases ufologiques (subjectives, cas parfois non enquêtés ou faiblement documentés, etc.). L'absence dans l'étude d'un groupe contrôle OVI pose un problème crucial à ce genre d'étude, puisque les études montrent une indiscernabilité entre les OVI et les OVNI. On a vu que la variable "vague d'OVNI" était curieusement opérationnalisée, certains pics d'OVNI sont sélectionnés et retenus pour l'analyse statistique, mais d'autres rejetés, alors qu'ils sont pourtant de même ampleur que certains des pics retenus...

Nous avons vu ce que cela pourrait donner si l'on s'intéressait vraiment aux périodes entre les 12 vagues (vo à v1, v0 à v2, vo à v3, etc) : les différentes longueurs des périodes qui espaceraient les vagues retenues ne suivraient pas une fonction exponentielle. Or, c'est ce que l'étude est censée (dé)montrer ou avancer. Nous obtiendrons une tendance linéaire, mais celle-ci est tout a fait logique et intrinsèque à toute transformation de ce genre. Avec les pics non retenus, sans trop en connaître les raisons, cela serait sans aucun doute encore pire.
Quand on s'intéresse donc à ces intervalles, v0 à v1, v0 à v2, etc. jusqu'à v0 à v12, une courbe exponentielle n'est possible qu'en retenant (v0 à v2), (v0 à v3), (v0 à v4), (v0 à v9) et enfin (v0 à v12), c'est à dire en ayant considéré v5 à v10 comme une seule et même vague ayant duré une dizaine d'années ! Qu'est-ce qui justifie cette concaténation de 5 à 6 pics ? Voilà un "rafraichissement" des connaissance du système de contrôle allégué qui dure bien longtemps !

Ensuite, l'auteur retrouve une autre courbe exponentielle, mais au prix d'une gymnastique sur laquelle je me suis arrêté, et qui n'est pas justifiée en ce sens qu'aucune raison ou critère nous explique le pourquoi de ces choix pris et périodes retenues. Si bien que là encore, le résultat me paraît non-probant à quoi que ce soit, sinon qu'à force de piocher dans les intervalles et dans les données, on va tomber au bout d'un moment sur la tendance qu'attend justement le chercheur. Mais à quel prix pour en arriver là, eu égard à l'échantillon de départ ?

En conclusion, et en laissant bon nombre de soucis méthodologiques, même avec l'opérationnalisation "curieuse" de la variable "vague d'OVNI", les courbes exponentielles pouvant assoir l'hypothèse selon laquelle "le phénomène OVNI se comporterait alors comme un système de supervision qui favorise l'apprentissage (l'acculturation) du réseau social humain", sont vraiment obtenues de façon ad hoc, arbitraire, en éliminant pics, cas, périodes et "vagues", et donc au prix d'un "bidouillage" intentionnel ou non.

Cette étude ne m'a pas convaincu le moins du monde (pour rester courtois) et je pense qu'elle ne passerait aucun processus de "peer-review" au sein d'une revue "Mainstream".

Mon prochain billet devrait être consacré sur la question du niveau d'étrangeté ou du très haut niveau d'étrangeté au sein de (certains) récits d'OVNI comme un bon argument, ou non, pour assoir des hypothèses "exotiques".

Gilles Fernandez

Aucun commentaire: