lundi 17 octobre 2016

CRITIQUE DEBAT Big Data, de la prédiction à l’intervention

Big Data, de la prédiction à l’intervention
article 15 octobre 2016 sur internetactu.blog.lemonde.fr* Hubert Guillaud, journaliste sur InternetActu 

Malgré leurs nombreuses limites, Big Data et machine learning promettent de nous calculer, de nous analyser, de nous prédire… de deviner avec toujours plus d’acuité nos comportements à venir. Pour autant que nous puissions prendre ces promesses au sérieux, il y a un fossé entre la prédiction et l’intervention, entre inférer quelque chose et opérer une réponse. Un fossé d’autant plus béant que peu de monde semble s’y intéresser.
Des modèles prédictifs psycho-solutionnistes !Il ne se passe pas un jour sans qu’une étude propose une nouvelle solution prédictive, en construisant un modèle depuis de nouveaux ensembles de données. Déroulons un exemple récent… pour bien comprendre.
La perception de la couleur semble être très liée à notre état émotionnel, estime plusieurs études, rapporte FastCoDesign. Andrew Reece et Christopher Danforth de l’université de Harvard et du Computational Story Lab de l’université du Vermont, ont utilisé Instagram, le réseau social de partage de photos, pour étudier la dépression. Selon leur état émotionnel, les gens communiquent différemment : ce qui a un impact en retour sur leur état émotionnel. Ils ont donc créé un modèle en analysant l’état émotionnel de 160 personnes et observé l’impact de celui-ci sur les photos de leur compte Instagram, en s’intéressant à des détails comme la tonalité des couleurs, la luminosité des images, leur saturation et le type de filtres qu’ils appliquaient à leurs photos. Ils ont également demandé à des utilisateurs de noter les photos de leurs « patients » selon qu’elles reflétaient pour eux la joie ou la tristesse.
Selon les chercheurs, les données sociales, comme les commentaires, les likes ou le nombre de publications quotidiennes sont peu corrélés à la dépression. Bien moins en tout cas que la tonalité (le niveau de bleu ou de rouge dans les couleurs), la luminosité ou la saturation. Les utilisateurs déprimés ont tendance à poster des images comportant plus de bleu, moins brillantes et moins saturées. Ils ont une préférence pour des photos avec moins de couleurs et moins de lumières. A l’inverse, les images favorisant les tons rouges, les lumières vives seraient des indicateurs de bonne santé. Les dépressifs ont tendance à moins utiliser de filtres et publient plus de portraits et notamment plus de selfies.
depressioninstagram
filtreinstadepression
Image : L’usage des filtres sur Instagram selon votre état de santé.
Si vous croyez que cela va vous permettre de porter un autre oeil sur vos photos de vacances ou celles de vos amis, détrompez-vous ! Dans un très utile complément, Nick Stockton pour Wired rappelle que si cette étude conclut à une association entre filtres utilisés et sentiments, il est encore un peu prématuré de vous prendre pour un psychiatre chaque fois qu’un de vos amis publiera un selfie pâlot.
En fait, les publications sur les médias sociaux ne sont certainement pas la meilleure source pour ce genre de diagnostics, notamment parce qu’ils permettent aux utilisateurs de garder la main sur ce qu’ils publient. Pour le psychiatre Stephen Schueller, seules les données qui ne sont pas façonnées par les utilisateurs doivent pouvoir être prises en compte, comme c’est le cas des indications de déplacements, des rencontres, de leurs fréquences… « Les personnes dont les mouvements sont plus rythmiques ont des niveaux d’anxiété et de dépression plus bas », explique-t-il. Les gens déprimés ont tendance à rater des rendez-vous, à refuser de sortir, vont ou partent du travail plus tôt ou plus tard… Les déplacements, les agendas, le graphe social de vos rencontres… pourraient être de meilleurs prédicateurs de l’état de santé qu’une photo et que la façon dont vous l’avez transformé pour la rendre belle à vos yeux.
D’autres données pourraient être utilement utilisées à ces fins. Des chercheurs Danois ont publié une étude qui utilise le micro des smartphones pour écouter en permanence conversations, bruits ambiants, et analyser bien sûr vitesse de parole, ton de parole (plus que le contenu des propos). Là encore, sans beaucoup plus de surprise par rapport aux évidences de l’intuition, les gens déprimés ont tendance à avoir une diction plus lente et plus « plate ».
Reste que si les données recueillies par-devers l’utilisateur sont considérées comme moins manipulables par celui-ci et donc plus fiables, force est de reconnaître que ce type de diagnostic numérique passif est encore assez brut. Pas sûr que nous puissions lui faire confiance pour prédire d’une manière fiable notre humeur à la volée.
Ce que nous disent ces exemples surtout, c’est combien l’analyse de données, le Big data, peut produire un avis sur tout. Depuis des modèles, parfois très rapidement bâtis, on peut inférer des catégorisations de comportement. Mais si on peut tout analyser, faire des corrélations sur tout, tenter de tirer du sens… il demeure une grande inconnue : comment construit-on des formes de rétroaction pour l’utilisateur final à partir de ces données ?

Comment ces modèles vont-ils rétroagir ?

Et là, ça devient tout de suite plus difficile. D’abord, on se rend compte que ces données prises isolément ne sont certainement pas suffisantes pour faire un diagnostic fiable.
Mais quand bien même des conjonctions d’outils et de traitements feraient des analyses qui se recoupent, comment rendre cette information à l’utilisateur, comment la lui délivrer ?
Ce type d’analyse automatisée pose la question de la chaîne d’interaction de ces informations. Comment votre téléphone ou les opérateurs de services qui utiliseront ces méthodes d’analyse automatique devront-ils alerter les gens concernés ou leurs proches (et lesquels ?) Quel outil va décider que vous êtes déprimés ? Votre téléphone ? Instagram ?… Instagram va-t-il contacter vos amis, votre famille, votre femme ou votre maîtresse ? Votre médecin ? Vont-ils nous indiquer que nous devrions acheter un peu de Prozac parce qu’on a mis trop de filtres décolorés sur nos photos ? Quel taux de confiance pourrons-nous avoir dans ces analyses ?
Si nombre d’études s’intéressent à l’analyse et au diagnostic, il reste à développer des études pour savoir et comprendre comment ces systèmes doivent prévenir les utilisateurs ou leurs proches, et comment ils vont discuter avec les usagers. Le champ de la prédiction enfle à mesure que des études exploitent de nouveaux répertoires de données toujours plus interconnectées. L’analyse automatisée fait émerger des schémas comportementaux, des récurrences, des régularités statistiques… Mais, si des analyses de ce type seront certes demain possibles… rien ne nous est dit de leur acceptation sociale, de leur implémentation concrète, de la pertinence effective de leurs critères, des modalités d’implémentations et d’alertes qui en résulteront, de la manière dont ils vont rétro-réagir sur les utilisateurs eux-mêmes. Autant de points qui semblent encore une vaste inconnue dans le bouillonnement actuel d’une analyse prédictive qui semble ne connaître aucune limite. Comme le souligne le professeur Aneesha Singh de l’University College de Londres dans un article du New Scientist, les systèmes ont encore du mal à comprendre comment intervenir quand ils détectent un problème. Si l’on sait créer des formes de soutien émotionnel via les machines, notamment via la personnification, celles-ci ont encore bien du mal à comprendre comment intervenir quand elles détectent un problème. Malgré les travaux dans le domaine de l’informatique émotionnelle, les progrès dans l’analyse et la détection des signaux sensibles émis par les humains qu’évoquait récemment la Technology Review, semble toujours mettre de côté la question de la conception et de l’intégration des interactions depuis ces analyses. Si l’analyse de données et la modélisation du monde progressent, la question de l’exploitation, de la rétroaction de ces connaissances semble demeurer le parent pauvre de la recherche.
A l’heure où les applications de santé se démultiplient, où les capteurs de données sont partout, où le solutionnisme règne en maître, il semble que la question de la conception des alertes, leurs paramétrages, reste un problème que bien peu traitent. Difficile de croire, pourtant que ces systèmes pourront fonctionner tout seul. Comme le soulignait Gina Neff (@ginasue) dans un article de recherche de 2013, intitulé « Pourquoi le Big data ne va pas nous guérir », l’enjeu est de savoir comment utiliser les données issues du Big data médical dans la pratique. La puissance des données néglige les aspects clés de ‘ »l’interopérabilité sociale ». Si les données permettent de découvrir des motifs, de mettre à jour des patterns, des modèles, cela nécessite encore de les connecter aux soins, au système médical et pas seulement les renvoyer au seul patient pour qu’il s’en débrouille avec. Ce serait comme si votre téléphone en analysant vos photos sur Instagram vous renvoyait un message : vous êtes visiblement dépressif, consultez ! Comme le souligne très bien Gina Neff, quand on parle d’innovation en santé autour des données, les promoteurs du Big data négligent souvent la façon dont encadrer et délivrer l’information. Bref, l’analyse de l’information ne suffit pas. Comment allons-nous rendre lisible cette information aux utilisateurs eux-mêmes ? L’analyse des données est un modèle puissamment séduisant qui permet de démultiplier l’interprétation, mais qui renvoie à de nombreux problèmes de connaissance, d’interprétation et d’action. Traduire des comportements en connaissance ne nous dit pas grand-chose de la manière dont nous allons rendre cette connaissance aux gens.
Pour prendre un autre exemple, l’éditorialiste du New York Times Anna North (@annanorthtweets), revenait récemment sur la perspective que les outils d’analyse des réseaux sociaux soient capables de détecter différentes formes de harcèlement. Mais l’identifier ne dit rien des modalités de réponse que nous y apporterons. Aujourd’hui, quelqu’un qui subit des intimidations en ligne est le seul à pouvoir signaler l’incident. Mais que se passera-t-il quand des outils tiers seront capables de les repérer ? Les plateformes seront-elles les seules responsables de cette gestion ? Devront-elles demander à la victime si elle a besoin d’aide ou se contenter de rendre plus visible un bouton d’alerte ? Un modérateur pourra-t-il invertenir au nom de la victime ? Y aura-t-il une procédure d’alerte pour les mineurs ? Qui est-ce que le système devra prévenir ? Les parents ? Un médecin ? Des éducateurs sociaux ? Des professeurs ?
On pourrait certainement construire depuis Facebook un modèle prédictif permettant de prédire quand un utilisateur risque de prendre de la drogue selon l’évolution de ses centres d’intérêt et les relations qu’il développe. Mais comment délivrer et utiliser cette information ?
Aujourd’hui, les données nous promettent une compréhension intégrale du monde. Reste tout de même à nous la livrer… Ça risque d’être un peu plus difficile que de l’analyser !
Hubert Guillaud

15 octobre 2016
http://internetactu.blog.lemonde.fr/2016/10/15/big-data-de-la-prediction-a-lintervention/