Qualification des bases de données : Un algorithme devine le sexe en analysant les Tweets !


Le datamining sur Internet vient d'avoir un coup de génie, et l'anonymat sur Internet une claque d'envergure du côté de Twitter à cause d’un nouvel algorithme.

Des chercheurs, en analysant le contenu d’un grand nombre de Tweets, ont trouvé un moyen efficace de déterminer le sexe d'un twitter juste à partir de ce que l'utilisateur partage sur le réseau social.

Ce sont des chercheur de la Mitre corporation qui ont mis au point l’agorithme pour déterminer avec une certitude assez satisfaisante le sexe d’un utiilisateur grâce à un de ses Tweet, de sa description ou de toute sa timeline.

Twitter ne demande pas le sexe sur les profils, ce qui a expliqué le choix de ce réseau pour tester l’algorithme. Une première équipe a collecté la localisation, le nom du profil, le vrai nom de tous, puis le sexe de 184,000 compte (de manière externe à l’algorithme). Ainsi, tous les Tweets de ces 184,000 personnes ont été analysés et les chercheurs ont essayé de voir les caractéristiques inhérentes aux comptes féminins et masculins qui permettraient de les discriminer.

Une première phase de test a été de déterminer si l’algorithme pouvait retrouver le sexe grâce au nom du profil, ce qui était possible dans 89% des cas ! Plus dur maintenant, en analysant le contenu d’un simple Tweet prit au hasard, l’algorithme retrouve dans 66% des cas le sexe de l’utilisateur, ce qui n’est pas très précis mais assez impressionnant sur si peu d’information. En analysant tous les Tweets sur une timeline, la précision augmente à 75% d’identité et 77% en analysant simplement la description. En prenant en compte les Tweets, le nom et la description en même temps, la précision de l’algorithme monte à 92% !

La ponctuation s’est souvent avéré être un très bon indicateur du sexe. L’usage du smiley souriant ou une utilisation abusive des points s’exclamation semble être typiquement corrélé avec des utilisateurs féminins.

Le vocabulaire est aussi un bon discriminant des mots comme « amour », « mignon », « heureux », « maman », « dormir », « école », « bébé », « lit », « chocolat » ont tendance à indiquer également un profil féminin alors que les mots discriminants masculins trouvés par l’algorithme sont seulement « http » et « google » (ainsi que la non-utilisation des mots pour les filles) !

Ça peut paraître bizarre et/ou stéréotypé … mais apparemment ça marche !

Il est certain que ce genre d’algorithme risque d’intéresser Twitter puisque grâce à une analyse rapide du sexe probable de l’utilisateur, la plate-forme de micro-blogging pourra affiner ses publicités ciblées, une fonctionnalité très recherchée par les annonceurs.


Vous souhaitez qualifier vos bases de données à l’aide de solutions de communication unifiées. Faites appel à notre expertise et à notre savoir faire. N’hésitez pas à nous contactez : emedia@w3consulting.ma et nous nous ferons un plaisir de répondre à vos besoins.



Source : Presse-citron

Leave a Reply