Mardi 17 décembre 2019 – Meetup – Traitement du langage (plus ou moins) naturel sur les réseaux sociaux.

Les techniques de traitement automatique du langage (natural language processing, NLP) ont pris une ampleur importante ces dernières années dans les technologies de l’information. En moins de 5 ans, les avancées en deep learning ont permis d’améliorer la compréhension sémantique de données textuelles complexes et non structurées et d’atteindre des performances jusqu’ici inattendues en traduction automatique, classification thématique, problèmes de question / réponses, reconnaissance d’entités nommées, etc…

Sur les réseaux sociaux, les utilisateurs ont tendance à utiliser un langage très différent du langage parlé ou de l’écrit formel. Par exemple un influenceur sur Instagram de 21 ans qui vit à Paris et qui s’intéresse à la mode pourra transmettre cette information en utilisant un nombre restreint de mots et plusieurs emoji : « 21 yo – 📍Paris – 👻 @fashionvictim – Styliste ». Ici l’âge est induit par la contraction yo (years old), la localisation par l’emoji « épingle », le compte Snapchat par l’emoji « fantôme » et la profession (Styliste) est précisée sans phrase complète. Pour une entreprise comme Upfluence, qui traite les données de plusieurs millions d’influenceurs, ces informations sont capitales mais difficiles à extraire en utilisant des règles expertes ou des modèles de reconnaissance d’entités (NER) pré-entraînés sur des corpus de texte classique (Wikipedia, romans, etc…). De même les pseudonymes, bien que contenants un nombre restreint lettres, peuvent donner des informations intéressantes sur le genre, le nom, l’origine ou les passions d’un influenceur (ex : fashionqueendu69 : fashion [intérêt] – queen [genre] – du – 69 [région]).

Lors de cet exposé, Anil Narassiguin, ingénieur machine learning chez Upfluence et membre actif de Lyon Data Science, présentera les différents projets développés en interne pour pouvoir extraire des informations pertinentes sur des profiles d’influenceurs via les données textuelles de leurs réseaux sociaux. Certains de ces projets sont actuellement en production dans la solution logicielle proposée par Upfluence, d’autres sont encore à l’état expérimental. L’exposé se fera en 3 parties :

– NER sur les descriptions de profils.

– Classification de genre sur des pseudonymes via des modèles character-based.
– NER character-based sur des pseudonymes.

La présentation sera principalement axée sur la méthodologie de ces projets (annotation, choix des frameworks, etc…).

Impatients de vous voir nombreux pour ce dernier meetup de l’année !

L’équipe LDS.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *