Mardi 20 octobre 2020 – Meetup – Les applications du NLP au domaine de l’assurance santé

Ce meet-up sera axé autour d’une problématique d’assurance santé : comment améliorer la connaissance des risques couverts par l’assureur afin de cibler une action de prévention sur la population qui en bénéficiera le plus ? Les prestations santé remboursées par l’assureur santé reflètent partiellement l’historique médical de l’assuré. Ces actes médicaux peuvent être vus comme les mots d’un texte racontant une histoire sur chacun des assurés. Le domaine du text mining peut-il aider dans l’analyse de ces données santé ?

Les travaux présentés ont pour objectif d’utiliser trois méthodes de réduction de dimension issues du domaine de l’analyse du langage (NMF, mSDA et Word2Vec) afin de créer des groupes d’actes de soins. Ces derniers peuvent ensuite être utilisés afin de construire une classification non supervisée des assurés par groupe de risque santé, ce qui facilite le ciblage d’une action de prévention. L’analyse de la stabilité de cette classification sera également évoquée.

L’evenement aura lieu sur Twitch.

https://www.twitch.tv/lyondatascience

Rendez-vous

Lundi 20 juillet 2020 – Meetup – Faut-il faire confiance aux modèles compartimentaux pour l’étude du CoVid?

Ce MeetUp vise à introduire les modèles compartimentaux, très utilisés en épidémiologie. L’accent sera mis sur les modèles en eux mêmes plus que sur leurs résultats : comment sont ils construits ? Quels sont leurs spécificités, avantage et limitations ?

La comparaison détaillée de trois modèles épidémiologiques utilisés par des équipes françaises lors de la crise du CoVid servira à illustrer le propos. La démarche de comparaison des modèles adoptés est une démarche généralisable à l’ensemble de la Data Science, et n’est globalement pas spécifique à l’épidémiologie.

La présentation aura globalement pour vocation de s’adresser à tous, sans forcément de prérequis. Quelques slides nécessiteront un bagage mathématique pour être comprises, mais elles ne seront pas nécessaires pour comprendre l’intuition des modèles (elles ne seront présentes que pour permettre aux slides d’être exhaustives).

Rendez-vous

Mercredi 29 avril 2020 – Meetup – L’Industrialisation des modèles de machine learning via la conteneurisation

What we’ll do

Pour la deuxième session sur Twitch, Lyon Data Science vous propose de s’intéresser à aux sujets de la mise en production et de la conteneurisation en Data Science.

L’industrialisation des modèles de machine learning est une tâche complexe et nécessite souvent l’intervention de plusieurs équipes (dev, devops, architect, data engineer et data scientist). Ainsi, nous vous proposons dans cette session un REX sur une mission d’industrialisation du ML ( Python et R ) via la conteneurisation dans la plateforme Openshift.

Nous aborderons les questions suivantes :

– L’importance de la communication entre les équipes.
– La conteneurisation et le machine learning.
– L’intérêt des pipelines de pré-traitements pour la mise en production des modèles.
– La CI/CD mise en place.
– Le monitoring des modèles et le train automatique via la conteneurisation.

Stack technique :
Openshift, Kubernetes, Docker, Nexus, Gitlab CI/CD, Python, R.

Intervenant : Seif Eddine, Data Scientist chez Ippon Technologies.

Mercredi 22 avril 2020 – Meetup – Quickly build Data Science web apps with Streamlit

Orateur : Fanilo ANDRIANASOLO, Worldline

Pré-requis :
– Une première expérience en Python est un plus
– Aucune connaissance web requise

Vous avez passé un long moment à perfectionner votre modèle de Machine Learning, il est maintenant temps pour les utilisateurs d’interagir avec, via une application web moderne et responsive !
Toutefois nous sommes un peu démunis face à cette question du déploiement web. Il faut extraire le code de notre patchwork de notebooks Jupyter et apprendre à structurer des API REST en Flask pour assurer les prédictions. Il faut se remémorer nos connaissances poussiéreuses en HTML5/CSS3, et découvrir les débats sur les framework Javascript à la mode pour produire une page web interactive…ou alors laisser la main à un développeur web avec le sentiment de ne plus pouvoir faire évoluer seul cette page.

Après tout ce travail dans l’écosystème Data Science, l’impression d’avoir à s’initier au développement web pour mettre notre modèle dans les mains du public est handicapante.
Enter Streamlit (https://www.streamlit.io/), un framework qui vous permet d’implémenter rapidement une application web pour votre modèle sans quitter le monde Pythonic.
Je vous présenterai le mode de fonctionnement et l’API de Streamlit, comment gérer l’interactivité et la mise en cache des données, le tout avec une démonstration live du rendu visuel -et croisons les doigts un déploiement sur Heroku-.

A la fin de ce stream, vous pourrez vous aussi visualiser les fruits de votre projet Data Science sur le web !

L’informatique quantique et le machine learning

L’informatique quantique promet de révolutionner les usages dans les prochaines années en augmentant sensiblement la puissance de calcul à disposition. Comment fonctionne cette technologie ? Où en est-on de son développement ? Quels sont les cas d’usages déjà identifiés ? Combien de temps faut-il encore attendre avant d’en bénéficier ? Notre intervenant du jour Bruno Fedrici, Docteur en Physique avec une thèse en ingénierie quantique, tentera d’apporter des réponses à toutes ces questions. Bruno Fedrici enseigne l’informatique quantique à Epitech et CPE Lyon et est régulièrement amené à introduire cette thématique auprès d’acteurs industriels en les accompagnant dans leurs plans de transformation numérique.

Mardi 14 janvier 2019 – Meetup – Le clustering de clustering pour estimer le temps de parcours des usagers

Le clustering de clustering pour estimer le temps de parcours des usagers sur un réseau routier

Pré-requis
Un bagage général sur le machine learning est souhaitable

À l’échelle de la ville, les états de trafic sont naturellement variables, que ce soit dans l’espace ou au cours du temps. Le partitionnement permet de découper un réseau de transport en zones homogènes. Une zone est définie par un ensemble de liens connectés ayant des conditions de circulation similaires. Nous proposons une approche spatio-temporelle définissant des zones en 3 Dimensions (3D). L’idée est de résumer la majeure partie de la dynamique du trafic d’une ville en utilisant peu d’information : la vitesse moyenne par zone spatio-temporelle. Deux familles de méthodes de clustering fondamentalement différentes sont comparées et évaluées. Le cas d’étude est le réseau d’Amsterdam avec des données réelles.

D’un jour à l’autre, la dynamique du trafic peut être similaire. Nous proposons une méthodologie regroupant les jours par leurs motifs de congestion. L’existence d’une régularité dans les motifs journaliers est introduite par la notion de jour-type. Un jour-type est le jour de référence d’un groupe de jours. Nous validons notre modèle en comparant les temps de parcours effectifs et les temps de parcours estimés par les jours-types. Diverses applications peuvent être raffinées à partir de quelques jours-types, comme l’assistance routière et la génération de tournées.

Clélia Lopez
http://clelialopez.com

Mardi 17 décembre 2019 – Meetup – Traitement du langage (plus ou moins) naturel sur les réseaux sociaux.

Les techniques de traitement automatique du langage (natural language processing, NLP) ont pris une ampleur importante ces dernières années dans les technologies de l’information. En moins de 5 ans, les avancées en deep learning ont permis d’améliorer la compréhension sémantique de données textuelles complexes et non structurées et d’atteindre des performances jusqu’ici inattendues en traduction automatique, classification thématique, problèmes de question / réponses, reconnaissance d’entités nommées, etc…

Sur les réseaux sociaux, les utilisateurs ont tendance à utiliser un langage très différent du langage parlé ou de l’écrit formel. Par exemple un influenceur sur Instagram de 21 ans qui vit à Paris et qui s’intéresse à la mode pourra transmettre cette information en utilisant un nombre restreint de mots et plusieurs emoji : « 21 yo – 📍Paris – 👻 @fashionvictim – Styliste ». Ici l’âge est induit par la contraction yo (years old), la localisation par l’emoji « épingle », le compte Snapchat par l’emoji « fantôme » et la profession (Styliste) est précisée sans phrase complète. Pour une entreprise comme Upfluence, qui traite les données de plusieurs millions d’influenceurs, ces informations sont capitales mais difficiles à extraire en utilisant des règles expertes ou des modèles de reconnaissance d’entités (NER) pré-entraînés sur des corpus de texte classique (Wikipedia, romans, etc…). De même les pseudonymes, bien que contenants un nombre restreint lettres, peuvent donner des informations intéressantes sur le genre, le nom, l’origine ou les passions d’un influenceur (ex : fashionqueendu69 : fashion [intérêt] – queen [genre] – du – 69 [région]).

Lors de cet exposé, Anil Narassiguin, ingénieur machine learning chez Upfluence et membre actif de Lyon Data Science, présentera les différents projets développés en interne pour pouvoir extraire des informations pertinentes sur des profiles d’influenceurs via les données textuelles de leurs réseaux sociaux. Certains de ces projets sont actuellement en production dans la solution logicielle proposée par Upfluence, d’autres sont encore à l’état expérimental. L’exposé se fera en 3 parties :

– NER sur les descriptions de profils.

– Classification de genre sur des pseudonymes via des modèles character-based.
– NER character-based sur des pseudonymes.

La présentation sera principalement axée sur la méthodologie de ces projets (annotation, choix des frameworks, etc…).

Impatients de vous voir nombreux pour ce dernier meetup de l’année !

L’équipe LDS.

Mardi 19 novembre 2019 – Meetup – Deep learning pour l’industrie : un cas d’usage chez Enedis

La session sera consacrée à un retour d’expérience autour du Deep Learning sur la détection automatique de pannes sur le réseau électrique aérien d’Enedis.

Christophe Gay, Data Scientist chez Enedis, et Quentin Fresnel, Data Scientist chez Datalyo, évoqueront les solutions techniques mises en œuvre, les algorithmes implémentés et les aspects métiers relatifs au sujet.

Mardi 15 octobre 2019 – Meetup – Présentation de Sagemaker: plateforme ML d’AWS

Au travers de ce meetup, nous vous proposons de vous présenter la plateforme de Cloud Computing Amazon Web Services (AWS) et détailler plus spécifiquement le service Sagemaker qui permet de réaliser vos travaux de Machine Learning & Deep Learning.

Au menu de cette session :
– Introduction au Cloud Computing et aux différentes briques au travers d’AWS
– Dive Deep sur Amazon Sagemaker au travers d’un cas concret

Ce meetup sera animé par Damien PEELMAN (Ingénieur Machine Learning) et Arnaud JEAN (Data Architect), 2 féru de Data & Analytics au sein du groupe TeamWork.

Vous avez accès à la présentation ici :

Mardi 10 septembre 2019 – Meetup – L’importance de la normalisation en analyse de données

Pré-requis : statistiques descriptives (moyenne, variance, z-score, médiane, distributions, Gausienne, etc)

L’analyse de données est une tâche complexe, composée de multiples étapes successives : lecture des données, pré-traitements, extraction des caractéristiques, modélisation des caractéristiques et évaluation. La normalisation des données semble appartenir majoritairement à l’étape de pré-traitements, ce qui est faux, puisqu’on peut la retrouver aussi dans des tâches haut niveau comme la détection d’anomalies, l’apprentissage automatique, l’apprentissage profond, les tests statistiques, etc. De plus, l’étape de pré-traitements est souvent vue comme contraignante et peu valorisante. Il n’en est rien, car en réalité, c’est ici que se joue une grande part de l’efficacité de toute la chaine de traitements. La valeur ajoutée du data scientist est rarement dans l’étape maSuperMethode.apply(), mais plus souvent dans la manière de présenter les données à cette méthode.
Dans cet exposé, nous verrons dans un premier temps l’intérêt de la normalisation, puis les différentes manières de normaliser, et enfin les applications.

Quentin Barthélemy

Vous avez accès aux slides à partir du lien suivant : http://www.slideshare.net/secret/qej6iuFlYu1gna

Et à la vidéo ici :