Mardi 1 juin 2021 – Meetup – Efficacité « réelle » d’un test de catégorisation

 

Que ce soit en Data Science ou en médical (test Covid !), un test de catégorisation est livré avec des indicateurs de qualité calculés au moment de l’apprentissage et/ou de la mise au point.
La question abordée par cette présentation est la suivante : un objet/individu est soumis au test, le test prédit « positif » (ou « catégorie C1 »), peut-on simplement appliquer les indicateurs de qualité pour en déduire la probabilité que l’objet/individu soit réellement « positif » (ou de « catégorie C1 ») ?

Oratrice : Dominique Maret

Rendez-vous

Voici l’enregistrement du meetup :

Mardi 2 mars 2021 – Meetup – ML à l’échelle : Session LiveCoding sur Spark MLlib

A propos du Machine Learning en production, et si on parlait du passage à l’échelle ?
Comment adapter nos algorithmes pour travailler avec une taille arbitraire de données ?

Une des références du traitement de données à haute volumétrie est Apache Spark. Celui-ci embarque dans ses valises quelque chose qui peut nous intéresser : MLlib.

Pourquoi recourrir à Spark MLlib ? Quand doit-on l’utiliser ? Et surtout comment ?
Aujourd’hui, retrouvons nous pour une session de programmation en live sur la bibliothèque de machine learning de Spark.

Orateur : Guillaume Facchini

Rendez-vous

Mardi 19 janvier 2021 – Meetup – Machine learning en production

Une fois passée la phase de prototype, comment va-t-on en production quand on fait du machine learning ?

Comment s’assure-t-on que tout va bien une fois en production ?

Déploiement, tests, monitoring, etc. Il y a beaucoup de choses à penser. Sur ce long sujet, je vous propose ici une petite introduction basée sur mes expériences.

Oratrice : Nastasia Saby

Rendez-vous

Voici l’enregistrement du meetup :

Jeudi 3 décembre 2020 – Meetup – Prédiction de classements de courses sportives à partir d’estimations locales

Le Datawok a eu l’opportunité de travailler sur un projet d’aide à la prise de paris sportifs dont l’objectif était d’identifier les favoris et les outsiders d’une course.
Comment ? En prédisant avant chaque course et pour chaque coureur sa probabilité d’arriver à un rang donné.
Pour atteindre cet objectif, nous avions à notre disposition de nombreuses données concernant les coureurs (âge, palmarès, statistiques variées, …), mais aussi sur la course en elle-même (date et heure, température, nature de la piste, …). A l’occasion de ce Meetup, je vous dévoile la méthode mise au point par l’équipe Datawok pour obtenir des scores égalant ceux d’experts en prise de paris.

Intervenant: Daoud Chami, Data Scientist au Datawok, le pôle Data de Linkvalue.

L’évènement aura lieu sur la chaine Twitch de LDS.
https://www.twitch.tv/lyondatascience

Rendez-vous

Voici l’enregistrement du meetup :

Mardi 20 octobre 2020 – Meetup – Les applications du NLP au domaine de l’assurance santé

Ce meet-up sera axé autour d’une problématique d’assurance santé : comment améliorer la connaissance des risques couverts par l’assureur afin de cibler une action de prévention sur la population qui en bénéficiera le plus ? Les prestations santé remboursées par l’assureur santé reflètent partiellement l’historique médical de l’assuré. Ces actes médicaux peuvent être vus comme les mots d’un texte racontant une histoire sur chacun des assurés. Le domaine du text mining peut-il aider dans l’analyse de ces données santé ?

Les travaux présentés ont pour objectif d’utiliser trois méthodes de réduction de dimension issues du domaine de l’analyse du langage (NMF, mSDA et Word2Vec) afin de créer des groupes d’actes de soins. Ces derniers peuvent ensuite être utilisés afin de construire une classification non supervisée des assurés par groupe de risque santé, ce qui facilite le ciblage d’une action de prévention. L’analyse de la stabilité de cette classification sera également évoquée.

L’évènement aura lieu sur Twitch.

https://www.twitch.tv/lyondatascience

Rendez-vous

Lundi 20 juillet 2020 – Meetup – Faut-il faire confiance aux modèles compartimentaux pour l’étude du CoVid?

Ce MeetUp vise à introduire les modèles compartimentaux, très utilisés en épidémiologie. L’accent sera mis sur les modèles en eux mêmes plus que sur leurs résultats : comment sont ils construits ? Quels sont leurs spécificités, avantage et limitations ?

La comparaison détaillée de trois modèles épidémiologiques utilisés par des équipes françaises lors de la crise du CoVid servira à illustrer le propos. La démarche de comparaison des modèles adoptés est une démarche généralisable à l’ensemble de la Data Science, et n’est globalement pas spécifique à l’épidémiologie.

La présentation aura globalement pour vocation de s’adresser à tous, sans forcément de prérequis. Quelques slides nécessiteront un bagage mathématique pour être comprises, mais elles ne seront pas nécessaires pour comprendre l’intuition des modèles (elles ne seront présentes que pour permettre aux slides d’être exhaustives).

Rendez-vous

Mercredi 29 avril 2020 – Meetup – L’Industrialisation des modèles de machine learning via la conteneurisation

What we’ll do

Pour la deuxième session sur Twitch, Lyon Data Science vous propose de s’intéresser à aux sujets de la mise en production et de la conteneurisation en Data Science.

L’industrialisation des modèles de machine learning est une tâche complexe et nécessite souvent l’intervention de plusieurs équipes (dev, devops, architect, data engineer et data scientist). Ainsi, nous vous proposons dans cette session un REX sur une mission d’industrialisation du ML ( Python et R ) via la conteneurisation dans la plateforme Openshift.

Nous aborderons les questions suivantes :

– L’importance de la communication entre les équipes.
– La conteneurisation et le machine learning.
– L’intérêt des pipelines de pré-traitements pour la mise en production des modèles.
– La CI/CD mise en place.
– Le monitoring des modèles et le train automatique via la conteneurisation.

Stack technique :
Openshift, Kubernetes, Docker, Nexus, Gitlab CI/CD, Python, R.

Intervenant : Seif Eddine, Data Scientist chez Ippon Technologies.

Voici l’enregistrement du Meetup :

Mercredi 22 avril 2020 – Meetup – Quickly build Data Science web apps with Streamlit

Orateur : Fanilo ANDRIANASOLO, Worldline

Pré-requis :
– Une première expérience en Python est un plus
– Aucune connaissance web requise

Vous avez passé un long moment à perfectionner votre modèle de Machine Learning, il est maintenant temps pour les utilisateurs d’interagir avec, via une application web moderne et responsive !
Toutefois nous sommes un peu démunis face à cette question du déploiement web. Il faut extraire le code de notre patchwork de notebooks Jupyter et apprendre à structurer des API REST en Flask pour assurer les prédictions. Il faut se remémorer nos connaissances poussiéreuses en HTML5/CSS3, et découvrir les débats sur les framework Javascript à la mode pour produire une page web interactive…ou alors laisser la main à un développeur web avec le sentiment de ne plus pouvoir faire évoluer seul cette page.

Après tout ce travail dans l’écosystème Data Science, l’impression d’avoir à s’initier au développement web pour mettre notre modèle dans les mains du public est handicapante.
Enter Streamlit (https://www.streamlit.io/), un framework qui vous permet d’implémenter rapidement une application web pour votre modèle sans quitter le monde Pythonic.
Je vous présenterai le mode de fonctionnement et l’API de Streamlit, comment gérer l’interactivité et la mise en cache des données, le tout avec une démonstration live du rendu visuel -et croisons les doigts un déploiement sur Heroku-.

A la fin de ce stream, vous pourrez vous aussi visualiser les fruits de votre projet Data Science sur le web !

L’informatique quantique et le machine learning

L’informatique quantique promet de révolutionner les usages dans les prochaines années en augmentant sensiblement la puissance de calcul à disposition. Comment fonctionne cette technologie ? Où en est-on de son développement ? Quels sont les cas d’usages déjà identifiés ? Combien de temps faut-il encore attendre avant d’en bénéficier ? Notre intervenant du jour Bruno Fedrici, Docteur en Physique avec une thèse en ingénierie quantique, tentera d’apporter des réponses à toutes ces questions. Bruno Fedrici enseigne l’informatique quantique à Epitech et CPE Lyon et est régulièrement amené à introduire cette thématique auprès d’acteurs industriels en les accompagnant dans leurs plans de transformation numérique.

Mardi 14 janvier 2019 – Meetup – Le clustering de clustering pour estimer le temps de parcours des usagers

Le clustering de clustering pour estimer le temps de parcours des usagers sur un réseau routier

Pré-requis
Un bagage général sur le machine learning est souhaitable

À l’échelle de la ville, les états de trafic sont naturellement variables, que ce soit dans l’espace ou au cours du temps. Le partitionnement permet de découper un réseau de transport en zones homogènes. Une zone est définie par un ensemble de liens connectés ayant des conditions de circulation similaires. Nous proposons une approche spatio-temporelle définissant des zones en 3 Dimensions (3D). L’idée est de résumer la majeure partie de la dynamique du trafic d’une ville en utilisant peu d’information : la vitesse moyenne par zone spatio-temporelle. Deux familles de méthodes de clustering fondamentalement différentes sont comparées et évaluées. Le cas d’étude est le réseau d’Amsterdam avec des données réelles.

D’un jour à l’autre, la dynamique du trafic peut être similaire. Nous proposons une méthodologie regroupant les jours par leurs motifs de congestion. L’existence d’une régularité dans les motifs journaliers est introduite par la notion de jour-type. Un jour-type est le jour de référence d’un groupe de jours. Nous validons notre modèle en comparant les temps de parcours effectifs et les temps de parcours estimés par les jours-types. Diverses applications peuvent être raffinées à partir de quelques jours-types, comme l’assistance routière et la génération de tournées.

Clélia Lopez
http://clelialopez.com