Mercredi 22 avril 2020 – Meetup – Quickly build Data Science web apps with Streamlit

Orateur : Fanilo ANDRIANASOLO, Worldline

Pré-requis :
– Une première expérience en Python est un plus
– Aucune connaissance web requise

Vous avez passé un long moment à perfectionner votre modèle de Machine Learning, il est maintenant temps pour les utilisateurs d’interagir avec, via une application web moderne et responsive !
Toutefois nous sommes un peu démunis face à cette question du déploiement web. Il faut extraire le code de notre patchwork de notebooks Jupyter et apprendre à structurer des API REST en Flask pour assurer les prédictions. Il faut se remémorer nos connaissances poussiéreuses en HTML5/CSS3, et découvrir les débats sur les framework Javascript à la mode pour produire une page web interactive…ou alors laisser la main à un développeur web avec le sentiment de ne plus pouvoir faire évoluer seul cette page.

Après tout ce travail dans l’écosystème Data Science, l’impression d’avoir à s’initier au développement web pour mettre notre modèle dans les mains du public est handicapante.
Enter Streamlit (https://www.streamlit.io/), un framework qui vous permet d’implémenter rapidement une application web pour votre modèle sans quitter le monde Pythonic.
Je vous présenterai le mode de fonctionnement et l’API de Streamlit, comment gérer l’interactivité et la mise en cache des données, le tout avec une démonstration live du rendu visuel -et croisons les doigts un déploiement sur Heroku-.

A la fin de ce stream, vous pourrez vous aussi visualiser les fruits de votre projet Data Science sur le web !

L’informatique quantique et le machine learning

L’informatique quantique promet de révolutionner les usages dans les prochaines années en augmentant sensiblement la puissance de calcul à disposition. Comment fonctionne cette technologie ? Où en est-on de son développement ? Quels sont les cas d’usages déjà identifiés ? Combien de temps faut-il encore attendre avant d’en bénéficier ? Notre intervenant du jour Bruno Fedrici, Docteur en Physique avec une thèse en ingénierie quantique, tentera d’apporter des réponses à toutes ces questions. Bruno Fedrici enseigne l’informatique quantique à Epitech et CPE Lyon et est régulièrement amené à introduire cette thématique auprès d’acteurs industriels en les accompagnant dans leurs plans de transformation numérique.

Mardi 14 janvier 2019 – Meetup – Le clustering de clustering pour estimer le temps de parcours des usagers

Le clustering de clustering pour estimer le temps de parcours des usagers sur un réseau routier

Pré-requis
Un bagage général sur le machine learning est souhaitable

À l’échelle de la ville, les états de trafic sont naturellement variables, que ce soit dans l’espace ou au cours du temps. Le partitionnement permet de découper un réseau de transport en zones homogènes. Une zone est définie par un ensemble de liens connectés ayant des conditions de circulation similaires. Nous proposons une approche spatio-temporelle définissant des zones en 3 Dimensions (3D). L’idée est de résumer la majeure partie de la dynamique du trafic d’une ville en utilisant peu d’information : la vitesse moyenne par zone spatio-temporelle. Deux familles de méthodes de clustering fondamentalement différentes sont comparées et évaluées. Le cas d’étude est le réseau d’Amsterdam avec des données réelles.

D’un jour à l’autre, la dynamique du trafic peut être similaire. Nous proposons une méthodologie regroupant les jours par leurs motifs de congestion. L’existence d’une régularité dans les motifs journaliers est introduite par la notion de jour-type. Un jour-type est le jour de référence d’un groupe de jours. Nous validons notre modèle en comparant les temps de parcours effectifs et les temps de parcours estimés par les jours-types. Diverses applications peuvent être raffinées à partir de quelques jours-types, comme l’assistance routière et la génération de tournées.

Clélia Lopez
http://clelialopez.com

Mardi 17 décembre 2019 – Meetup – Traitement du langage (plus ou moins) naturel sur les réseaux sociaux.

Les techniques de traitement automatique du langage (natural language processing, NLP) ont pris une ampleur importante ces dernières années dans les technologies de l’information. En moins de 5 ans, les avancées en deep learning ont permis d’améliorer la compréhension sémantique de données textuelles complexes et non structurées et d’atteindre des performances jusqu’ici inattendues en traduction automatique, classification thématique, problèmes de question / réponses, reconnaissance d’entités nommées, etc…

Sur les réseaux sociaux, les utilisateurs ont tendance à utiliser un langage très différent du langage parlé ou de l’écrit formel. Par exemple un influenceur sur Instagram de 21 ans qui vit à Paris et qui s’intéresse à la mode pourra transmettre cette information en utilisant un nombre restreint de mots et plusieurs emoji : « 21 yo – 📍Paris – 👻 @fashionvictim – Styliste ». Ici l’âge est induit par la contraction yo (years old), la localisation par l’emoji « épingle », le compte Snapchat par l’emoji « fantôme » et la profession (Styliste) est précisée sans phrase complète. Pour une entreprise comme Upfluence, qui traite les données de plusieurs millions d’influenceurs, ces informations sont capitales mais difficiles à extraire en utilisant des règles expertes ou des modèles de reconnaissance d’entités (NER) pré-entraînés sur des corpus de texte classique (Wikipedia, romans, etc…). De même les pseudonymes, bien que contenants un nombre restreint lettres, peuvent donner des informations intéressantes sur le genre, le nom, l’origine ou les passions d’un influenceur (ex : fashionqueendu69 : fashion [intérêt] – queen [genre] – du – 69 [région]).

Lors de cet exposé, Anil Narassiguin, ingénieur machine learning chez Upfluence et membre actif de Lyon Data Science, présentera les différents projets développés en interne pour pouvoir extraire des informations pertinentes sur des profiles d’influenceurs via les données textuelles de leurs réseaux sociaux. Certains de ces projets sont actuellement en production dans la solution logicielle proposée par Upfluence, d’autres sont encore à l’état expérimental. L’exposé se fera en 3 parties :

– NER sur les descriptions de profils.

– Classification de genre sur des pseudonymes via des modèles character-based.
– NER character-based sur des pseudonymes.

La présentation sera principalement axée sur la méthodologie de ces projets (annotation, choix des frameworks, etc…).

Impatients de vous voir nombreux pour ce dernier meetup de l’année !

L’équipe LDS.

Mardi 19 novembre 2019 – Meetup – Deep learning pour l’industrie : un cas d’usage chez Enedis

La session sera consacrée à un retour d’expérience autour du Deep Learning sur la détection automatique de pannes sur le réseau électrique aérien d’Enedis.

Christophe Gay, Data Scientist chez Enedis, et Quentin Fresnel, Data Scientist chez Datalyo, évoqueront les solutions techniques mises en œuvre, les algorithmes implémentés et les aspects métiers relatifs au sujet.

Mardi 15 octobre 2019 – Meetup – Présentation de Sagemaker: plateforme ML d’AWS

Au travers de ce meetup, nous vous proposons de vous présenter la plateforme de Cloud Computing Amazon Web Services (AWS) et détailler plus spécifiquement le service Sagemaker qui permet de réaliser vos travaux de Machine Learning & Deep Learning.

Au menu de cette session :
– Introduction au Cloud Computing et aux différentes briques au travers d’AWS
– Dive Deep sur Amazon Sagemaker au travers d’un cas concret

Ce meetup sera animé par Damien PEELMAN (Ingénieur Machine Learning) et Arnaud JEAN (Data Architect), 2 féru de Data & Analytics au sein du groupe TeamWork.

Vous avez accès à la présentation ici :

Mardi 10 septembre 2019 – Meetup – L’importance de la normalisation en analyse de données

Pré-requis : statistiques descriptives (moyenne, variance, z-score, médiane, distributions, Gausienne, etc)

L’analyse de données est une tâche complexe, composée de multiples étapes successives : lecture des données, pré-traitements, extraction des caractéristiques, modélisation des caractéristiques et évaluation. La normalisation des données semble appartenir majoritairement à l’étape de pré-traitements, ce qui est faux, puisqu’on peut la retrouver aussi dans des tâches haut niveau comme la détection d’anomalies, l’apprentissage automatique, l’apprentissage profond, les tests statistiques, etc. De plus, l’étape de pré-traitements est souvent vue comme contraignante et peu valorisante. Il n’en est rien, car en réalité, c’est ici que se joue une grande part de l’efficacité de toute la chaine de traitements. La valeur ajoutée du data scientist est rarement dans l’étape maSuperMethode.apply(), mais plus souvent dans la manière de présenter les données à cette méthode.
Dans cet exposé, nous verrons dans un premier temps l’intérêt de la normalisation, puis les différentes manières de normaliser, et enfin les applications.

Quentin Barthélemy

Vous avez accès aux slides à partir du lien suivant : http://www.slideshare.net/secret/qej6iuFlYu1gna

Et à la vidéo ici :

Mardi 4 juin 2019 – Meetup – Qu’est-ce que l’écologie nous apprend sur la résistance aux antibiotiques?

Pour cette nouvelle séance de Lyon Data Science nous accueillons Julie Shapiro PhD, chercheuse chez l’Institut national de la santé et de la recherche médicale (INSERM).

Les antibiotiques ont transformé la médecine au siècle dernier, mais leur efficacité est à présent menacée par la résistance des bactéries pathogènes. Si nous n’enrayons pas la diffusion des bactéries multirésistantes, elle pourrait nous mener à une ère post-antibiotique dans laquelle le risque d’infection nosocomiale fatale menacerait le bénéfice de pratiques aussi courantes que les chimiothérapies ou les césariennes.

Nos stratégies actuelles contre la résistance, qui cherchent à réduire : 1. l’utilisation des antibiotiques (épargne antibiotique) et 2. la transmission des pathogènes résistants (hygiène hospitalière), ont eu jusqu’à présent un succès limité. Nous avons en effet une compréhension limitée de l’évolution et de la dissémination de la multirésistance ainsi que de la façon dont elle est influencée par l’environnement hospitalier, les stratégies d’épargne antibiotique et l’hygiène hospitalière.

Je montrerai comment les analyses adaptées d’écologie peuvent nous aider à comprendre les facteurs qu’influence la résistance aux antibiotiques dans les hôpitaux et nous permettent de concevoir des stratégies optimales, fondées sur une théorie écologique solide, pour mieux combattre la résistance.

Mardi 14 mai 2019 – Meetup – 7 conseils pour démarrer avec Spark

Après plusieurs sessions orientées Machine Learning, nous vous proposons de revenir un sur de la technique avec un retour d’expérience sur Apache Spark de Nastasia Saby, ingénieure Big Data chez Zenika. Elle passera en revue 7 conseils indispensables pour bien démarrer avec Spark. Au menu de cette session :
– L’utilisation du Spark-Shell.
– Différence entre transformations et actions.
– Apprendre les bases de Scala ?
– Connaître son infra.
– Les RDDs.
– Replonge toi dans le SQL !
– Ne pas abuser des UDFS.
– Les tests en Spark.

A bientôt !

Avec ce retour d’expérience, je vous propose de vous dire ce que j’aurais aimé qu’on me dise avant de me lancer dans Spark. Je promets aussi de vous parler de ce que bien heureusement mes camarades plus expérimentés m’ont aussi donné comme astuces pour m’aider dans ce grand saut. Ce sera donc une entrée en matière dans le monde de Spark au travers de 7 conseils qui m’ont été ou m’auraient été bien pratiques pour démarrer.

Nastasia Saby

Lundi 11 avr 2019 – Meetup – Data for plant science : la donnée au service de l’Ag-tech

L’utilisation des données en Ag-Tech s’intensifie avec de nombreuses sociétés apportant de nouvelles idées au service de l’agriculture.

Cartographie des startup Agritech en France — 2nd édition :
https://medium.com/xangevc/cartographie-des-startup-agritech-en-france-2nd-%C3%A9dition-f92a7c58d61c

Nous vous proposons une plongée dans l’univers des « datasciences au service des plantes » avec la présentation de la start-up valentinoise Carbon Bee. Cette soirée sera l’occasion de vous présenter un travail mené conjointement par Carbon Bee et Bayer sur le thème de la
détection des champignons pathogènes des plantes.

Dans un premier temps, vous découvrirez les résultats d’une étude pilote utilisant l’analyse d’image par Machine Learning pour la quantification de maladies fongiques sur plante.

Puis, nous nous concentrerons sur l’outillage matériel et logiciel employé pour l’acquisition et l’analyse des données, notamment un détecteur innovant combinant différents types d’informations (spatiales et spectrales) et des algorithmes de Deep Learning. En permettant une détection automatique précise des adventices (mauvaises herbes) ou des maladies au champ, cette solution s’inscrit dans une stratégie d’optimisation des intrants et des pratiques agricoles.

Nous serons heureux d’échanger autour du thème de la datascience en agriculture de précision.

Vous pouvez découvrir le capteur et la méthode sur le site de Carbon Bee
(https://carbonbee.fr) ainsi qu’une vidéo sympa illustrant le travail de l’entreprise : https://www.youtube.com/watch?v=tFVWWhhYSzc

Speakers:
Catherine SIRVEN Bayer
Anthony GELIBERT Carbon Bee
Aurélie THEBAULT Carbon Bee AgTech