Lundi 5 Nov 2018 – Meetup – Data Science en production avec R : quels enjeux ? Quelles solutions?

Pour cette nouvelle séance de Lyon Data Science, animée par Colin Fay, Data Scientist & R Hacker chez ThinkR (une agence française spécialisée en Data Science et langage R), nous découvrirons les enjeux de la mise en production avec R.

Comment passer de l’expérimentation en ligne de commande à l’utilisation grande échelle ? Comment faire le pas d’une recherche et développement dans le confort de son ordinateur à un produit utilisé par de nombreux utilisateurs ? Comment partager son travail à ses collaborateurs non initiés ? Comment faire le grand saut de l’industrialisation de la Data Science ?

C’est ce qu’abordera Colin dans ce talk sur R, où il viendra présenter ce langage et quels sont les enjeux d’une mise en production de celui, tant du point de vue utilisateur qu’infrastructure.

Nous aborderons, entre autres, les questions suivantes :
De la ligne de commande à l’interface utilisateur
De la R&D à la mise en production
De la mise en production à l’industrialisation

A très bientôt,

L’équipe LDS

Vous pouvez retrouver les slides de la présentation en cliquant sur le lien suivant : Data_Science_en_production_avec_R

Jeudi 4 Oct 2018 – Meetup – L’analyse de graphes au service de la fiabilisation du réseau basse tension

Intervenants : Thomas Pilaud (Enedis) et Lisa Laisné (Data Scientist, Datalyo)

Cette session sera consacrée à un retour d’expérience Data Science et Machine Learning sur la fiabilisation du réseau basse tension. Seront évoquées les solutions techniques mises en œuvre, les algorithmes implémentés et les aspects métiers relatifs au sujet.

Mots clés : Data Science, Machine Learning, énergie, graphes, réseau, R

Accueil à partir de 18h30 dans la grande salle du Campus Région du Numérique à Confluence.

Vendredi 14 sept 2018 – Meetup – AutoML avec R: le tuning de modèles pour paresseux

Pour cette rentrée, Alex Boulangé, Chief Data Scientist chez Social Intelligence, nous parlera d’un package R qu’il a développé pour pouvoir tuner des réseaux de neurones artificielles avec du biomimétisme (en utilisant notamment l’optimisation par essaims particulaires).

Descriptif du package sur CRAN (actuellement en attente de validation):
« Package to fit highly customizable deep neural network either with
gradient descent or particle swarm optimization, using custom layers
(number, size, activation, dropout), automatic hyper parameters tuning and custom cost function. This package mixes the best of last tricks on deep learning (based on different research papers wrapped up in Andrew NG Deep Learning specialization) and PSO (based on 1995 research paper and following research papers wrapped up in yarpiz
video tutorial).

Key words: autoML, Deep Learning, Particle Swarm Optimization, learning rate, minibatch, batch normalization, lambda, RMSprop, momentum, adam optimization, learning rate decay, particles number, kappa, regression, logistic regression). »

En espérant vous voir nombreux !

L’équipe LDS

Vendredi 22 juin 2018 – Meetup – Traitement automatique de la Langue et extraction de sentiment: outils et enjeux

Bonjour,

Pour cette nouvelle séance de Lyon Data Science, animée par Catalina Chircu, Data Scientist chez Hardis, en mission chez Lizeo, nous découvrirons des outils pour le traitement de la langue. Nous aurons aussi, après la présentation de Catalina, une présentation rapide d’un outil pour extraire de coordonnées à partir du texte brut, faite par Olivier Courtin de chez Data Pink.

Dans cette conférence, Catalina parlera d’un outil d’extraction de sens à partir du texte, et de ce que le data mining dans le cadre du traitement du texte implique, de manière générale. Elle présentera d’abord l’outil pour l’annotation automatique qu’elle a créé au sein de l’équipe R&D de Lizéo. Ensuite, elle fera quelques remarques sur les enjeux du data mining / apprentissage automatique, ainsi que sur les difficultés rencontrées et les divers choix qu’elle a faits.

Olivier Courtin, pour sa part, nous parlera de comment, à partir des outils et méthodes NLP actuels, extraire des lemmes se référant à une spatialisation, et les appareiller à une base toponymique pour en récupérer leur géolocalisation. Ou dit autrement, donne moi du texte et je te donnerai des coordonnées GPS.

A très bientôt,

L´équipe LDS

Mercredi 23 mai 2018 – Meetup – Introduction au Machine Learning avec Spark 2.x et Scala

Bonjour à tous,

Dans cette session je vous propose de partir à la découverte des fonctionnalités de Spark 2 et du langage Scala, avec notamment :

– Une présentation des concepts clés de Spark Core & Spark ML (DataFrame / Dataset, Pipelines, Transformers, Estimators, etc…)
– Un tour d’horizon des différentes librairies de ML et de traitement de données disponibles dans l’écosystème Spark / Scala.
– Le tout associé à quelques démos ‘live’ de quelques cas pratiques (clustering, régression, etc …) sur de gros volumes de données avec notre datalake.

Cette séance sera animée par Jean-Yves Besson de chez Lizeo,

A très bientôt,

L’équipe LDS

Jeudi 12 avril 2018 – Meetup – Incertitude : source de fiabilité

Bonjour,

Nous sommes ravis de vous proposer une séance sur l’incertitude et la confiance des modèles de Machine Learning, animée par Samy Melaine de Data Genius.

Avec les progrès récents sur les techniques de Machine Learning et les résultats qu’ils apportent, des systèmes qui jusqu’à récemment n’étaient appliqués qu’à des données académiques sont maintenant déployés dans des environnements réels pour des applications commerciales. Dans ces cas, si les systèmes implémentés ne sont pas fiables et génèrent des prédictions fausses sans que cela ne puisse être détecté, des conséquences graves sont à prévoir. Pour palier à cela il est donc important de mettre en production un modèle qui « sait ce qu’il ne sait pas ». Ensemble et durant ce Meetup nous allons :

– Définir concrètement ce qu’est ce concept d’incertitude et ce que cela n’est pas (beware of softmax)

– Comment on peut entraîner des modèles (réseaux de neurones ou ensemblistes) à ressortir des valeurs de confiance fiables

– Et enfin, revoir des techniques qui permettent de (ou se rapprochent d’) expliquer les prédictions d’un modèle de ML et ce qu’il a appris.

A très bientôt,

L’équipe de Lyon Data Science

Mercredi 28 mars 2018 _ Meetup – Milou est à Tintin ce que Rantanplan est à Lucky Luke : NLP & Word Embeddings

Comment faire de la traduction automatique ? Comment communiquer avec un ordinateur via un chatbot ? Comment analyser des données textuelles ? Comment comprendre les enjeux sémantiques, syntaxiques et grammaticaux liés aux langues ? Venez découvrir le secret des Word Embeddings !

Samuel et Tanguy, data scientists chez 365Talents, sont spécialisés dans le Traitement Automatique de la Langue (NLP). Durant ce talk, ils vous parleront de Word Embeddings; en commençant par l’approche la plus intuitive pour conclure par les réseaux de neurones les plus complexes. Un discours vulgarisé permettra de suivre les différentes étapes, sans s’attarder sur les parties mathématiques trop complexes.

Jeudi 15 février 2018 – Meetup – What to do before an A/B test? An exploration of offline evaluation methods

Bonjour à tous!

Nous vous invitons à un nouveau Meetup presenté par Eustache Diemert, qui travaille actuellement chez Criteo, portant sur les méthodes d’évaluation offline. Eustache Diemert, sera aussi présent le 15 janvier au Dataday, une journée pour échanger autour des problématiques data (plus de détails en bas).

Abstract: Doing randomized trial (e.g. A/B test) is the gold standard to prove that a new method or algorithm is better than the baseline. But such tests are costly and imply that the new method/implementation is of production quality. A natural solution is then to choose the better candidate offline using logged data. We will explore different possibilities to do so and highlight their advantages and shortcomings. In particular, we will see that a family of methods for counter-factual reasoning are very close to what an A/B test could tell while operating on logged data.

Ce meetup se déroulera à l’amphithéâtre de la bibliothèque Marie Curie de l’INSA.

A très bientôt,

Lyon Data Science

Vendredi 19 janvier 2018 – Meetup – Place de R et Python dans les formations en Data Science

Bonjour à tous!

Nous vous proposons une session Lyon Data Science qui portera sur la Place de R et Python dans les formations en Data Science, présentée par Ricco Rakotomalala du Master SISE – Université Lyon 2. La science des données n’échappe pas à la vague des logiciels libres. Depuis plusieurs années, les deux outils les plus populaires auprès des data scientists sont R et Python selon le sondage annuel du site KDnuggets (Mai 2017). Certes, les licences présentent des subtilités un peu difficiles à suivre parfois, mais elles respectent deux caractéristiques fondamentales de mon point de vue : nous avons accès au code source, nous garantissant un certain contrôle sur les calculs et opérations réellement effectuées ; ils sont accessibles et exploitables gratuitement, quels que soient les contextes d’utilisation. De fait, l’adoption de R et Python dans les formations en data science semble évidente. Pourtant, il faut être prudent, ne serait-ce que par principe. Dans mon exposé, je m’appuierai sur ma propre expérience d’enseignant d’une part, de créateur de logiciels de data mining gratuits à vocation pédagogique (SIPINA, TANAGRA) d’autre part, pour essayer de cerner les attentes que l’on peut avoir vis-à-vis des outils dans les cours de statistique et de data science. L’élaboration de TANAGRA (2004) en particulier aura été l’occasion de mener une réflexion approfondie sur les caractéristiques clés que doivent présenter les logiciels pour l’enseignement. Je reviendrai rapidement dessus pour mieux rebondir sur la définition d’un cahier des charges moderne où les compétences en programmation et les accès aux API tiennent une place importante. Dans ce contexte, que l’on pourrait qualifier de Big Data, R et Python se démarquent réellement et justifient pleinement l’investissement que l’on pourrait leur consacrer au sein des formations. Je m’appuierais sur une étude récente réalisée par un groupe d’étudiants du Master SISE pour essayer de cerner les mots clés importants qui caractérisent les annonces dans nos domaines en France. Python y occupe un espace assez singulier.

L’équipe Lyon Data Science

Lundi 11 décembre 2017 – Meetup – Cas d’usage de data science : la détection de fraude

Bonjour à tous!

Nous vous proposons une session Lyon Data Science qui portera sur la détection de la fraude, cas appliqué à un opérateur télécom, presentée par Romain de San Nicolas.

Qu’il s’agisse de souscriptions d’abonnements, de souscription de crédits, de souscription de contrats d’assurance, les comportements frauduleux sont à l’origine de pertes financières conséquentes. Les comportements de plus en plus réactifs, innovants et coordonnés des fraudeurs amènent les entreprises à rechercher de nouvelles techniques pour répondre à cette problématique. L’intelligence artificielle est capable d’y apporter des solutions en détectant des signaux faibles et en exploitant des corrélations complexes entre un grand nombre de variables.

Cette session sera accueillie à La Tour du Web.

A très bientôt,

L’équipe Lyon Data Science