Vendredi 19 janvier 2018 – Meetup – Place de R et Python dans les formations en Data Science

Bonjour à tous!

Nous vous proposons une session Lyon Data Science qui portera sur la Place de R et Python dans les formations en Data Science, présentée par Ricco Rakotomalala du Master SISE – Université Lyon 2. La science des données n’échappe pas à la vague des logiciels libres. Depuis plusieurs années, les deux outils les plus populaires auprès des data scientists sont R et Python selon le sondage annuel du site KDnuggets (Mai 2017). Certes, les licences présentent des subtilités un peu difficiles à suivre parfois, mais elles respectent deux caractéristiques fondamentales de mon point de vue : nous avons accès au code source, nous garantissant un certain contrôle sur les calculs et opérations réellement effectuées ; ils sont accessibles et exploitables gratuitement, quels que soient les contextes d’utilisation. De fait, l’adoption de R et Python dans les formations en data science semble évidente. Pourtant, il faut être prudent, ne serait-ce que par principe. Dans mon exposé, je m’appuierai sur ma propre expérience d’enseignant d’une part, de créateur de logiciels de data mining gratuits à vocation pédagogique (SIPINA, TANAGRA) d’autre part, pour essayer de cerner les attentes que l’on peut avoir vis-à-vis des outils dans les cours de statistique et de data science. L’élaboration de TANAGRA (2004) en particulier aura été l’occasion de mener une réflexion approfondie sur les caractéristiques clés que doivent présenter les logiciels pour l’enseignement. Je reviendrai rapidement dessus pour mieux rebondir sur la définition d’un cahier des charges moderne où les compétences en programmation et les accès aux API tiennent une place importante. Dans ce contexte, que l’on pourrait qualifier de Big Data, R et Python se démarquent réellement et justifient pleinement l’investissement que l’on pourrait leur consacrer au sein des formations. Je m’appuierais sur une étude récente réalisée par un groupe d’étudiants du Master SISE pour essayer de cerner les mots clés importants qui caractérisent les annonces dans nos domaines en France. Python y occupe un espace assez singulier.

L’équipe Lyon Data Science

Lundi 11 décembre 2017 – Meetup – Cas d’usage de data science : la détection de fraude

Bonjour à tous!

Nous vous proposons une session Lyon Data Science qui portera sur la détection de la fraude, cas appliqué à un opérateur télécom, presentée par Romain de San Nicolas.

Qu’il s’agisse de souscriptions d’abonnements, de souscription de crédits, de souscription de contrats d’assurance, les comportements frauduleux sont à l’origine de pertes financières conséquentes. Les comportements de plus en plus réactifs, innovants et coordonnés des fraudeurs amènent les entreprises à rechercher de nouvelles techniques pour répondre à cette problématique. L’intelligence artificielle est capable d’y apporter des solutions en détectant des signaux faibles et en exploitant des corrélations complexes entre un grand nombre de variables.

Cette session sera accueillie à La Tour du Web.

A très bientôt,

L’équipe Lyon Data Science

31 octobre 2017 – Meetup – Open Street Map : Présentation, analyse de données et lancement d’ateliers

Bonjour,

Nous vous proposons une soirée OpenStreetMap en trois volets: Introduction, utilisation de ses données et proposition de lancement d’ateliers.

Alors, parlons de données Cartographiques, Géospatiales,

La donnée Géospatiale est de plus en plus présente, et de plus en plus utilisée. Les données disponibles sont de plus en plus nombreuses et variées, parfois compliquées à utiliser. Pourtant ces données sont omniprésentes dans l’utilisation quotidienne, et les questions adressées peuvent être nombreuses:

• Où se trouve la boulangerie la plus proche ?

• Combien de commerces y a t il à 5 mins à pied ?

• Quelle est la répartition des agences de voyage dans la ville ?

• Quelle est l’organisation des transports urbain ?

• Où se situe en lon/lat l’épitech à lyon ?

Autant de questions qui peuvent être répondues en utilisant des données spatiales. Aussi nous vous proposons de découvrir le projet OpenStreetMap, le premier projet collaboratif de création de données cartographiques mondiales.

1) Sylvain, impliqué dans l’organisation du projet, présentera OSM, l’impressionant dataset, ainsi que l’écosystème associé.

2) Dans un second volet, Patrice, expert technique SIG, présentera l’utilisation du dataset, et les outils disponibles pour travailler sur ces données. Un retour d’expérience permettra de montrer l’utilisation des données à grande échelle en environnement BigData, et les points d’attention.

3) Pour finir, nous proposerons la mise en place d’ateliers de travail sur des thématiques concrètes, avec un lien sur les outils d’IA.

Si le nouvel établissement à côté de l’Epitech a ouvert, nous vous proposerons d’aller discuter après cette présentation.

L’équipe Lyon Data Science

Pour accéder aux slides de la présentation, cliquez sur le lien suivant : présentation

Mardi 3 octobre 2017 – Meetup – Session de rentrée + Retour Kaggle

Bonne rentrée !

Depuis 2 ans maintenant nous vous proposons de commencer l’année scolaire par des sessions d’introduction aux différents domaines de la Data Science.Une fois n’est pas coutume, nous allons dans cette séance d’introduction détailler davantage les ressources disponibles pour les débutants / confirmés / experts en Machine Learning et Big Data.Nous finirons la session par un retour de compétition Kaggle.

A bientôt !

L’équipe LDS

Jeudi 29 juin 2017 – Meetup – Session Deep Learning: rappels, live Coding et retour d’expérience

Bonjour à tous !

Quoi de mieux pendant les jours de beaux temps, que de profiter d’une séance en 2 parties sur du Deep Learning 😎 ?

Dans une première partie, Florian présentera ce qu’est un réseau de neurones. Pour cela il utilisera un exemple concret en tentant de prédire le prix d’une voiture à partir des données du bon coin. Il présentera de manière graphique et mathématique ce qu’est une forward propagation, backward propagation et l’algorithme d’optimization gradient descent. Il implémentera ensuite le réseau de neurones décrit avec numpy lors d’un live coding (si le temps le permet). La présentation sera basée sur son article: https://matrices.io/deep-neural-network-from-scratch/.

Dans une seconde partie, des développeurs de l’entreprise lyonnaise Esker montrera une application de TensorFlow et de son outil de visualisation TensorBoard, pour répondre à un problème d’automatisation de processus documentaires. Ils présenteront un algorithme de Deep Learning qui prend en entrée un fichier contenant un ensemble de factures consécutifs et retourne des fichiers différents pour chacune des factures présentes (sachant qu’une facture peut être composée d’une ou plusieurs pages).

A très bientôt,

L’équipe LDS.

Jeudi 18 mai 2017 – Meetup – Présentation de Bayes Impact par Pascal Corpet

Bonjour à tous !

Le 18 mai, Pascal vous présentera Bayes Impact. Avec des outils de startup, une petite équipe, du Big Data, un produit utilisateur, ils s’attaquent à des problèmes sociaux. En France, avec Bob Emploi, ils veulent aider les chercheurs d’emploi à trouver un travail plus rapidement et ainsi réduire le chômage.

Pascal abordera divers projets, les particularités de cette startup sans actionnaires où la bienveillance est aussi importante que la performance et fera notamment un zoom sur Bob Emploi et la façon dont ils utilisent les données publiques et privées pour aider chaque utilisateur au mieux.

Vous pouvez retrouver les slides de la présentation en cliquant sur le lien suivant : présentation

27 avril 2017 – Meetup – Data Science et Smart Cities

Après le succès de la dernière session avec Gaëtan, LDS vous propose un nouveau retour d’expérience d’entreprise. Cette fois-ci c’est Zinnya Del Villar, Chief Data Scientist chez Data2B qui nous vient de Rennes pour présenter différentes applications des données dans le paysage urbain en prenant l’exemple de 2 projets smart city :

– Optimisation et équilibrage de vélos en libre service.

– Taux de remplissage des bus en temps réel.

A très bientôt 😉

L’équipe LDS.

Jeudi 16 mars 2017 – Meetup – Retour d’expérience Data Science par Gaëtan Constant

Lors de cette session, Gaëtan de Datalyo nous fera un retour d’expérience de l’implémentation chez un de ses clients de solutions Data Science.
Il traitera du cadrage business de la problématique du client, de l’installation d’une plateforme de travail Data Science, des différents algorithmes utilisés lors de la mission ainsi que du processus de mise en production de l’algorithme.

Pré-requis:
La présentation sera interactive et ne nécessitera pas de compétences techniques préalables. Les aspects métiers seront simples et détaillés afin que chacun puisse interagir.
Cela sera donc l’occasion de pouvoir échanger sur les bonnes pratiques d’une étude Data Science et des enjeux Business qui peuvent se cacher derrière les données d’entreprises.

L’équipe LDS.

Jeudi 23 février 2017 – Meetup – Tour d’horizon des solutions pour créer un data lake directement dans le cloud

Salut les data passionnés,

Après quelques sessions orientées recherche, nous vous proposons une session data lake.

N’oubliez pas d’arriver avant 19h car la porte d’accès du bâtiment est fermée à 19h. <- si vraiment 🙂

Tour d’horizon des solutions de data lake directement dans le cloud: La mise en place de serveur pour un datalake est coûteux, que ce soit en terme d’infrastructure ou même de compétence pour l’exploitation. Afin d’offrir les capacité d’analyse au plus grands nombre, les géants du web mettent à dispositions des solutions « hadoop as service ». Durant cette présentation nous ferons un point rapide sur l’existant puis nous partagerons l’avis d’un datascientiste sur le sujet et les avantages ainsi que les manques actuelles de ces solutions.

L’équipe LDS.

Jeudi 19 janvier 2017 – Meetup – Apprentissage supervisé et fonctions coût

Bonne année chers data passionnés et meilleurs voeux à tous! Pour commencer 2017 nous vous proposons une intervention détaillée sur les fonctions coûts en apprentissage supervisé.

Intervenant : Maxime Gasse, doctorant au LIRIS (équipe DM2L)

Prérequis : quelques bases de machine learning, optimisation, probabilités.

Résumé : Après quelques rappels de base sur l’apprentissage supervisé (minimisation de risque et fonctions coût), nous étudierons l’impact de différentes fonctions coût en régression standard (normes L2, L1, L0), en classification multi-label (hamming loss, 0/1 loss, F-loss), puis en régression multi-output (normes L2^2, L1^1, L2^1).