L'infolettre du Lab IA est une lettre d'information mensuelle sur les actualités du Lab IA d'Etalab, les échanges, expérimentations, rencontres et outils autour de l'usage des données et de l'IA pour améliorer l'action publique. Elle s’adresse à la communauté du Lab IA : participants aux AMI IA 1 et 2, data scientists de l'administration, chercheurs et agents publics intéressés par la science des données et l'IA.
Vous pouvez vous y inscrire depuis ce lien, lire les infolettres précédentes et proposer des contenus pour les prochaines éditions.
Ci-dessous :
- Programme du prochain datadrink du 28 avril
- Le Lab IA investigue un nouvel outil mutualisé
- Exploiter les jeux de données ouverts avec le machine learning
- « Hackathon Covid » : rejoignez les 23 et 24 avril 2021 l’ensemble des acteurs engagés dans la lutte contre la pandémie !
L'administration recrute !
- Le pôle PEREN recherche un data scientist, consulez l'offre ici.
Après une étape de test auprès de plusieurs administrations, le projet PIAF entre dans une phase d'expansion et recrute afin d'industrialiser les briques dévelopées (automatisation des process, passage à l'échelle…). Les deux profils (en freelance) souhaités sont :
- Dev fullstack senior avec une appétence infra => Python, VueJS, Docker et Elasticsearch
- Data-Scientist sachant aussi développer => Python, NLP en particulier les Sentence Embeddings & Question-Answering (type BERT models)
Contacter l'équipe piaf pour en savoir plus : piaf@data.gouv.fr
Evenements à venir :
- Datadrink le 28 avril 16h30-17h30 : inscription ici
- Prochain RDV des 10 ans Etalab: rétrofutur. Inscription ici
- Etalab et le Lab IA interviennent à la prochaine csv conf pour présenter l'outil CSV detective le 4 mai à 16h et pour parler des travaux sur "Machine learning with Open Data" le 5 mai à 17h20.
A découvrir :
- Un second appel à projets du volet "Utilisation de la donnée dans votre administration" (ITN5) de France Relance permet de financer des projets sera ouvert du 21 avril au 21 mai 2021 pour des projets de plus de 100 000 euros. Un guichet est actuellement ouvert pour cofinancer les projets de moins de 100 000 euros. Vous pouvez consulter ici la liste des projets lauréats du premier appel à projets.
L'équipe du Lab IA d'Etalab
Afficher la version en ligne / S'inscrire à l'infolettre du Lab IA / Se désinscrire
Au programme du prochain datadrink en ligne - 28 avril 16h30-17h30
Inscrivez-vous ici.
- Julian Le Deunf (Service Hydrographique et Océanographique de la Marine) : améliorer la production des données de cartographie sous-marine en apprenant des corrections apportées par les agents pour automatiser une partie du processus
- Frédéric Comte et Marc Hufschmitt (SSP Datalab de l'INSEE ) : améliorer la statistique publique à l’aide de nouvelles techniques et outils de traitement de données
- Simon Lebastard et Vincent Viers (startup d'Etat Signaux Faibles) : outil d’analyse prédictive des difficultés des entreprises
Le Lab IA investigue un nouvel outil mutualisé
Après l'outil de pseudonymisation, puis PIAF, le Lab IA lance cette année en investigation un nouvel outil mutualisé, dont l'objectif est de permettre de numériser (ou plus précisément d'OCRiser) des documents administratifs et d'en extraire des informations. N'hésitez pas à nous écrire (lab-ia@data.gouv.fr) pour nous faire part de vos besoins à ce sujet.
Les administrations ont en effet régulièrement besoin d’exploiter en masse des documents administratifs sous des formats non directement utilisables (PDF scannés, images, etc…). L’information contenue dans ces documents, pour être exploitée, doit passer par des étapes de reconnaissance optique de caractère (OCR), d'extraction et de structuration, qui sont vite très chronophages si elles doivent être réalisées à la main. Pour cela, nous envisageons de créer un outil qui permette de traiter en masse des documents (ex : des bulletins de salaires), en fournissant en sortie un jeu de données structurées (avec par exemple pour colonnes Nom, Prénom, Rémunération, etc…).
Exploiter les jeux de données ouverts avec le machine learning
De nombreux jeux de données sont disponibles sur data‧gouv.fr et leur utilisation pour des application de machine learning est sous-exploitée. Il n'est en effet pas toujours évident de déterminer si ces jeux de données sont adaptés à des algorithmes d'apprentissage automatiques. S'ils le sont, se pose la question des performances atteignables pour la tâche à entraîner.
Pour vous aider à répondre à ces questions, nous vous proposons une première version d'un Inventaire de jeux de données de data‧gouv.fr pour le Machine Learning, que vous pouvez consulter ici.
Vous y trouverez :
- une liste des datasets que nous avons identifiés comme étant exploitables par des algorithmes de machine learning, regroupés par tâche (régression, classification, séries temporelles).
- un profiling statistique de chaque dataset, qui vous permettra de voir en un clin d’oeil “à quoi ressemble” le dataset (nombre et caractéristiques de ses variables etc.) et d’avoir un résumé de ses statistiques descriptives.
- les résultats de l’entraînement et du test automatique d’*algorithmes* classiques de machine learning sur ces données.
Ce catalogue est actuellement en cours de construction.
Le catalogue sera présenté lors de la du 5 mai à 17h20 csv conf et le 17 mai dans le cadre du mois de la réutilisation de la donnée du Printemps de data‧gouv.fr (l'inscription à l'infolettre de data‧gouv.fr se fait par ici).
Un site web est en cours de réalisation, il permettra de filtrer les jeux de données selon différents critères et proposera des exemples de réutilisations et le code source associé.
« Hackathon Covid » : rejoignez les 23 et 24 avril 2021 l’ensemble des acteurs engagés dans la lutte contre la pandémie !
Administrations, institutions et acteurs de la société civile se réuniront le 23 et 24 avril prochain pour un marathon de 48H de conception et de développement, animé par la Direction Interministérielle de la Transformation Publique avec le soutien du Ministère des solidarités et de la santé, dans le cadre de la préparation du 3ème plan d’action “gouvernement ouvert” de la France. Objectif : créer les outils et les solutions pour lutter contre la pandémie.
Ce hackathon se déroulera dans deux salles d’un même espace virtuel. La salle plénière accueillera une série d’interventions sur les différents usages des données COVID-19 et les enjeux liés. Ces interventions seront retransmises en direct et accessibles à tous. La salle de travail, accessible sur inscription, est ouverte à tous ceux qui, détenteurs d’une idée, d’une compétence, d’un savoir-faire ou d’une curiosité pour les data, souhaitent créer des solutions communes de lutte contre la pandémie.
Pour en savoir plus sur l’événement : https://hackathon-covid.fr/
Un évènement animé par la DITP avec le soutien du Ministère des solidarités et de la santé, et la participation de Datactivist, d’Adios Corona, Bayes Impact, C Ways, Collectif CoData, CovidTracker, CRI, Data For Good, la DINUM, Du Côté de la Sciences, Etalab, Health Data Hub, Just One Giant Lab, Latitudes, Liberté Living Lab et Modcov19.
Quatre défis sont prévus pour lesquels vous pouvez contribuer et proposer toutes vos idées :
- Mieux accompagner les victimes de la Covid à court et long terme,
- Fluidifier la campagne de vaccination,
- Suivre différemment l’évolution de la pandémie,
- Mesurer les risques et favoriser les comportements vertueux.
Tous les profils sont les bienvenus :
- Spécialistes de la donnée (data analyst, data scientist, etc.),
- Développeurs dont les compétences en programmation permettront de donner vie au projet de leur équipe,
- Designers et autres concepteurs d’usage, capables de penser l’intégration de solutions dans le quotidien des utilisateurs,
- Chercheurs capables de mobiliser un savoir scientifique au profit d’un projet,
- Citoyens souhaitant faire part de leurs besoins de solutions en s’engageant activement dans une équipe
Ecrivez-nous
Si vous avez des événements, des offres d'emploi ou des projets que vous souhaitez partager avec la communauté IA de l'administration, n'hésitez pas à nous écrire : lab-ia@data.gouv.fr.