Infolettre Lab IA n°8

L'infolettre du Lab IA est une lettre d'information mensuelle sur les actualités du Lab IA d'Etalab, les échanges, expérimentations, rencontres et outils autour de l'usage des données et de l'IA pour améliorer l'action publique. Elle s’adresse à la communauté du Lab IA : participants aux AMI IA 1 et 2, data scientists de l'administration, chercheurs et agents publics intéressés par la science des données et l'IA.

Vous pouvez vous y inscrire depuis ce lien, lire les infolettres précédentes et proposer des contenus pour les prochaines éditions.

Ci-dessous :

Invitation : Datadrink de décembre le jeudi 10 décembre de 16h à 17h30 avec la Cour des Comptes, l’Autorité nationale en matière de sécurité et de défense des systèmes d’information et l’Agence Française de Développement
Les guides d’Etalab : Préparer et conduire votre campagne d’annotation
Projets AMI-IA 2 : Cinq outils d’IA développés en 2020 dans l’administration (Rediffusions)

A découvrir:

Date limite de la première session de l’Appel à projets « Développer l’utilisation de la donnée dans votre administration » le 19 décembre : voir ici toutes les ressources dédiées
Rediffusion de l’Open Lab PIAF (Pour une IA Francophone) : du modèle IA à l’application. Quels cas d’usages pour les algorithmes de questions-réponses ? Quelles pistes d’améliorations techniques ? Comment mieux encourager l’IA francophone ouverte ? Restitutions, échanges et ateliers animés par l’équipe PIAF du Lab IA d’Etalab
Rediffusion du webinaire et ressources autour de la pseudonymisation des décisions justice, avec Etalab, le Conseil d’Etat et la Cour de Cassation », conférence virtuelle proposée dans le cadre du Mois de l’innovation publique et du parcours de conférences virtuelles #transfodroit, organisée par Open Law et Village de la justice.
Jeux de données, réutilisations, outils et articles : le suivi des sorties du mois d’octobre de data.gouv.fr
Le Lab IA de Météo France a mis en ligne une formation pour apprendre à utiliser ML Flow, une plateforme open source d’apprentissage machine, en s’appuyant sur le jeu de données Iris et sur un extrait de MeteoNet

L'administration recrute :

Un(e) ingénieur(e) data chargé(e) de gouvernance de données à la Direction du Numérique – Ministères sociaux, responsable du projet de gouvernance des données
L’équipe LexImpact de l’Assemblée nationale, qui a pour vocation d’aider les parlementaires au chiffrage de leurs propositions de lois avant vote, et qui répond aux besoins des usagers en associant des données représentatives aux réglementations, recrute un(e) datascientist et un(e) développeur(se) fullstack pour l’année 2021

L'équipe du Lab IA d'Etalab

Afficher la version en ligne / S'inscrire à l'infolettre du Lab IA / Se désinscrire

Invitation : Datadrink de l'hiver le jeudi 10 décembre de 16h à 17h30

Inscriptions ici

Au programme du datadrink de l’hiver le jeudi 10 décembre de 16h à 17h00, des projets pour innover dans l’administration avec la data science et l’IA :

Adeline Laulanie et Bruce Olivaux (Agence Française de Développement) : construction de la première « BDD des Banques Publiques de Développement » (résultats ici)
Stéphane Clair (Direction des méthodes et des données, Cour des Comptes) : constitution et mise à disposition des données de programmation des communes
Loic Richier et Anael Beaugnon (Autorité nationale en matière de sécurité et de défense des systèmes d’information) : extraction d'informations de rapports de Cyber Threat Intelligence

Ce sera aussi l’occasion de vous présenter et d’échanger autour du guide d’Etalab « Préparer et conduire votre campagne d’annotation », présenté par Kim Montalibet, data scientist du Lab IA d’Etalab.

Si vous souhaitez présenter une initiative ou une réflexion en cours dans votre administration avec le réseau des agents publics et data scientists de l’administration, écrivez-nous ici : lab-ia@data.gouv.fr

Les guides d'Etalab : préparer et conduire votre campagne d'annotation

Voir le guide ici

De nombreux projets d’intelligence artificielle nécessitent une phase d’annotation, où des experts « métier » attribuent à chaque donnée une ou plusieurs étiquettes qui lui correspond. C’est souvent nécessaire si vous ne disposez pas de données déjà « structurées » ou « annotées », c’est-à-dire collectées et classées en amont de façon à ce qu’elles apparaissent dans un tableau avec des lignes correspondant à des observations et des colonnes correspondant à des variables.

La phase d’annotation, qui mobilise des « annotateurs », consiste à assigner une ou plusieurs étiquettes à des éléments d’un jeu de données, et permet ainsi la constitution d’un jeu de données structuré, rendant possible l’entraînement d’algorithmes supervisés. Ce guide présente les étapes clés pour obtenir des données annotées de qualité, quelques bonnes pratiques afin d’y parvenir, et des exemples de projets d’IA dans l’administration qui ont nécessité une phase d’annotation.

Pour vous accompagner dans la réalisation de votre projet d’annotation, ce guide comporte plusieurs parties :

Mon projet nécessite-t-il une phase d’annotation et quelle stratégie adopter ?
Préparer votre campagne d’annotation
Conduire votre campagne d’annotation
Critères de sélection d’un logiciel d’annotation de documents textuels

Ce guide sera aussi présenté en ligne au prochain datadrink du Lab IA, le jeudi 10 décembre de 16h à 17h30 : inscriptions ici

Projets AMI IA 2 : Cinq outils développés en 2020 dans l'administration (Rediffusions)

Du 16 au 20 novembre 2020, à l’occasion du Mois de l’innovation publique, cinq des 15 projets du 2ème Appel à Manifestation d’Intérêt en intelligence artificielle lancés cette année ont présenté leurs prototypes et les premiers résultats de leurs expérimentations.

Des prototypes développés en 10 mois pour améliorer les services publics

En 10 mois, voici les cinq premiers des 15 outils développés pour améliorer les services publics, présentés par cinq équipes –experts métiers et datascientists de l’administration- qui ont partagé leur expérience en ligne lors de webinaires de 30 minutes :

Un outil d’analyse du dossier patient au CHU de Bordeaux. Jusqu’à 60% du temps d’un médecin peut être destiné à la recherche d’information, selon les services. « Nous avions besoin d’un moteur de recherche qui soit sémantique pour comprendre ce que l’humain recherche dans le dossier patient » - Sébastien Cossin, de l’équipe projet du CHU. « Ce qui est intéressant aussi, c’est qu’une brique d’interopérabilité a été mise en place : un autre établissement pourrait assez facilement installer cette application, et le code sera prochainement mis en open source : d’autres informaticiens pourront reprendre l’application, la développer et l’améliorer dans d’autres établissements ». (support de présentation et rediffusion du webinaire)
Un outil pour identifier et regrouper des requêtes similaires afin d’accélérer les délais de jugement au Conseil d’Etat. Chaque année, les 42 juridictions administratives françaises reçoivent plus de 260 000 requêtes (+7% en 2018) et en mars 2020, 24 355 requêtes étaient en attente de jugement, avec un délai moyen pondéré prévisible d’environ 7 mois pour juger une requête. « Avec l’objectif de raccourcir les délais de jugement, l’équipe du Conseil d’Etat a développé deux interfaces d’intelligence artificielle pour aider le juge administratif dans le tri des requêtes, en détectant les similarités : un outil d’aide au repérage des moyens et conclusions, et un outil sur le regroupement des requêtes, en cours de développement » - Michael Poyet de l’équipe projet du Conseil d’Etat (support de présentation et rediffusion du webinaire)
Un outil d’optimisation du traitement des signalements des événements sanitaires indésirables avec le Ministère de la santé, l’Agence nationale de sécurité du médicament (ANSM) et l’Agence du numérique en santé (ANS). Depuis mars 2017, le ministère de la Santé s’appuie sur un portail de signalements en ligne qui permet à tout citoyen ou aux professionnels de santé de déclarer tout événement sanitaire indésirable. « On dénombre 20 000 signalements par an. L’objectif était donc d’aider les évaluateurs en charge du traitement de ces signalements, en identifiant les éléments clés des signalements (dispositifs, dysfonctionnement, gravité) –algorithme de précision- et en les regroupant pour détecter de nouvelles situations à risque –algorithme de regroupement-. » - Laurent Laplanche, Serge Brunel et Rémi Levasseur, de l’équipe projet. (support de présentation et rediffusion du webinaire)
Un outil pour identifier les molécules contaminant l’environnement et profiler les sources de pollutions à l’INERIS. « Notre projet est divisé en trois cas d’usages, avec leurs propres données, sous différents formats : l’identification des polluants organiques, la détermination des sources de dioxines et furanes, et la caractérisation de la pollution atmosphérique. Les données traitées nous permettent non seulement de gagner du temps mais aussi nous laissent entrevoir de nouveaux développements et améliorations » - Jean-Yves Chatelier et François Lestremeau, porteurs du projet. (support de présentation et rediffusion du webinaire)
Un outil d’aide à l’implantation des entreprises artisanales avec la Chambre Régionale de Métiers et de l’Artisanat de Nouvelles Aquitaine (CRMANA). Pour mieux accompagner la création d’entreprises artisanales dans les études d’implantation et les 24 000 porteurs de projet qui se présentent chaque année, l’équipe de la CRMANA a développé un outil d’IA qui pourrait à la fois réduire le temps nécessaire pour faire ces études, accompagner un plus grand nombre d’entrepreneurs et améliorer les préconisations faites par les agents. « On est parti d’une idée et un constat de terrain : les entreprises artisanales sont avant tout des entreprises de proximité, et des entreprises ancrées localement. Nous avons donc développé deux algorithmes, pour modéliser le niveau d’équipement artisanal du territoire, et pour modéliser le taux de survie des entreprises en fonction de leur environnement, avec de nombreuses variables et des modélisations sur 3 et 5 ans, le tout avec une interface qui permet d’avoir une donnée statistique et qui met en avant le poids de l’artisanat sur un territoire. Les premiers résultats sont très encourageants » - Jérôme Luret et Gaet Kohn, de l’équipe CRMANA. (support de présentation et rediffusion du webinaire)

S’approprier les enjeux de l’intelligence artificielle et s’assurer de l’explicabilité des algorithmes

Pendant les 10 mois d’expérimentation, les équipes des 15 projets ont bénéficié de sessions collectives d’accompagnement d’Etalab et de la DITP. Les ressources de l’accompagnement du Lab IA d’Etalab sont disponibles ici : bonnes pratiques et grandes étapes d’un projet d’intelligence artificielle, notions clés, formations en ligne et introduction à la science des données « Vis ma vie de data scientist », ateliers sur l’explicabilité des algorithmes, sur l’identification et la prévention des biais dans les projets d’intelligence artificielle, et guide en ligne pour organiser et conduire sa campagne d’annotation.

Certains prototypes des projets AMI IA 2 se terminent et la phase d’évaluation débutera en 2021 avec la mise en situation pour les utilisateurs finaux. L’industrialisation du projet, l’ajustement des algorithmes grâce à la prise en compte des retours des utilisateurs, l’hébergement des applications dans les systèmes informatiques internes aux administrations, la publication des codes en open source et les extensions possibles à d’autres services ou d’autres territoires font partie des perspectives des projets expérimentés cette année.

« Notre prototype doit se finir en fin d’année et une phase d’évaluation débutera en janvier 2021, avec une mise en situation pour les utilisateurs finaux. On estime cette phase d’évaluation à six mois et il y a aussi l’enjeu avec nos SI pour migrer sur le serveur interne, ainsi que l’ajout de fonctionnalités complémentaires pour ajuster l’algorithme. A plus long terme, nous espérons une utilisation de l’outil à l’échelle nationale, ou une ouverture vers d’autres métiers de proximité, hors artisanat » - porteurs du projet CRMANA.

« On souhaite poursuivre l’expérimentation pour compléter les bases de références, déployer nos outils sur d’autres sites de surveillance, intégrer d’autres grandeurs caractéristiques, appuyer les pouvoir publics (contrôle, communication de crise), et créer une échantillothèque numérique » - porteurs du projet INERIS.