Infolettre Lab IA n°4

L'infolettre du Lab IA est une lettre d'information mensuelle sur les actualités du Lab IA d'Etalab, les échanges, expérimentations, rencontres et outils autour de l'usage des données et de l'IA pour améliorer l'action publique. Elle s’adresse à la communauté du Lab IA : participants aux AMI IA 1 et 2, datascientists de l'administration, chercheurs et prestataires de l'IA pour l'administration, et agents publics intéressés par la science des données et l'IA.

Vous pouvez vous y inscrire depuis ce lien, lire les infolettres précédentes et proposer des contenus pour les prochaines éditions.

Ci-dessous:

Outils mutualisés : Le Lab IA publie un modèle de questions-réponses francophone grâce aux jeux de données PIAF et à vos contributions, partagez-nous vos réutilisations !
Expérimentation de l'IA (AMI-IA 2) : Immersion terrain à la Gendarmerie nationale pour accompagner les victimes d'infraction dans le dépôt de plaintes en ligne
Rediffusion du datadrink de l'été : Cinq initiatives et réflexions data science & IA pour innover dans l'administration
Atelier AMI-IA 2 "Explicabilité des algorithmes" du 9 juillet : liens utiles pour les projets IA
Invitation à relayer vos informations et offres d'emploi data science et IA dans l'administration

Notre sélection de ressources à visiter:

Rediffusion des ateliers "Vis ma vie de data scientist" de juin 2020 : les liens vidéos sont en ligne
Jeux de données, réutilisations, outils : la sélection d'Etalab des sorties du mois de juin sur data.gouv.fr
Partagez vos talents numériques ! Proposé par la DINUM, le dispositif met en relation des agents de l'Etat désireux de mettres leurs compétences ponctuellement au service des administrations, et les services de l'Etat ayant besoin d'expertise numérique
« Machine Learning à partir des données spatio-temporelles : prioriser les zones de contrôle des pollutions diffuses par la Police de l’Environnement » : lire ici l’article du prestataire sélectionné pour le projet AMI-IA 1 de l’Office Français de la Biodiversité

L'équipe du Lab IA d'Etalab

Afficher la version en ligne / S'inscrire à l'infolettre du Lab IA / Se désinscrire

Outils mutualisés : le Lab IA publie un modèle de questions-réponses francophone grâce aux jeux de données PIAF et à vos contributions, partagez-nous vos réutilisations !

Grâce à vos contributions, aux jeux de données PIAF et à d’autres jeux de données francophones, le Lab IA contribue à la plateforme des modèles de traitement de langage naturel (NLP en anglais) HuggingFace : nous avons publié un modèle pour créer des applications de questions-réponses francophones! Vous pouvez le tester ici. Partagez-nous vos réutilisations !

Les contributions continuent sur la plateforme en ligne, votre participation pour annoter est encore nécessaire pour améliorer les résultats !

Expérimentation de l'IA (AMI-IA 2) : Immersion terrain à la Gendarmerie nationale pour accompagner les victimes d'infraction dans le dépôt de plaintes en ligne

Rencontre avec Emilie Pistre, membre de l’équipe porteur du projet IA de la Gendarmerie nationale sélectionné par l’Appel à Manifestation d’Intérêt pour expérimenter l’intelligence artificielle (AMI-IA 2) dans l’administration en 2020.

Contexte : Un système de pré-plainte en ligne a été mis en place par la Gendarmerie nationale depuis 2008 pour les victimes d’infractions, ce qui leur permet d’obtenir un rendez-vous dans une brigade de gendarmerie ou un commissariat de police pour confirmer et signer cette plainte. Le gouvernement a décidé de faire évoluer ce système vers un système de plainte entièrement rédigée en ligne : l’objectif du projet d’IA est de développer un « dialogueur » pour guider la victime dans l’enregistrement de sa plainte en ligne. Sur la base de la déclaration initiale de la victime, la solution devra être en mesure de catégoriser la nature de la plainte (catégories d’infraction…) et d’évaluer l’ensemble des éléments manquants pour sa transformation en procès-verbal (officialisant le dépôt de plainte).

Immersion terrain dans les Yvelines et en Essonne

Les 28 et 29 juin 2020, l’équipe de la Gendarmerie a organisé une immersion terrain à Jouars-Pontchartrain dans les Yvelines et à Gif-sur-Yvette dans l’Essonne afin de bien identifier les besoins des brigades pour le développement du système d’IA :

« En rencontrant plusieurs militaires de deux brigades de terrain qui s’occupent de traiter les pré-plaintes en ligne, le prestataire a pu découvrir le travail quotidien des gendarmes, le recueil de la parole des victimes d’infractions et les pratiques du traitement des pré-plaintes en ligne qui peuvent légèrement être différentes selon les brigades et leurs besoins. C’était très important d’organiser ces visites dès le début du projet pour bien orienter le travail dès le départ et organiser les ateliers métiers par la suite de façon plus efficace » explique Emilie Pistre, membre de l’équipe projet.

Le système d’IA que l’on développe s’applique uniquement aux infractions d’atteintes aux biens (vols, dégradations, destructions, abus de confiance et escroqueries), soit une grande partie du contentieux, dont l’auteur est inconnu. Il s’agira dans un premier temps d’*apprendre au système à reconnaître ces infractions* : plus de 50% des pré-plaintes reçues ne sont pas éligibles aux pré-plaintes en ligne et ne correspondent pas aux infractions visées par le système. L’objectif de notre projet IA est de reconnaître ces formulaires non adéquats pour les réorienter ou indiquer les éléments manquants. Ainsi, le prestataire a pu noter les différences entre le document qui arrive initialement à la brigade et les éléments ajoutés lorsqu’il est traité. D’autres immersions seront organisées dans les commissariats de police, où les pratiques sont un peu différentes. »

Organisation d’ateliers métiers : restreindre le périmètre des infractions et identifier quelles questions le « dialogueur » doit poser aux victimes

« Plusieurs ateliers métiers ont permis d’orienter le travail du prestataire et identifier les informations que l’IA doit filtrer. Par exemple, pour que le dialogueur victime fonctionne, c’est d’abord important de savoir s’il s’agit d’une infraction ou pas, puis de savoir quelles questions poser :

Un premier travail de recherche des « natinf » (identifiants de la justice pour qualifier une infraction) a été effectué pour affiner ceux qui nous intéressent ou pas : beaucoup de natinf existent pour une même catégorie d’infractions. Par exemple, pour un vol, selon s’il est simple ou aggravé, selon l’objet du vol, de la qualité de la victime ou de l’auteur. Des milliers de natinf existent, listés dans l’état statistique du ministère de l’Intérieur, et regroupés dans le livre « Le guide des infractions » utilisé par les magistrats et les forces de l’ordre. Nous avons ainsi restreint le périmètre le plus possible avec environ 250 natinf.
Un second travail de recherche s’est poursuit pour qualifier les éléments constitutifs de chaque type d’infraction et identifier ce que la machine doit reconnaître comme éléments déterminants pour la validation du recueil de la plainte.

Ces éléments sont clés pour que le prestataire puisse travailler sur les algorithmes. A terme, la pré-plainte est censée disparaître pour faire place à un système de plainte en ligne, où les victimes n’auront plus à se déplacer. Les infractions relatives aux atteintes aux personnes sont exclues dans un premier temps du périmètre, car elles sont aussi plus urgentes et nécessitent des actes d’enquêtes particuliers.

Nous orientons le prestataire sur les besoins du terrain, et ils travaillent aussi étroitement avec les datascientists du Datalab de la Gendarmerie : nous distinguons vraiment ici la partie métier et la partie technique. Le Datalab de la Gendarmerie s’occupe par exemple de récupérer les données et de les anonymiser.

Les ateliers métiers seront bientôt élargis pour y inclure les gendarmes et policiers qui ont participé aux immersions terrain (jusqu’à 10 personnes environ), pour mettre en avant leur pratique. Nous organiserons aussi prochainement un autre atelier métier, en fonction de l’évolution de l’algorithme. Ensuite il s’agira de le tester et de vérifier les résultats : notamment s’il s’agit bien d’une infraction d’atteinte aux biens dont l’auteur est inconnu. »

Rediffusion du datadrink de l’été : Cinq initiatives et réflexions data science & IA pour innover dans l’administration

Au programme du datadrink de l’été, cinq projets pour innover dans l’administration avec la data science et l’IA, suivies d’un appel à contribution : à revoir ici

Daphné Pertsekos et Jean-Baptiste Delfau (Gendarmerie Nationale) ont présenté les développements et pistes de réflexions sur le projet d'aide aux opérateurs des centres opérationnels d'appel pour prioriser les interventions urgentes
Mathieu Rajerison (Cerema) a présenté l'outil d'inventaire des friches "Cartofriches" développé par le Cerema (Centre d'études et d'expertise sur les risques, l'environnement, la mobilité et l'aménagement)
Pavel Soriano (Etalab) a présenté les résultats et prochaines étapes de l'expérimentation "Pour une IA Francophone (PIAF)", y compris le développement d'un moteur de questions-réponses pour les administrations françaises
Valérie Plier et Guillaume Vimont (SGA, Ministère des armées) ont présenté l’initiative Waked-Co, une plateforme innovante de recherche et de gestion de la documentation scientifique liée au Covid-19 à l’aide d’outils d’IA (identification des signaux d’alerte, traduction des articles scientifiques, présentation des résultats)
Sandrine Rodriguez (Mission Talents, DINUM) a présenté le dispositif « Partagez vos talents numériques! » qui met en relation les agents de l’Etat avec une expertise numérique et les administrations pour des besoins ponctuels.

Le prochain datadrink aura lieu à la rentrée en septembre : si vous souhaitez présenter une initiative ou une réflexion en cours avec le réseau des datascientists de l’administration, contactez-nous : lab-ia@data.gouv.fr

Atelier AMI-IA 2 "Explicabilité des algorithmes" du 9 juillet : liens utiles pour les projets IA

Le 9 juillet s’est tenu le troisième atelier technique du Lab IA de la saison 2 des projets AMI-IA sur le theme de l’explicabilité des algorithmes. Les équipes porteurs de projets sélectionnés dans le cadre de l’AMI-IA bénéficient d’une série d’ateliers tout au long de l’année pour accompagner l’avancement de leurs projets, en partenariat avec la DITP. Cette session a été organisée par le Lab IA avec Simon Chignard et Soizic Penicaud qui travaillent sur la transparence des algorithmes publics au sein d'Etalab, et Clément Hénin, doctorant à l'INRIA dont les recherches portent sur l'explicabilité des algorithmes.

Ressources :

Invitation à relayer vos informations et offres d’emploi data science et IA dans l’administration

Cette infolettre vise aussi à relayer vos informations sur vos projets data sciences et IA dans l’administration française : n’hésitez pas à l’utiliser pour relayer vos actualités et offres d’emploi pour datascientists de l’administration! Contactez nous : lab-ia@data.gouv.fr

Notre sélection de ressources à visiter:

Rediffusion des ateliers "Vis ma vie de data scientist" de juin 2020 : les liens vidéos sont en ligne
Jeux de données, réutilisations, outils : la sélection d'Etalab des sorties du mois de juin sur data.gouv.fr
Partagez vos talents numériques ! Proposé par la DINUM, le dispositif met en relation des agents de l'Etat désireux de mettres leurs compétences ponctuellement au service des administrations, et les services de l'Etat ayant besoin d'expertise numérique
« Machine Learning à partir des données spatio-temporelles : prioriser les zones de contrôle des pollutions diffuses par la Police de l’Environnement » : lire ici l’article du prestataire sélectionné pour le projet AMI-IA 1 de l’Office Français de la Biodiversité