Infolettre Lab IA n°15

L'infolettre du Lab IA est une lettre d'information mensuelle sur les actualités du Lab IA d'Etalab, les échanges, expérimentations, rencontres et outils autour de l'usage des données et de l'IA pour améliorer l'action publique. Elle s’adresse à la communauté du Lab IA : participants aux AMI IA 1 et 2, data scientists de l'administration, chercheurs et agents publics intéressés par la science des données et l'IA.

Vous pouvez vous y inscrire depuis ce lien, lire les infolettres précédentes et proposer des contenus pour les prochaines éditions.

Ci-dessous :

Programme du prochain datadrink d'octobre et annonce du datadrink de novembre en présentiel
Retour sur l'OpenLab OCR-Xtract du 7 octobre
Derniers jours pour candidater à l'AMI Accompagnement Recherche
Publication du rapport INSEE-DINUM sur les compétences data dans l'administration
Publication des 15 feuilles de routes ministérielles
Revisionner le dernier datadrink

Prochains événements

Datadrink le 21 octobre de 16h30 à 17h30 (inscriptions ici)
- Nicolas Stefanovitch et Guillaume Jacquet (Commission Européenne): Le Text Mining comme support pour l'analyse de consultations publiques
- Philippe Besse (Professeur émérite à l'INSA Toulouse): Quelles implications la future réglementation de l'IA au niveau européen (telle que présentée notamment dans l'Artificial Intelligent Act) aura-t-elle sur le travail du data scientist ?

Le second sujet étant vaste, nous ne prévoyons que deux interventions pour cette session, afin de dédier plus temps à la deuxième intervention et aux échanges associés.

Datadrink le 19 novembre en présentiel : nous vous proposons de nous retrouver en présentiel pour cette édition, au Lieu de la Transformation publique, le vendredi 19 novembre de 16h30 à 18h. Les présentations seront suivies d'un moment convivial. Le programme est à venir.

L'administration recrute des data scientists !

Le pôle données de la Cour des comptes recrute un data scientist : voir l'offre ici
La Haute autorité de santé recrute un data scientist spécialisé en visualisation de données : ici
Le service statistique ministériel de la sécurité intérieure recrute un data scientist : ici
La DNUM des ministères sociaux recrute un chef de projets data sciences et IA : ici
Le Lab Santé recrute un data scientist senior : ici

Retours sur l'OpenLab OCR-Xtract

Le 7 octobre dernier, s'est tenu le premier OpenLab sur l'outil OCR-Xtract. Vous avez été une quarantaine à participer et nous vous remercions pour vos précieuses contributions.

OCR-Xtract est le nouvel outil mutualisé du Lab IA. Son but ? Faciliter le traitement de documents administratifs grâce à de la Reconnaissance Optique de Caractère (OCR) et des technologies d'extraction d'informations.

Le constat est le suivant : les administrations ont régulièrement besoin de traiter en masse des documents administratifs sous des formats non directement exploitables (PDF scannés, images, etc…). Exploiter ces informations devient vite très chronophage sans l'aide de traitements automatisés. OCR-Xtract vise à proposer aux administrations une solution d'OCR et d'extraction d'informations permettant de traiter en masse des documents administratifs. C'est un projet ouvert : les résultats seront publiés et pourront être utilisés par tous.

Ce premier OpenLab avait pour objectif de rassembler une communauté d'utilisateurs potentiels et de mieux connaître les besoins et cas d'usage dans ce domaine.

Deux typologies de besoin ressortent des cas d'usages qui nous ont été partagés.

Un premier type de besoin est celui de traiter des documents courts, de contenu et de forme relativement homogènes, où la localisation du texte joue un rôle important pour la classification des différents types d'informations à extraire. C'est le cas pour le traitement des pièces d'identités (CNI, passeports, permis de conduire…), de documents de type bulletins de salaire, factures, de formulaires (Cerfa, déclarations sociales…).

Un deuxième besoin concerne le traitement de documents textuels longs, de contenu et de forme hétérogènes, où le contenu textuel (vocabulaire, constructions syntaxiques, cooccurrences…) est plus important que la spatialisation du texte pour favoriser la reconnaissance.

Nous avons prévu dans un premier temps de nous concentrer sur le premier type de besoin, mais nous prevoyons d'intégrer le deuxième de besoin à notre feuille de route.

N'hésitez pas à nous écrire à lab-ia@data.gouv.fr pour nous faire part de vos cas d'usage.

Derniers jours pour candidater à l'AMI Accompagnement Recherche

Vendredi 15 octobre, nous fermons les candidatures pour l'Appel à Manifestation d'Intérêt Accompagnement Recherche ! Il vous reste quelques jours pour terminer vos dossiers, nous restons à votre disposition pour tout complément d'information. Le jury se tiendra le 9 novembre. Vous pouvez trouver plus d'informations sur notre blog post.

Le rapport INSEE-Dinum sur les compétences data dans l'administration

Un rapport, qui découle d'une mission conjointe de la DINUM et de l'INSEE, a été publié fin septembre 2021, afin d'évaluer qualitativement et quantitativement les expertises disponibles au sein de l’État dans le domaine de la donnée, les besoins des administrations et la capacité à faire face à l’accroissement de ces besoins. Il forumule également des recommendations pour dynamiser et valoriser les compétences de la donées dans le secteur public.

Lisez ici le billet de blog Etalab sur le sujet, vous y trouverez également le lien pour télécharger le rapport.

Les feuilles de route des ministères

Les feuilles de route ministérielles en matière de politique de la donnée, des algorithmes et des codes sources ont été publiées fin septembre.

Lisez ici le billet de blog Etalab à ce sujet. Les feuilles de routes sont téléchargeables sur data.gouv.fr ici.

Rediffusion du dernier datadrink

Vous pouvez revoir le datadrink du 9 septembre ici.

Valentin Barrière et Martin Claverie (Commission Européenne): prédire l’utilisation des terres agricoles en fusionnant des données satellites avec les données des rotations de cultures. Retrouvez la présentation ici
Clément Biron, Elsa Trujillo, Martin Ratinaud (mission Beta.gouv et Ambassadeur du Numérique): évaluer et chiffrer les campagnes de manipulation de l’information sur Twitter (suivi de hashtags, visualisation des campagnes, détection de bots).
Oana Balalau (INRIA): analyser l'impact de la propagande dans six grands forums politiques sur Reddit, qui ciblent un public diversifié aux États-Unis et au Royaume-Uni. Retrouvez la présentation ici