betagouv / data-inclusion Goto Github PK

data·inclusion aggrège les données de l'insertion sociale et professionnelle

Home Page: https://api.data.inclusion.beta.gouv.fr/api/v0/docs

License: MIT License

Shell 0.35% Dockerfile 0.96% Procfile 0.01% Python 47.76% Mako 0.09% PLpgSQL 2.20% Jupyter Notebook 45.63% HCL 2.60% Makefile 0.39%

data-inclusion's Introduction

`data-inclusion`

data·inclusion aggrège les données de l'insertion sociale et professionnelle.

Présentation

Les sources de données traitées comprennent notamment:

les données du GIP de l'inclusion: les emplois de l'inclusion et dora,
les lieux de médiations numérique,
la base de ressources partenariales de Pole Emploi,
des données de collectivités territoriales (e.g. l'Ille-et-Vilaine)
des acteurs publics: 1jeune1solution, mes aides de pôle emploi.

Les données collectées sont:

historisées,
géocodées,
sirétisées automatiquement,
enrichies via les outils développés par data·inclusion:
- l'outil de correspondance, qui permet de faire correspondre 2 jeux de données brutes,
- l'outil de sirétisation, qui permet d'attribuer un siret aux structures, afin de croiser,
alignées sur le schéma de données de data·inclusion
publiées régulièrement en open data sur data.gouv, la plateforme de données publiques,
consultables via une api.

Architecture

Pipeline

data-inclusion's People

Contributors

Stargazers

Watchers

Forkers

jonathanperret

data-inclusion's Issues

Namespacer les modules dans `./dags/`

Par exemple:

./dags/settings.py -> ./dags/data_inclusion/settings.py

Ceci afin d'éviter les conflits d'import dans les dags.

Nettoyer les champs contenant des balises html

Conversion en html via https://github.com/showdownjs/showdown

Ajouter les données communes, départements et régions de l'INSEE comme seeds

seeds : https://docs.getdbt.com/docs/build/seeds

Ces données vont nous permettre de facilement labellisé les données géographiques pour lesquelles nous avons un code :

communes
départements
régions

Pour les autres nous devrons chercher ailleurs :

bassins
directions territoriales OFII

(après réflexion je vais plutôt rédiger mes issues en 🇫🇷 )

Intégration des données des tableaux Grist dans le pipeline

Afin d’autonomiser les producteurs de données et passer moins de temps à traiter leurs données, nous leur mettons à disposition des tableaux Grist.

Il est temps d’importer ces tableaux dans notre base de données.

L'API Grist

Créer un template de documentation pour l'opendata

Add geographic availability to services

ODS PEP RES_PARTENARIALE table has a PERIMETRE_GEO_RSP column that indicates the range of the availability of the service. From the documentation:

0 - National
1 - Régional (liste des régions dans la table DD009_REGION_RESSOURCE)
2 - Direction territoriale OFII (liste des OFII dans la table DD009_DIR_TERRITORIALE_OFII)
3 - Département (liste des départements dans la table DD009_DEPARTEMENT_RESSOURCE)
4 - Bassin d'emploi (liste des bassins dans la table DD009_BASSIN_RESSOURCE)
5 - Commune (liste des communes dans la table DD009_COMMUNE_RESSOURCE)

Problem: the RES_PARTENARIALE doesn't mention directly the place that would map with zone_diffusion_code (commune, département, etc.) and zone_diffusion_nom, we must get it from the address of the structure.

To do:

a join with ADRESSE via the RES_PARTENARIALE.ID_ADR (in sources or intermediate?)
get the right place code/name depending on the value of PERIMETRE_GEO_RSP

Automatiser vacuum

Mapping champs ODSPEP 2023 <=> format intermédiaire

Les données ODSPEP sont converties au format data.inclusion à partir d'un format intermédiaire, une version normalisée de fichiers Excel envoyés en 2022.

Fichier Excel => format intermédiaire normalisé => data.inclusion

Afin de faciliter le chargement des données reçues en janvier 2023, nous convertissons ces données au même format normalisé. Ce format normalisé se compose de plusieurs fichiers :

ressources.csv
contacts.csv
familles.csv
horaires.csv
sous-categories.csv

Première étape : faire le mapping.

resources.csv

Champ cible	Champ source 2023	Commentaire
ID_RES	RES_PARTENARIALE.ID_RES
LIBELLE_SERVICE	RES_PARTENARIALE.LIBELLE_COURT_RSP
DESCRIPTION_SERVICE	RES_PARTENARIALE.SERVICE_DESCRIPTION_RSP
STRUCTURE	RES_PARTENARIALE.NOM_STRUCTURE_RSP
SERVICE_RSP	RES_PARTENARIALE.SERVICE_RSP
ID_ADR	RES_PARTENARIALE.ID_ADR
L1_IDENTIFICATION_DEST_ADR	ADRESSE.L1_IDENTIFICATION_DEST_ADR
L2_IDENTITE_DEST_ADR	ADRESSE.L2_IDENTITE_DEST_ADR
L4_NUMERO_LIB_VOIE_ADR	ADRESSE.L4_NUMERO_LIB_VOIE_ADR
L3_COMPLEMENT_ADR	ADRESSE.L3_COMPLEMENT_ADR
L5_MENTION_ADR	ADRESSE.L5_MENTION_ADR
L7_PAYS_ADR	ADRESSE.L7_PAYS_ADR
LATITUDE_ADR	ADRESSE.LATITUDE_ADR
LONGITUDE_ADR	ADRESSE.LONGITUDE_ADR
EST_NORMALISEE_ADR	ADRESSE.EST_NORMALISEE_ADR
CODE_COMMUNE_ADR	ADRESSE.CODE_COMMUNE_ADR
CODE_POSTAL_ADR	ADRESSE.CODE_POSTAL_ADR
LIBELLE_COMMUNE_ADR	ADRESSE.LIBELLE_COMMUNE_ADR
DATE DERNIERE MAJ	RES_PARTENARIALE.DATE_DERNIERE_MODIF_RSP

Déduplication des structures

Les données de la Base de Ressources Partenariale ODSPEP combinent structures et services : chaque ligne de la BRP contient à la fois les données du service et de la structure qui le propose.

Notre process doit donc :

1. répartir les données dans deux tables distinctes (structures, services)
2. maintenir le lien entre la structure et ses services
3. tester le lien structure/source pour toutes les sources (pas seulement odspep)
4. dédupliquer les services malgré l'absence d'identifiant de structure

Actuellement, 1. est OK, mais 2. n'est pas testé et 3. est à refaire.

Envoi d'un message dans Mattermost en cas d'erreur Airflow

Pour qu'un email soit envoyé en cas d'échec dans n'importe quel DAG :

Mettre la variable d'environnement AIRFLOW__EMAIL__DEFAULT_EMAIL_ON_FAILURE sur True
(c'est aussi configurable tâche par tâche avec la propriété email_on_failure (booléen)
configurer l'envoi d'emails (SMTP)

Améliorer l'intégration avec metabase

le package dbt_metabase pourrait permettre de synchroniser les modèles (doc, nom, etc.) avec metabase
ajouter un service metabase pour le dév en local

Intégration de la source reseau-apha dans le pipeline

Les données du réseau alpha sont récupérées via un notebook qui exécute un script Scrapy.

Les données sont hébergées de manière statiques sur S3 (elles ne sont pas régulièrement mises à jour)

Mettre en place des tests e2e

Process ajout des sources Grist dans le pipeline

Ajout du document Grist dans /pipeline/settings.py

document Grist = source
table = stream
ajouter "origin": "grist"

DAG pour l'import des données INSEE COG

Nous dépendons à présent des données du COG de l'INSEE pour labelliser les données ODSPEP (services.zone_diffusion_nom).

Afin de faciliter l'import de ces données, une fois par an, nous avons besoin d'un DAG.

Améliorer la gestion des marts

différencier les tables utilisées par l'api et par l'outil de siretisation
utiliser les exposures de dbt ?

Réutiliser le manifest dbt pour générer le dag d'execution `main`

Ajouter un service dédié de validation/quality

Supprimer "sirétisées automatiquement" du README

Même si nous avons expérimenté la siretisation automatique, ce n'est pas une feature proposée systématiquement aux données en entrée.

Un jour peut-être !

Séparer l'exécution par source

Toutes les sources n'ont pas les mêmes contraintes en terme de fréquence d'exécution. Certaines sources ne changent pas (eg. odspep) et n'ont besoin d'être exécutée qu'une seule fois sur la dernière version des transformations.

Ajouter la L5 de l'adresse à l'adresse mappée

Actuellement on ne mappe que la L4 (numéro, rue), mais près de 1500 adresses ont également des mentions de ZI, d'étage, de BP, etc.

ODSPEP pipeline with dbt

sources / Intermediate

The sources step is partially implemented.

Either

I clean all the other tables first.
or I skip to intermediate and only clean in sources the data I need in intermediate

Clean is:

casting data to the right datatype
column names to snake case
date formatting
JSONB data extraction

Remember: all the data we deal with in dbt must be in an intermediate table, not in the source table.

Ajouter un model listant les violations du schéma

Nettoyage des caractères inutiles dans les noms de structures

Exemples de noms de structures problématiques, qui peuvent potentiellement limiter le matching et la déduplication (les guillemets proviennent des données) :

"UTPAS DENAIN LOURCHES - Alloc mensuelle d'aide sociale à l'enfance ( AMASE) "
« les Filoux »
: Centre Hospitalier Saint-Amand-les-Eaux

Donc il faudrait :

supprimer les guillemets doubles et en chevron
supprimer certains signes de ponctuation en début et fin de champ
finir par un TRIM() pour les espaces

Reading an Excel downloaded from S3 with pandas

So far I haven't succeeded in properly reading an Excel file with pd.read_excel and an object downloaded from S3.

Here is what I've tried:

with boto3 client

S3.Client.get_object

obj: dict = boto3_client.get_object(
	Bucket=os.environ['SCALEWAY_BUCKET'],
    Key=s3_filepath)

df = pd.read_excel(obj['Body'], dtype=str, engine='openpyxl')

Output

--> 516     self.handles.handle.seek(0)
    517     try:
    518         self.book = self.load_workbook(self.handles.handle)

UnsupportedOperation: seek

Tester l'extraction d'informations via llm

Permettre l'utilisation du templater `dbt` de sqlfluff

l'intégration simultanée de l'extension vscode et du precommit hook est assez laborieuse et ne permet pas à l'heure actuelle d'utiliser le templater dbt qui est évidemment le mieux adapté à notre usage.
il y a qqes problèmes de compatibilité entre les packages sqlfluff-dbt-templater et dbt à prendre en compte