diff --git a/README.md b/README.md index eb946bb6..bc998c6b 100755 --- a/README.md +++ b/README.md @@ -23,17 +23,21 @@ ici 👉](https://annuaire-entreprises.data.gouv.fr/donnees/sources). | Données | Administration responsable | Accès au jeu de données | | ---------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | -| Dénomination, Adresse, NAF, Forme juridique, ESS... | `Insee` | https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/ | +| Dénomination, Adresse, Code NAF, Forme juridique... | `Insee` | https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/ | | Dirigeants | `INPI` | [FTP INPI](https://data.inpi.fr/content/editorial/Serveur_ftp_entreprises) | | Liste des professionnels engagés en BIO | `Agence Bio` | https://www.data.gouv.fr/fr/datasets/professionnels-engages-en-bio/ | | Liste des Entreprises RGE | `ADEME` | https://www.data.gouv.fr/fr/datasets/liste-des-entreprises-rge-1/ | | Liste des entrepreneurs de spectacles vivants | `Ministère de la Culture` | https://www.data.gouv.fr/fr/datasets/declarations-des-entrepreneurs-de-spectacles-vivants/ | -| Liste des déclarations Egapro | `MTPEI` | https://www.data.gouv.fr/fr/datasets/index-egalite-professionnelle-f-h-des-entreprises-de-50-salaries-ou-plus/ | +| Liste des déclarations Egapro | `Ministère du travail` | https://www.data.gouv.fr/fr/datasets/index-egalite-professionnelle-f-h-des-entreprises-de-50-salaries-ou-plus | | Liste conventions collectives | `Ministère du travail` | https://www.data.gouv.fr/fr/datasets/liste-des-conventions-collectives-par-entreprise-siret/ | | Liste des organismes de formation | `Ministère du travail` | https://www.data.gouv.fr/fr/datasets/liste-publique-des-organismes-de-formation-l-6351-7-1-du-code-du-travail/ | | Liste des établissements du domaine sanitaire et social (FINESS) | `Ministère des Solidarités et de la Santé` | https://www.data.gouv.fr/fr/datasets/finess-extraction-du-fichier-des-etablissements/ | | Liste des organismes de formation | - `Ministère de l'Éducation Nationale et de la Jeunesse`
-`Ministère de l'Enseignement supérieur et de la Recherche`
-`Office national d'information sur les enseignements et les professions` | [Annuaire de l'Ă©ducation du MENJ](https://www.data.gouv.fr/fr/datasets/5889d03fa3a72974cbf0d5b1/)
[Principaux établissements d'enseignement supérieur du MESR](https://www.data.gouv.fr/fr/datasets/586dae5ea3a7290df6f4be88/)
[Idéo-Structures d'enseignement supérieur de l'ONISEP](https://www.data.gouv.fr/fr/datasets/5fa5e386afdaa6152360f323/) | | Liste des élus d'une collectivité territoriale | `Ministère de l'Intérieur et des Outre-Mer` | https://www.data.gouv.fr/fr/datasets/repertoire-national-des-elus-1/ | +| Liste des bilans financiers | `INPI`
`Équipe Signaux Faibles` | [Jeu de données INPI ratios financiers](https://www.data.gouv.fr/fr/datasets/63cb2e29b22886911440440d/) | +| Liste des collectivités territoriales | `Direction générale des collectivités locales` | [Comptes consolidés des régions](https://www.data.gouv.fr/fr/datasets/5f68c4ec9920494bf28021e3)
[Comptes consolidés des départements](https://www.data.gouv.fr/fr/datasets/5f68c4edc9ed7984245b654b)
[Table de correspondance Siren et code Insee des communes](https://www.data.gouv.fr/fr/datasets/630f5173873064dd369479b4) | +| Liste des entreprises de l'Économie Sociale et Solidaire (ESS) | `ESS France` | [Liste des entreprises de l'ESS](https://www.data.gouv.fr/fr/datasets/646c8d45de96cc3428092c6b/) | | +| Liste des Structure d'Insertion par l'Activité Economique (SIAE) | `Le marché de l'inclusion` | [API Le marché de l'inclusion](https://lemarche.inclusion.beta.gouv.fr/) | | ## Flow des données @@ -63,22 +67,22 @@ flowchart TD end subgraph Workflow_SQLite["Workflow ETL"] - DB_MinIO@{ shape: lin-cyl, label: "Stockage des\ndonnées sur MinIO" } -->|DAG Airflow: Quotidien| DAG_SQLITE["Création de + DB_MinIO@{ shape: lin-cyl, label: "Stockage des\ndonnées sur MinIO" } -->|DAG Airflow: Quotidien| DAG_SQLITE["Création de la BDD SQLite"] DAG_SQLITE --> SQLite_DB[(SQLite Database)] SQLite_DB --> SQLITE_MinIO@{ shape: lin-cyl, label: "Stockage DBB\nsur MinIO" } end subgraph Indexation_Elasticsearch["Workflow Indexation"] - SQLITE_MinIO -->|DAG Airflow : Quotidien - déclenché par + SQLITE_MinIO -->|DAG Airflow : Quotidien + déclenché par le workflow ETL| DAG_Elastic["Chunking & Indexation"] DAG_Elastic --> Elastic_DB[(Index Elasticsearch)] end subgraph Snapshot_Workflow["Workflow Snapshot"] - Elastic_DB -->|DAG Airflow : Quotidien - déclenché par + Elastic_DB -->|DAG Airflow : Quotidien + déclenché par le workflow Indexation| DAG_Snapshots["Création des Snapshots"] DAG_Snapshots --> Snapshot1[(Snapshot 1)] DAG_Snapshots --> Snapshot2[(Snapshot 2)] @@ -87,9 +91,13 @@ flowchart TD Snapshot1 --> API1["API de Recherche d'entreprises : instance 1"] - Snapshot2 --> API2["API de Recherche + Snapshot2 --> API2["API de Recherche d'entreprises : instance 2"] Snapshot3 --> API3["API de Recherche d'entreprises : instance 3"] ``` + +### Informations + +Channel Tchap d'information : `https://matrix.to/#/#annuaire-entreprises:agent.dinum.tchap.gouv.fr` diff --git a/workflows/data_pipelines/agence_bio/README.md b/workflows/data_pipelines/agence_bio/README.md index efb18e28..a33432f5 100644 --- a/workflows/data_pipelines/agence_bio/README.md +++ b/workflows/data_pipelines/agence_bio/README.md @@ -4,9 +4,8 @@ | Information | Valeur | | -------- | -------- | -| Fichier source | `dag.py` | +| Fichier source | `dag.py` | | Description | Ce traitement permet de constituer un stock sur les entreprises certifiées bio en France. | | Fréquence | Quotidienne | | Données sources | [API Professionnels Bio](https://api.gouv.fr/les-api/api-professionnels-bio) | | Données de sorties | Minio | -| Channel Tchap d'information | ~annuaire-entreprises-tech | diff --git a/workflows/data_pipelines/bilans_financiers/README.md b/workflows/data_pipelines/bilans_financiers/README.md index 5bde5819..6ee18709 100644 --- a/workflows/data_pipelines/bilans_financiers/README.md +++ b/workflows/data_pipelines/bilans_financiers/README.md @@ -4,9 +4,8 @@ | Information | Valeur | | -------- | -------- | -| Fichier source | `dag.py` | +| Fichier source | `dag.py` | | Description | Ce traitement permet de synthétiser les données publiées par l'équipe Signaux Faibles et Fiche Commune Entreprise. | | Fréquence | Quotidienne | -| Données sources | [Jeu de données INPI ratios financiers](https://www.data.gouv.fr/fr/datasets/63cb2e29b22886911440440d/) | +| Données sources | [Jeu de données INPI ratios financiers](https://www.data.gouv.fr/fr/datasets/63cb2e29b22886911440440d) | | Données de sorties | Minio | -| Channel Tchap d'information | ~annuaire-entreprises-tech | diff --git a/workflows/data_pipelines/colter/README.md b/workflows/data_pipelines/colter/README.md new file mode 100644 index 00000000..31b99d3a --- /dev/null +++ b/workflows/data_pipelines/colter/README.md @@ -0,0 +1,21 @@ +# Documentation + +## data_processing_collectivite_territoriale + +| Information | Valeur | +| -------- | -------- | +| Fichier source | `dag.py` | +| Description | Ce traitement permet de récupérer la liste des collectivités territoriales. | +| Fréquence | Quotidienne | +| Données sources | [Comptes consolidés des régions](https://www.data.gouv.fr/fr/datasets/5f68c4ec9920494bf28021e3)
[Comptes consolidés des départements](https://www.data.gouv.fr/fr/datasets/5f68c4edc9ed7984245b654b)
[Table de correspondance Siren et code Insee des communes](https://www.data.gouv.fr/fr/datasets/630f5173873064dd369479b4) | +| Données de sorties | Minio | + +## data_processing_collectivite_territoriale_elus + +| Information | Valeur | +| -------- | -------- | +| Fichier source | `dag.py` | +| Description | Ce traitement permet de récupérer la liste des elus des collectivités territoriales. | +| Fréquence | Quotidienne | +| Données sources | [Conseillers régionaux
Conseillers départementaux
Conseillers municipaux
Conseillers communautaires](https://www.data.gouv.fr/fr/datasets/5c34c4d1634f4173183a64f1) | +| Données de sorties | Minio | diff --git a/workflows/data_pipelines/convcollective/README.md b/workflows/data_pipelines/convcollective/README.md index 5dcb4a21..119c413d 100644 --- a/workflows/data_pipelines/convcollective/README.md +++ b/workflows/data_pipelines/convcollective/README.md @@ -4,9 +4,8 @@ | Information | Valeur | | -------- | -------- | -| Fichier source | `dag.py` | +| Fichier source | `dag.py` | | Description | Ce traitement permet de synthétiser les données sur les convention collectives des établissements. | | Fréquence | Quotidienne | | Données sources | [ Liste des conventions collectives par entreprise (SIRET)](https://www.data.gouv.fr/fr/datasets/5e7201d522f2a43e9f736a9a/) | | Données de sorties | Minio | -| Channel Tchap d'information | ~annuaire-entreprises-tech | diff --git a/workflows/data_pipelines/egapro/README.md b/workflows/data_pipelines/egapro/README.md new file mode 100644 index 00000000..613259b1 --- /dev/null +++ b/workflows/data_pipelines/egapro/README.md @@ -0,0 +1,11 @@ +# Documentation + +## data_processing_egapro + +| Information | Valeur | +| -------- | -------- | +| Fichier source | `dag.py` | +| Description | Ce traitement permet de récupérer l'index égalité professionnelle F/H des entreprises de plus de 250 salariés. | +| Fréquence | Quotidienne | +| Données sources | [Index Egalité Professionnelle F/H](https://www.data.gouv.fr/fr/datasets/61a73dcfe3171089843587bf/) | +| Données de sorties | Minio | diff --git a/workflows/data_pipelines/ess_france/README.md b/workflows/data_pipelines/ess_france/README.md new file mode 100644 index 00000000..aad7d682 --- /dev/null +++ b/workflows/data_pipelines/ess_france/README.md @@ -0,0 +1,11 @@ +# Documentation + +## data_processing_ess_france + +| Information | Valeur | +| -------- | -------- | +| Fichier source | `dag.py` | +| Description | Ce traitement permet de récupérer la liste des entreprises de l'Économie Sociale et Solidaire (ESS). | +| Fréquence | Quotidienne | +| Données sources | [Liste des entreprises de l'ESS](https://www.data.gouv.fr/fr/datasets/646c8d45de96cc3428092c6b/) | +| Données de sorties | Minio | diff --git a/workflows/data_pipelines/finess/README.md b/workflows/data_pipelines/finess/README.md new file mode 100644 index 00000000..e3dfe1c5 --- /dev/null +++ b/workflows/data_pipelines/finess/README.md @@ -0,0 +1,11 @@ +# Documentation + +## data_processing_finess + +| Information | Valeur | +| -------- | -------- | +| Fichier source | `dag.py` | +| Description | Ce traitement permet de récupérer les établissements du domaine sanitaire et social. | +| Fréquence | Quotidienne | +| Données sources | [Extraction Finess des Etablissements](https://data.gouv.fr/fr/datasets/53699569a3a729239d2046eb) | +| Données de sorties | Minio | diff --git a/workflows/data_pipelines/formation/README.md b/workflows/data_pipelines/formation/README.md new file mode 100644 index 00000000..29769745 --- /dev/null +++ b/workflows/data_pipelines/formation/README.md @@ -0,0 +1,11 @@ +# Documentation + +## data_processing_organisme_formation + +| Information | Valeur | +| -------- | -------- | +| Fichier source | `dag.py` | +| Description | Ce traitement permet de récupérer la liste des organismes déclarés auprès des prefectures. | +| Fréquence | Quotidienne | +| Données sources | [Liste publique des Organismes de Formation](https://dgefp.opendatasoft.com/explore/dataset/liste-publique-des-of-v2/information/) | +| Données de sorties | Minio | diff --git a/workflows/data_pipelines/marche_inclusion/README.md b/workflows/data_pipelines/marche_inclusion/README.md index cda6bdae..e4e6f565 100644 --- a/workflows/data_pipelines/marche_inclusion/README.md +++ b/workflows/data_pipelines/marche_inclusion/README.md @@ -4,9 +4,8 @@ | Information | Valeur | | -------- | -------- | -| Fichier source | `dag.py` | -| Description | Ce traitement permet de récupèrer le type de Structure d'Insertion par l'Activité Economique (SIAE) de chaque établissement : EI, ACI, ETTI, AI, etc. | +| Fichier source | `dag.py` | +| Description | Ce traitement permet de récupérer le type de Structure d'Insertion par l'Activité Economique (SIAE) de chaque établissement : EI, ACI, ETTI, AI, etc. | | Fréquence | Quotidienne | | Données sources | [API Le marché de l'inclusion](https://lemarche.inclusion.beta.gouv.fr/) | | Données de sorties | Minio | -| Channel Tchap d'information | ~annuaire-entreprises-tech | diff --git a/workflows/data_pipelines/rge/README.md b/workflows/data_pipelines/rge/README.md new file mode 100644 index 00000000..e36908e4 --- /dev/null +++ b/workflows/data_pipelines/rge/README.md @@ -0,0 +1,11 @@ +# Documentation + +## data_processing_rge + +| Information | Valeur | +| -------- | -------- | +| Fichier source | `dag.py` | +| Description | Ce traitement permet de récupérer la liste des entreprises RGE depuis l'API de l'ADEME. | +| Fréquence | Quotidienne | +| Données sources | [API de l'ADEME](https://data.ademe.fr/datasets/liste-des-entreprises-rge-2) | +| Données de sorties | Minio | diff --git a/workflows/data_pipelines/rne/flux/README.md b/workflows/data_pipelines/rne/flux/README.md index 130e74e6..47a99ada 100644 --- a/workflows/data_pipelines/rne/flux/README.md +++ b/workflows/data_pipelines/rne/flux/README.md @@ -4,8 +4,8 @@ | Information | Valeur | | -------- | -------- | -| Fichier source | `dag.py` | -| Description | DAG Airflow permettant de récupérer le flux quotidien des données RNE depuis l'API. Le DAG récupère les données des SIREN modifiés depuis la dernière date de modification enregistrée dans les fichiers JSON stockés sur MinIO et jusqu'à la journée précédant l'exécution du DAG. Une fois récupérées, ces données sont sauvegardées sur une instance Minio. Ces fichiers sont par la suite utilisés pour générer le fichier flux dirigeants pour [l'annuaire des entreprises](https://annuaire-entreprises.data.gouv.fr). | Quotidien | +| Fichier source | `dag.py` | +| Description | DAG Airflow permettant de récupérer le flux quotidien des données RNE depuis l'API. Le DAG récupère les données des SIREN modifiés depuis la dernière date de modification enregistrée dans les fichiers JSON stockés sur MinIO et jusqu'à la journée précédant l'exécution du DAG. Une fois récupérées, ces données sont sauvegardées sur une instance Minio. Ces fichiers sont par la suite utilisés pour générer le fichier flux dirigeants pour [l'annuaire des entreprises](https://annuaire-entreprises.data.gouv.fr). | +| Fréquence | Quotidienne | | Données sources | API RNE INPI | | Données de sorties | Fichiers json dans Minio | -| Channel Tchap d'information | ~annuaire-entreprises-monitoring | diff --git a/workflows/data_pipelines/rne/stock/README.md b/workflows/data_pipelines/rne/stock/README.md index 796af642..f0a01ebb 100644 --- a/workflows/data_pipelines/rne/stock/README.md +++ b/workflows/data_pipelines/rne/stock/README.md @@ -4,8 +4,8 @@ | Information | Valeur | | -------- | -------- | -| Fichier source | `dag.py` | -| Description | DAG Airflow permettant de récupérer les données stock du RNE (INPI). Le DAG récupère le fichier zip depuis le site de l'INPI, parcours les fichiers json, et les sauvegarde sur une instance Minio. Ces fichiers sont par la suite utilisés pour générer le fichier stock dirigeants pour [l'annuaire des entreprises](https://annuaire-entreprises.data.gouv.fr). | Annuel | +| Fichier source | `dag.py` | +| Description | DAG Airflow permettant de récupérer les données stock du RNE (INPI). Le DAG récupère le fichier zip depuis le site de l'INPI, parcours les fichiers json, et les sauvegarde sur une instance Minio. Ces fichiers sont par la suite utilisés pour générer le fichier stock dirigeants pour [l'annuaire des entreprises](https://annuaire-entreprises.data.gouv.fr). | +| Fréquence | Annuel | | Données sources | STOCK RNE INPI | | Données de sorties | Fichiers json dans Minio | -| Channel Tchap d'information | ~annuaire-entreprises-monitoring | diff --git a/workflows/data_pipelines/sirene/flux/README.md b/workflows/data_pipelines/sirene/flux/README.md new file mode 100644 index 00000000..8e2136a5 --- /dev/null +++ b/workflows/data_pipelines/sirene/flux/README.md @@ -0,0 +1,11 @@ +# Documentation + +## data_processing_sirene_flux + +| Information | Valeur | +| -------- | -------- | +| Fichier source | `dag.py` | +| Description | Ce traitement permet de récupérer le flux quotidien de la base SIRENE depuis l'API de l'INSEE. | +| Fréquence | Quotidienne | +| Données sources | [API SIRENE](https://api.insee.fr/api-sirene/3.11/) | +| Données de sorties | Minio | diff --git a/workflows/data_pipelines/sirene/stock/README.md b/workflows/data_pipelines/sirene/stock/README.md new file mode 100644 index 00000000..757668c2 --- /dev/null +++ b/workflows/data_pipelines/sirene/stock/README.md @@ -0,0 +1,15 @@ +# Documentation + +## data_processing_sirene_stock + +| Information | Valeur | +| -------- | -------- | +| Fichier source | `dag.py` | +| Description | Ce traitement permet de récupérer les bases SIRENE de l'INSEE. | +| Fréquence | Quotidienne | +| Données sources | [Base SIRENE StockUniteLegale
Base SIRENE StockUniteLegaleHistorique
Base SIRENE StockEtablissementHistorique](https://www.data.gouv.fr/fr/datasets/5b7ffc618b4c4169d30727e0) | +| Données de sorties | Minio | + +### Note: + +Le fichier StockEtablissement est récupéré indirectement dans le dag `extract_transform_load_db` via le retraitement fait par data.gouv.fr sur la [base SIRENE géolocalisée avec la Base d'Adresse Nationale (BAN)] (https://www.data.gouv.fr/fr/datasets/base-sirene-des-etablissements-siret-geolocalisee-avec-la-base-dadresse-nationale-ban/) diff --git a/workflows/data_pipelines/spectacle/README.md b/workflows/data_pipelines/spectacle/README.md new file mode 100644 index 00000000..f7012d77 --- /dev/null +++ b/workflows/data_pipelines/spectacle/README.md @@ -0,0 +1,11 @@ +# Documentation + +## data_processing_entrepreneur_spectacle + +| Information | Valeur | +| -------- | -------- | +| Fichier source | `dag.py` | +| Description | Ce traitement permet de récupérer les données relatives aux déclarations d'activité d'entrepreneur de spectacles vivants. | +| Fréquence | Quotidienne | +| Données sources | [Déclarations des entrepreneurs de spectacles vivants](https://www.data.gouv.fr/fr/datasets/5fc9b4729dbf684fecb13bae/) | +| Données de sorties | Minio | diff --git a/workflows/data_pipelines/uai/README.md b/workflows/data_pipelines/uai/README.md index 38882a84..21adab14 100644 --- a/workflows/data_pipelines/uai/README.md +++ b/workflows/data_pipelines/uai/README.md @@ -4,13 +4,13 @@ | Information | Valeur | | -------- | -------- | -| Fichier source | `dag.py` | +| Fichier source | `dag.py` | | Description | Ce traitement permet de récupérer différentes sources de données autour des établissements scolaires, les traite pour générer un fichier de synthèse complet. | -| Fréquence | Quotidien | +| Fréquence | Quotidienne | | Données sources | [Annuaire de l'éducation du MENJ](https://www.data.gouv.fr/fr/datasets/5889d03fa3a72974cbf0d5b1/)
[Principaux établissements d'enseignement supérieur du MESR](https://www.data.gouv.fr/fr/datasets/586dae5ea3a7290df6f4be88/)
[Idéo-Structures d'enseignement supérieur de l'ONISEP](https://www.data.gouv.fr/fr/datasets/5fa5e386afdaa6152360f323/) | | Données de sorties | Minio | -Note: +### Note: Les jeux de données ONISEP et MENJ sont régulièrement écrasés par de nouvelles ressources au lieu d'être mises à jours. Nous devons donc récupérer l'identifiant de la dernière ressource depuis la page dataset pour obtenir la dernière version.