Skip to content

Commit

Permalink
chore: update README files
Browse files Browse the repository at this point in the history
  • Loading branch information
hacherix committed Jan 14, 2025
1 parent dccbc0d commit 3ba1a92
Show file tree
Hide file tree
Showing 17 changed files with 144 additions and 27 deletions.
24 changes: 16 additions & 8 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -23,17 +23,21 @@ ici 👉](https://annuaire-entreprises.data.gouv.fr/donnees/sources).

| Données | Administration responsable | Accès au jeu de données |
| ---------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| Dénomination, Adresse, NAF, Forme juridique, ESS... | `Insee` | https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/ |
| Dénomination, Adresse, Code NAF, Forme juridique... | `Insee` | https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/ |
| Dirigeants | `INPI` | [FTP INPI](https://data.inpi.fr/content/editorial/Serveur_ftp_entreprises) |
| Liste des professionnels engagés en BIO | `Agence Bio` | https://www.data.gouv.fr/fr/datasets/professionnels-engages-en-bio/ |
| Liste des Entreprises RGE | `ADEME` | https://www.data.gouv.fr/fr/datasets/liste-des-entreprises-rge-1/ |
| Liste des entrepreneurs de spectacles vivants | `Ministère de la Culture` | https://www.data.gouv.fr/fr/datasets/declarations-des-entrepreneurs-de-spectacles-vivants/ |
| Liste des déclarations Egapro | `MTPEI` | https://www.data.gouv.fr/fr/datasets/index-egalite-professionnelle-f-h-des-entreprises-de-50-salaries-ou-plus/ |
| Liste des déclarations Egapro | `Ministère du travail` | https://www.data.gouv.fr/fr/datasets/index-egalite-professionnelle-f-h-des-entreprises-de-50-salaries-ou-plus |
| Liste conventions collectives | `Ministère du travail` | https://www.data.gouv.fr/fr/datasets/liste-des-conventions-collectives-par-entreprise-siret/ |
| Liste des organismes de formation | `Ministère du travail` | https://www.data.gouv.fr/fr/datasets/liste-publique-des-organismes-de-formation-l-6351-7-1-du-code-du-travail/ |
| Liste des établissements du domaine sanitaire et social (FINESS) | `Ministère des Solidarités et de la Santé` | https://www.data.gouv.fr/fr/datasets/finess-extraction-du-fichier-des-etablissements/ |
| Liste des organismes de formation | - `Ministère de l'Éducation Nationale et de la Jeunesse` <br />-`Ministère de l'Enseignement supérieur et de la Recherche`<br />-`Office national d'information sur les enseignements et les professions` | [Annuaire de l'éducation du MENJ](https://www.data.gouv.fr/fr/datasets/5889d03fa3a72974cbf0d5b1/)<br />[Principaux établissements d'enseignement supérieur du MESR](https://www.data.gouv.fr/fr/datasets/586dae5ea3a7290df6f4be88/)<br />[Idéo-Structures d'enseignement supérieur de l'ONISEP](https://www.data.gouv.fr/fr/datasets/5fa5e386afdaa6152360f323/) |
| Liste des élus d'une collectivité territoriale | `Ministère de l'Intérieur et des Outre-Mer` | https://www.data.gouv.fr/fr/datasets/repertoire-national-des-elus-1/ |
| Liste des bilans financiers | `INPI`<br />`Équipe Signaux Faibles` | [Jeu de données INPI ratios financiers](https://www.data.gouv.fr/fr/datasets/63cb2e29b22886911440440d/) |
| Liste des collectivités territoriales | `Direction générale des collectivités locales` | [Comptes consolidés des régions](https://www.data.gouv.fr/fr/datasets/5f68c4ec9920494bf28021e3)<br />[Comptes consolidés des départements](https://www.data.gouv.fr/fr/datasets/5f68c4edc9ed7984245b654b)<br />[Table de correspondance Siren et code Insee des communes](https://www.data.gouv.fr/fr/datasets/630f5173873064dd369479b4) |
| Liste des entreprises de l'Économie Sociale et Solidaire (ESS) | `ESS France` | [Liste des entreprises de l'ESS](https://www.data.gouv.fr/fr/datasets/646c8d45de96cc3428092c6b/) | |
| Liste des Structure d'Insertion par l'Activité Economique (SIAE) | `Le marché de l'inclusion` | [API Le marché de l'inclusion](https://lemarche.inclusion.beta.gouv.fr/) | |


## Flow des données
Expand Down Expand Up @@ -63,22 +67,22 @@ flowchart TD
end
subgraph Workflow_SQLite["Workflow ETL"]
DB_MinIO@{ shape: lin-cyl, label: "Stockage des\ndonnées sur MinIO" } -->|DAG Airflow: Quotidien| DAG_SQLITE["Création de
DB_MinIO@{ shape: lin-cyl, label: "Stockage des\ndonnées sur MinIO" } -->|DAG Airflow: Quotidien| DAG_SQLITE["Création de
la BDD SQLite"]
DAG_SQLITE --> SQLite_DB[(SQLite Database)]
SQLite_DB --> SQLITE_MinIO@{ shape: lin-cyl, label: "Stockage DBB\nsur MinIO" }
end
subgraph Indexation_Elasticsearch["Workflow Indexation"]
SQLITE_MinIO -->|DAG Airflow : Quotidien
déclenché par
SQLITE_MinIO -->|DAG Airflow : Quotidien
déclenché par
le workflow ETL| DAG_Elastic["Chunking & Indexation"]
DAG_Elastic --> Elastic_DB[(Index Elasticsearch)]
end
subgraph Snapshot_Workflow["Workflow Snapshot"]
Elastic_DB -->|DAG Airflow : Quotidien
déclenché par
Elastic_DB -->|DAG Airflow : Quotidien
déclenché par
le workflow Indexation| DAG_Snapshots["Création des Snapshots"]
DAG_Snapshots --> Snapshot1[(Snapshot 1)]
DAG_Snapshots --> Snapshot2[(Snapshot 2)]
Expand All @@ -87,9 +91,13 @@ flowchart TD
Snapshot1 --> API1["API de Recherche
d'entreprises : instance 1"]
Snapshot2 --> API2["API de Recherche
Snapshot2 --> API2["API de Recherche
d'entreprises : instance 2"]
Snapshot3 --> API3["API de Recherche
d'entreprises : instance 3"]
```

### Informations

Channel Tchap d'information : `https://matrix.to/#/#annuaire-entreprises:agent.dinum.tchap.gouv.fr`
3 changes: 1 addition & 2 deletions workflows/data_pipelines/agence_bio/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,9 +4,8 @@

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de constituer un stock sur les entreprises certifiées bio en France. |
| Fréquence | Quotidienne |
| Données sources | [API Professionnels Bio](https://api.gouv.fr/les-api/api-professionnels-bio) |
| Données de sorties | Minio |
| Channel Tchap d'information | ~annuaire-entreprises-tech |
5 changes: 2 additions & 3 deletions workflows/data_pipelines/bilans_financiers/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,9 +4,8 @@

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de synthétiser les données publiées par l'équipe Signaux Faibles et Fiche Commune Entreprise. |
| Fréquence | Quotidienne |
| Données sources | [Jeu de données INPI ratios financiers](https://www.data.gouv.fr/fr/datasets/63cb2e29b22886911440440d/) |
| Données sources | [Jeu de données INPI ratios financiers](https://www.data.gouv.fr/fr/datasets/63cb2e29b22886911440440d) |
| Données de sorties | Minio |
| Channel Tchap d'information | ~annuaire-entreprises-tech |
21 changes: 21 additions & 0 deletions workflows/data_pipelines/colter/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
# Documentation

## data_processing_collectivite_territoriale

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer la liste des collectivités territoriales. |
| Fréquence | Quotidienne |
| Données sources | [Comptes consolidés des régions](https://www.data.gouv.fr/fr/datasets/5f68c4ec9920494bf28021e3)<br />[Comptes consolidés des départements](https://www.data.gouv.fr/fr/datasets/5f68c4edc9ed7984245b654b)<br />[Table de correspondance Siren et code Insee des communes](https://www.data.gouv.fr/fr/datasets/630f5173873064dd369479b4) |
| Données de sorties | Minio |

## data_processing_collectivite_territoriale_elus

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer la liste des elus des collectivités territoriales. |
| Fréquence | Quotidienne |
| Données sources | [Conseillers régionaux<br />Conseillers départementaux<br />Conseillers municipaux<br />Conseillers communautaires](https://www.data.gouv.fr/fr/datasets/5c34c4d1634f4173183a64f1) |
| Données de sorties | Minio |
3 changes: 1 addition & 2 deletions workflows/data_pipelines/convcollective/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,9 +4,8 @@

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de synthétiser les données sur les convention collectives des établissements. |
| Fréquence | Quotidienne |
| Données sources | [ Liste des conventions collectives par entreprise (SIRET)](https://www.data.gouv.fr/fr/datasets/5e7201d522f2a43e9f736a9a/) |
| Données de sorties | Minio |
| Channel Tchap d'information | ~annuaire-entreprises-tech |
11 changes: 11 additions & 0 deletions workflows/data_pipelines/egapro/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
# Documentation

## data_processing_egapro

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer l'index égalité professionnelle F/H des entreprises de plus de 250 salariés. |
| Fréquence | Quotidienne |
| Données sources | [Index Egalité Professionnelle F/H](https://www.data.gouv.fr/fr/datasets/61a73dcfe3171089843587bf/) |
| Données de sorties | Minio |
11 changes: 11 additions & 0 deletions workflows/data_pipelines/ess_france/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
# Documentation

## data_processing_ess_france

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer la liste des entreprises de l'Économie Sociale et Solidaire (ESS). |
| Fréquence | Quotidienne |
| Données sources | [Liste des entreprises de l'ESS](https://www.data.gouv.fr/fr/datasets/646c8d45de96cc3428092c6b/) |
| Données de sorties | Minio |
11 changes: 11 additions & 0 deletions workflows/data_pipelines/finess/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
# Documentation

## data_processing_finess

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer les établissements du domaine sanitaire et social. |
| Fréquence | Quotidienne |
| Données sources | [Extraction Finess des Etablissements](https://data.gouv.fr/fr/datasets/53699569a3a729239d2046eb) |
| Données de sorties | Minio |
11 changes: 11 additions & 0 deletions workflows/data_pipelines/formation/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
# Documentation

## data_processing_organisme_formation

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer la liste des organismes déclarés auprès des prefectures. |
| Fréquence | Quotidienne |
| Données sources | [Liste publique des Organismes de Formation](https://dgefp.opendatasoft.com/explore/dataset/liste-publique-des-of-v2/information/) |
| Données de sorties | Minio |
5 changes: 2 additions & 3 deletions workflows/data_pipelines/marche_inclusion/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,9 +4,8 @@

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupèrer le type de Structure d'Insertion par l'Activité Economique (SIAE) de chaque établissement : EI, ACI, ETTI, AI, etc. |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer le type de Structure d'Insertion par l'Activité Economique (SIAE) de chaque établissement : EI, ACI, ETTI, AI, etc. |
| Fréquence | Quotidienne |
| Données sources | [API Le marché de l'inclusion](https://lemarche.inclusion.beta.gouv.fr/) |
| Données de sorties | Minio |
| Channel Tchap d'information | ~annuaire-entreprises-tech |
11 changes: 11 additions & 0 deletions workflows/data_pipelines/rge/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
# Documentation

## data_processing_rge

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer la liste des entreprises RGE depuis l'API de l'ADEME. |
| Fréquence | Quotidienne |
| Données sources | [API de l'ADEME](https://data.ademe.fr/datasets/liste-des-entreprises-rge-2) |
| Données de sorties | Minio |
6 changes: 3 additions & 3 deletions workflows/data_pipelines/rne/flux/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,8 +4,8 @@

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | DAG Airflow permettant de récupérer le flux quotidien des données RNE depuis l'API. Le DAG récupère les données des SIREN modifiés depuis la dernière date de modification enregistrée dans les fichiers JSON stockés sur MinIO et jusqu'à la journée précédant l'exécution du DAG. Une fois récupérées, ces données sont sauvegardées sur une instance Minio. Ces fichiers sont par la suite utilisés pour générer le fichier flux dirigeants pour [l'annuaire des entreprises](https://annuaire-entreprises.data.gouv.fr). | Quotidien |
| Fichier source | `dag.py` |
| Description | DAG Airflow permettant de récupérer le flux quotidien des données RNE depuis l'API. Le DAG récupère les données des SIREN modifiés depuis la dernière date de modification enregistrée dans les fichiers JSON stockés sur MinIO et jusqu'à la journée précédant l'exécution du DAG. Une fois récupérées, ces données sont sauvegardées sur une instance Minio. Ces fichiers sont par la suite utilisés pour générer le fichier flux dirigeants pour [l'annuaire des entreprises](https://annuaire-entreprises.data.gouv.fr). |
| Fréquence | Quotidienne |
| Données sources | API RNE INPI |
| Données de sorties | Fichiers json dans Minio |
| Channel Tchap d'information | ~annuaire-entreprises-monitoring |
6 changes: 3 additions & 3 deletions workflows/data_pipelines/rne/stock/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,8 +4,8 @@

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | DAG Airflow permettant de récupérer les données stock du RNE (INPI). Le DAG récupère le fichier zip depuis le site de l'INPI, parcours les fichiers json, et les sauvegarde sur une instance Minio. Ces fichiers sont par la suite utilisés pour générer le fichier stock dirigeants pour [l'annuaire des entreprises](https://annuaire-entreprises.data.gouv.fr). | Annuel |
| Fichier source | `dag.py` |
| Description | DAG Airflow permettant de récupérer les données stock du RNE (INPI). Le DAG récupère le fichier zip depuis le site de l'INPI, parcours les fichiers json, et les sauvegarde sur une instance Minio. Ces fichiers sont par la suite utilisés pour générer le fichier stock dirigeants pour [l'annuaire des entreprises](https://annuaire-entreprises.data.gouv.fr). |
| Fréquence | Annuel |
| Données sources | STOCK RNE INPI |
| Données de sorties | Fichiers json dans Minio |
| Channel Tchap d'information | ~annuaire-entreprises-monitoring |
Loading

0 comments on commit 3ba1a92

Please sign in to comment.