Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[MONITORING][FEATURE] Implémenter un système de suivi des statistiques #438

Open
hacherix opened this issue Dec 6, 2024 · 1 comment
Assignees
Labels
enhancement New feature or request monitoring

Comments

@hacherix
Copy link
Contributor

hacherix commented Dec 6, 2024

En coopération avec les devops, réfléchir à un système de monitoring des mesures générées par les différents DAGs.

Exemple: le DAG Spectacle enverrait le nombre de SIREN traités à chaque exécution. Le système de monitoring nous permettrait de suivre l'évolution de cette mesure, voire de créer des alertes.

Idées:
Kibana
Metabase
Dash

@hacherix hacherix added enhancement New feature or request monitoring labels Dec 6, 2024
@hacherix
Copy link
Contributor Author

hacherix commented Jan 16, 2025

Après discussion avec @MKCG l'idée serait la suivante:

  • Monter les logs Airflow sur Filebeat
  • Structurer les logs qu’on écrit sur Airflow d’une manière où Filebeat peut les parser facilement, et de manière suffisamment générique pour qu’on puisse tracker tout ce qu’on veut. Example:
    • [2025-01-15, 17:59:47 CET] {data_processor.py:96} INFO - ::KIBANA-STATS:: KEY:SIREN VALUE:52395
    • [2025-01-15, 17:59:47 CET] {data_processor.py:96} INFO - ::KIBANA-STATS:: KEY:SIRET VALUE:453
    • ..
  • Parser les logs suivant les patterns définies
  • Isoler sur un nouvel index Elasticsearch les logs parsés Airflow qui nous intéressent pour les faire persister dans le temps
  • Créer les viz Kibana
  • Enjoy
  • Pros :
    • Avoir un historique
    • Viz
    • Alerting automatique
    • Réduire le volume d’infos des notifications Tchap
    • Facilité d’implémentation

@MKCG a déjà commencé un POC côté infra:

Côté équipe Data Engineering il nous reste à:

  • Déterminer ce que l'on veut tracker
  • Déterminer la structure des logs et les patterns adéquates
  • Lister les fichiers logs à exclure pour optimiser l'indexation

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request monitoring
Projects
None yet
Development

No branches or pull requests

2 participants