-
Notifications
You must be signed in to change notification settings - Fork 31
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Validateur NeTEx : polling des résultats #4326
Conversation
3f6cf5c
to
f4e5d51
Compare
7ca429f
to
53bf8f4
Compare
53bf8f4
to
8bb70c9
Compare
end | ||
|
||
def snooze_poller(attempt) do | ||
{:snooze, NeTEx.poll_interval(attempt)} |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
En lisant https://hexdocs.pm/oban/Oban.Worker.html#module-snoozing-jobs j'ai l'impression que max_attempts
va être incrémenté et ne sera pas respecté.
C'est ce qu'on souhaite ?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Damned, bien vu.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Pour l'instant ma conclusion c'est que je peux pas proprement tester ce comportement...
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
J'ai testé manuellement le comportement. Les helpers d'Oban n'émulent pas le snoozing.
|
||
@no_error "NoError" | ||
|
||
@max_retries 100 | ||
# 180 * 20 seconds = 1 hour |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
C'est suffisant pour de gros fichiers ? On peut suivre le nombre de timeout en dehors de oban_jobs
qui a une rétention de seulement 24h ?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Le commentaire indique 1h de timeout global, c'est en réalité quelques secondes de moins, mais l'ordre de grandeur est bien celui-là.
C'est suffisant pour de gros fichiers ?
Je pense qu'1h est généreux et qu'on ne devrait pas avoir de cas pathologique qui prennent autant de temps. Cependant j'imagine qu'il pourrait y avoir de la contention sur leur plateforme si on envoie toutes les ressources en même temps.
On peut suivre le nombre de timeout en dehors de oban_jobs qui a une rétention de seulement 24h ?
Je ne sais pas comment te répondre. Je ne suis pas sûr que la rétention de 24h soit rédhibitoire si l'on timeout bien au bout d'1h.
case validation_results do | ||
{:ok, %{url: result_url, elapsed_seconds: elapsed_seconds, retries: retries}} -> | ||
# result_url in metadata? | ||
Logger.info("Result URL: #{result_url}") |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
A-t-on besoin de voir ces logs en prod ? Sinon passer au niveau debug ?
assert nil == load_multi_validation(resource_history.id) | ||
end) =~ "Timeout while fetching results on enRoute Chouette Valid (resource_history_id: #{resource_history.id})" |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Je pense avoir la réponse à ma question précédente.
Le seul moyen de suivre les timeouts serait de regarder les logs d'erreurs en prod, on n'a pas de stockage de ceci en BDD.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
En effet. Je n'ai pas de bonne réponse à te faire sur ce point.
Companion module to the validator for NeTEx files, used to handle long | ||
standing validations. | ||
""" | ||
use Oban.Worker, tags: ["validation"], max_attempts: 180, queue: :resource_validation |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Faudrait-il ajouter du unique
pour éviter plusieurs exécutions pour une même validation/resource history ?
C'est possible d'avoir ce job ajouté plusieurs fois ?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Je vais étudier ça.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
J'ai ajouté un unique: [fields: [:worker, :args]]
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Ça me semble bien, merci pour la prise en compte de mes commentaires 🙏
Comme discuté en DM, OK pour merger avant les vacances, en début de journée de travail en vérifiant les performances et rollback en cas de problème d'exploitation.
Pour le suivi des timeouts/temps d'exécution, peut-être utiliser des compteurs AppSignal ? #4137
Description
Cela permet de ne plus bloquer la queue de validation (que ce soit les ressources historisées ou on demand).
La première implémentation faisait le polling en Elixir, rendant un job bloquant le temps que la validation termine (ou timeout). Ceci créait de la congestion dans les queues de validation historisées ou on demand (surtout problématique pour l'historisé).
La nouvelle implémentation délégue le polling à 2 jobs
Checklist
/backoffice/jobs
pour afficher les jobs en attenteScript de test manuel concurrent :
Voir #4153