Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Validateur NeTEx : polling des résultats #4326

Merged
merged 11 commits into from
Dec 11, 2024

Conversation

ptitfred
Copy link
Contributor

@ptitfred ptitfred commented Nov 21, 2024

Description

Cela permet de ne plus bloquer la queue de validation (que ce soit les ressources historisées ou on demand).

La première implémentation faisait le polling en Elixir, rendant un job bloquant le temps que la validation termine (ou timeout). Ceci créait de la congestion dans les queues de validation historisées ou on demand (surtout problématique pour l'historisé).

La nouvelle implémentation délégue le polling à 2 jobs

  • 1 pour la validation historisée
  • 1 pour la validation on demand

Checklist

  • code non bloquant via des jobs
  • adaptation de /backoffice/jobs pour afficher les jobs en attente
  • tests unitaires
  • tests manuels de OnDemand
  • tests manuels de validation d'une ressource historisée
  • tests manuels de validation concurrente de beaucoup de ressources historisées

Script de test manuel concurrent :

require Logger

Logger.info("Starting...")

import Ecto.Query

defmodule Script do
  # for each active dataset, grab all resources with a resource history.
  def query() do
    DB.Dataset.base_query()
    |> DB.Resource.join_dataset_with_resource()
    |> DB.ResourceHistory.join_resource_with_latest_resource_history()
    |> where([resource: r], r.format == "NeTEx")
    |> select([resource_history: rh], rh)
  end

  def validate_resource_history(resource_history_id) do
    %{
      "force_validation" => true,
      "validator" => Atom.to_string(Transport.Validators.NeTEx),
      "resource_history_id" => resource_history_id
    }
    |> Transport.Jobs.ResourceHistoryValidationJob.new()
  end
end

Script.query()
|> DB.Repo.all()
|> Enum.take(20)
|> Enum.map(&(&1.id |> Script.validate_resource_history()))
|> Oban.insert_all()
|> Logger.info()

Voir #4153

@ptitfred ptitfred requested a review from a team as a code owner November 21, 2024 17:06
@ptitfred ptitfred marked this pull request as draft November 21, 2024 17:06
@ptitfred ptitfred mentioned this pull request Nov 25, 2024
23 tasks
@thbar thbar added the NeTEx label Nov 26, 2024
@ptitfred ptitfred force-pushed the netex-validation/polling-of-results branch 10 times, most recently from 3f6cf5c to f4e5d51 Compare November 27, 2024 10:23
@ptitfred ptitfred force-pushed the netex-validation/polling-of-results branch 2 times, most recently from 7ca429f to 53bf8f4 Compare November 27, 2024 12:13
@ptitfred ptitfred marked this pull request as ready for review November 27, 2024 12:14
@ptitfred ptitfred force-pushed the netex-validation/polling-of-results branch from 53bf8f4 to 8bb70c9 Compare November 28, 2024 10:26
@AntoineAugusti AntoineAugusti self-assigned this Nov 28, 2024
end

def snooze_poller(attempt) do
{:snooze, NeTEx.poll_interval(attempt)}
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

En lisant https://hexdocs.pm/oban/Oban.Worker.html#module-snoozing-jobs j'ai l'impression que max_attempts va être incrémenté et ne sera pas respecté.

C'est ce qu'on souhaite ?

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Damned, bien vu.

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Pour l'instant ma conclusion c'est que je peux pas proprement tester ce comportement...

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

J'ai testé manuellement le comportement. Les helpers d'Oban n'émulent pas le snoozing.


@no_error "NoError"

@max_retries 100
# 180 * 20 seconds = 1 hour
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

C'est suffisant pour de gros fichiers ? On peut suivre le nombre de timeout en dehors de oban_jobs qui a une rétention de seulement 24h ?

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Le commentaire indique 1h de timeout global, c'est en réalité quelques secondes de moins, mais l'ordre de grandeur est bien celui-là.

C'est suffisant pour de gros fichiers ?

Je pense qu'1h est généreux et qu'on ne devrait pas avoir de cas pathologique qui prennent autant de temps. Cependant j'imagine qu'il pourrait y avoir de la contention sur leur plateforme si on envoie toutes les ressources en même temps.

On peut suivre le nombre de timeout en dehors de oban_jobs qui a une rétention de seulement 24h ?

Je ne sais pas comment te répondre. Je ne suis pas sûr que la rétention de 24h soit rédhibitoire si l'on timeout bien au bout d'1h.

case validation_results do
{:ok, %{url: result_url, elapsed_seconds: elapsed_seconds, retries: retries}} ->
# result_url in metadata?
Logger.info("Result URL: #{result_url}")
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

A-t-on besoin de voir ces logs en prod ? Sinon passer au niveau debug ?

Comment on lines +144 to +145
assert nil == load_multi_validation(resource_history.id)
end) =~ "Timeout while fetching results on enRoute Chouette Valid (resource_history_id: #{resource_history.id})"
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Je pense avoir la réponse à ma question précédente.

Le seul moyen de suivre les timeouts serait de regarder les logs d'erreurs en prod, on n'a pas de stockage de ceci en BDD.

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

En effet. Je n'ai pas de bonne réponse à te faire sur ce point.

Companion module to the validator for NeTEx files, used to handle long
standing validations.
"""
use Oban.Worker, tags: ["validation"], max_attempts: 180, queue: :resource_validation
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Faudrait-il ajouter du unique pour éviter plusieurs exécutions pour une même validation/resource history ?

C'est possible d'avoir ce job ajouté plusieurs fois ?

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Je vais étudier ça.

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

J'ai ajouté un unique: [fields: [:worker, :args]]

Copy link
Member

@AntoineAugusti AntoineAugusti left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ça me semble bien, merci pour la prise en compte de mes commentaires 🙏

Comme discuté en DM, OK pour merger avant les vacances, en début de journée de travail en vérifiant les performances et rollback en cas de problème d'exploitation.

Pour le suivi des timeouts/temps d'exécution, peut-être utiliser des compteurs AppSignal ? #4137

@ptitfred ptitfred added this pull request to the merge queue Dec 11, 2024
Merged via the queue into master with commit 8a397a2 Dec 11, 2024
4 checks passed
@ptitfred ptitfred deleted the netex-validation/polling-of-results branch December 11, 2024 10:13
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants