Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

異常停止したWorkflowの自動reloadの改善 #302

Closed
2 tasks
itutu-tienday opened this issue Feb 22, 2024 · 5 comments · Fixed by #538
Closed
2 tasks

異常停止したWorkflowの自動reloadの改善 #302

itutu-tienday opened this issue Feb 22, 2024 · 5 comments · Fixed by #538
Assignees
Labels

Comments

@itutu-tienday
Copy link
Collaborator

itutu-tienday commented Feb 22, 2024

事象

  • システムエラーなどにより異常停止したWorkflowについて、FEからのWorkflow状態監視が、無限に終了しない状況がある。
  • ここで異常Workflowが最新Recordである場合、Workflow画面初期表示時の自動リロードにより、異常Workflowが初期表示されるが、画面から何も操作できない状態が生じる。(状態監視が終了しない&RUN中のため画面操作ができない)

対策

  • 異常停止したWorkflowに対する状態監視は、BE側から、適切な応答(異常停止ステータス)を返すようにする。

Tasks

  • 1. 事象の発生パターンの検証、仕様整理
  • 2. 対応方法の設計、実装
@ReiHashimoto
Copy link

ReiHashimoto commented Apr 12, 2024

ノードの実行結果はexperiment.yamlに書き込まれるが、この書き込みがrun/resultのAPIで結果を問い合わせた時に初めて更新されるという設計が問題。

可能であればsnakemakeでのwrapper関数実行の部分でtry構文でexception時にerrorステータスを確実に書き込むような処理にすると良いと思われれる。

@itutu-tienday
Copy link
Collaborator Author

可能であればsnakemakeでのwrapper関数実行の部分でtry構文でexception時にerrorステータスを確実に書き込むような処理にすると良いと思われれる。

  • 現在の snakemake の実行コードについて、snakemake の処理状況を明確に管理できていない様にも見られる
  • 他の箇所で、snakemake() のreturn valueを検査している箇所もある

@tsuchiyama-araya
Copy link
Collaborator

予想は5日間の作業だと思いましたが、テストケースをする前に、コードをお追いかけてきたため、
行き戻りがたくさん発生して、遅れました。

事象の発生パターンの検証、仕様整理をしてきましたので、下記のスプレッドシートを共有します。
https://docs.google.com/spreadsheets/d/1YLo1Ak-IRWD2ht3Mh3iV0ZfrnddlYFr2A342EWHcSNw/edit?gid=0#gid=0

対応方法の提案も作成しましたので、チームに相談して、実装していきたいと思います。

@tsuchiyama-araya
Copy link
Collaborator

現状の問題を把握するため、調査を実施しました。無限ループの原因はステータス遷移の問題にあると考えられます。
実装に使用可能な参考資料は、以下のドライブに保存していますのでご確認ください。

https://drive.google.com/drive/folders/1zDhbbo9HMnnT6sbY4Cla37qO5bJAG3_J

@itutu-tienday
Copy link
Collaborator Author

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

Successfully merging a pull request may close this issue.

3 participants