meta-something

論文とか研究とか趣味のネタとか

ISC2017のメモ

個人的なまとめ

  • 小電力効率GREEN500で東工大TSUBAME3.0が首位にランクイン
  • LINPACK性能TOP500首位は相変わらず中国Sunway Taihulight
    • 3位にスイスCSCSのPiz Daint
  • バイオインフォ関係のセッションが結構多い(初日Keynote, Session, Workshop, …)
  • LinuxContainer関連ワークショップあり(後述)

ISC2017とは

http://isc-hpc.com/id-2017.html

スーパーコンピューティングの国際会議。ISCはInternational Supercomputing Conferenceの略。規模的には北米で開催されるSCに次いで大きい。ドイツの会社が主催しているらしい。今回は(も?)ドイツのフランクフルトで開催された。

初日のKeynoteが生体ネットワークの数理グラフ的解析とゲノム・プロテオームへの応用事例とHPC基盤のお話だったり、High Performance Computing in Life Sciencesというライフサイエンスそのままなセッションがあったり、結構バイオインフォ関係のセッション多め。内容的には解析手法の紹介とかスクリーニングの紹介、ライフサイエンス業界のツールのプログラム品質問題とか。あとはクラウド利用のユースケース紹介が多くてわりと学びがあったのと、HPC領域でも結構クラウド利用が普及している実感が得られた。

Linux Container to optimise IT Infrastructure and High-Performance Workloads

一番興味があったのが最終日のLinux Container関連のワークショップ。スライド,Youtubeビデオが公開されているのであとから見直すのも楽ですごくいい。

qnib.org

HPC基盤上のコンテナ仮想化実現のためのOSS:Singularityの紹介、SingularityのKubernetes拡張の話、Dockerの動向、ゲノム解析センターのDockerによるワークフローオーケストレーション、などなど。

特にゲノム解析センターの話は、以前に自分のスライドの中で概要を引用した話だったので興味があった。

peerj.com

www.univa.com

ゲノム解析パイプラインのライブラリ管理は難しく、パイプラインを構成するツール毎のライブラリ依存性が複雑怪奇で、しかもそのバージョンに依存して出力結果に差異が発生するので、再現性を確保するために容易にバージョンを更新できない。バージョンを固定したいが、ずっと上げないわけにもいかない。 このレポートのシステムでは、Univa Grid Engineの提供するDocker機能とワークフロー管理Next Flowを使い、ジョブ投入スクリプト「使用したいツール(コンテナ)」「使用したいバージョン(タグ)」を指定してジョブを投げると、以下の感じに処理してくれる。

  1. ワークフロー管理ソフトが全体の進行管理
  2. ジョブスケジューラが計算資源を確保
  3. 確保されたノード上に指定されたコンテナが稼働
  4. スクリプト処理を実行、次のタスクへ

各バージョンはコンテナ毎にファイルシステムの差分で管理されているので省容量で楽、競合するライブラリの管理もしないでよい。

ただ、他のセッションでもMPI通信をガリガリ実行するHPCアプリのコンテナ運用話は扱われているのを見たことがない(ベンチマークはちらほらあるけど)ので、うーん。