読者です 読者をやめる 読者になる 読者になる

meta-something

論文とか研究とか趣味のネタとか

論文紹介「Reproducibility of computational workflows is automated using continuous analysis」

タイトル

Reproducibility of computational workflows is automated using continuous analysis

著者

Brett K Beaulieu-Jones, Casey S Greene

  • Perelman School of Medicine, University of Pennsylvania

掲載情報

Nature Biotechnology, vol.35, No.4, pp.342-346, 2017.

  • Nature関連誌、生命工学分野ではトップジャーナル
  • 2-year IF=43.113 (2016)
    • 参考:Nature, IF=38.138 (2016)

www.nature.com

キーワード

Bioinformatics, Continuous Integration, Docker, Reproducibility

概要

計算機上で実施される研究成果(特に計算科学の応用分野)の再現性の問題解決のために、ソフトウェア開発の手法である継続的インテグレーション(Continuous Integration)を導入する論文。 既に公開済みの論文でも、計算結果の再現に必要なデータセットやソフトウェアの情報をすべて記載しているものは少なく、環境依存により同じ結果が得られない場合もある。 著者らは、バージョンの差異やソフトウェア情報を明記は必須であるほか、コンテナ型仮想化技術などを利用した(データやソフトウェアを含む)実行可能な環境で成果を公開することで再現性が担保されると主張している。 さらにGit等のバージョン管理システムと連携した継続的インテグレーション(CI)サービスを導入し、ツールやデータの変更をトリガーに自動的にクラウド上でテスト実行を実施して再現性を担保し続けることで(ソフトウェア開発者と同じように)研究者は研究作業に集中できる。 同時に、検証が容易で再現可能な形式の普及は科学の健全性を押し上げることに繋がり、短期的にも論文のレビュワーや読者が論文を検証する場合に極めて役立つ。

なお、この論文のCI利用例などは以下のリポジトリで公開されている。

github.com

紹介スライド

SlideShare, SpeakerDeckともにスライド内容は同じです。

SlideShare

www.slideshare.net

SpeakerDeck

speakerdeck.com

感想

ソフトウェア開発者兼研究者として、研究成果を再現可能な形で公開して、可用性と健全性を同時に保つことは自然な流れだと思っている。 そのためにはGitHubによるコードの公開、DockerHubによる環境導入の障壁の撤廃が必要であるし、その次に継続的インテグレーションが来るのは極めて自然。 もちろん、こうした流れに乗るのはタダでできるわけではなく、準備なり作業なり必要ではある。が、情報工学では大企業の影響で開発と研究の境目は曖昧になりつつあり、開発者兼研究者として自らの活動を広める上でソフトウェア開発のエコシステムを積極的に取り入れるのは、自らの商業・研究の両方の市場価値を高めるアプローチになる、と思う。(このブログもその活動の一環であるし)