最高のバイオサイエンス ソフトウェア ツールをお探しですか? このデータベースをチェック

科学的ソフトウェア ツールの使用は、多くの場合、研究記事では言及されていません。クレジット: BalanceFormCreative/Shutterstock

ソフトウェアは、現代の科学研究の重要な要素です。 しかし、多くの場合、ソフトウェアは正式に公開されておらず、文献にも引用されていないため、研究者や開発者、およびそれらに資金を提供する組織がその影響を定量化することが困難になっています。 新しくリリースされたデータ セットは、そのギャップを埋めることを目的としています。

Chan Zuckerberg Initiative (CZI) によって開発された、Chan Zuckerberg Initiative (CZI) は、カリフォルニア州レッドウッドシティに本拠を置く科学的資金提供者であり、CZ Software Mentions データセットは、正式な引用をカタログ化するのではなく、科学記事のテキストでソフトウェアについて言及しています。1. 昨年 9 月 28 日に発表された 2,000 万件近くの全文研究記事から 6,700 万件の言及があったこのデータ セットは、科学ソフトウェアに関する言及の過去最大のデータベースであると、CZI の科学プログラム オフィサーである Dario Taraborelli 氏は述べています。

「生物医学だけでなく、過去 10 年間の科学における主要なブレークスルーを見ると、それらは一貫して本質的に計算によるものでした」とタラボレッリは言います。たとえば、タンパク質の折りたたみの予測や、ブラック ホールの描写です。 「そして、特に科学的なオープンソース ソフトウェアは、これらのブレークスルーの中心にありました。」

CZI は、Essential Open Source Software for Science (EOSS) プログラムを通じて、生物科学分野でそのようなソフトウェアを開発するプログラマーをサポートするために、3 年間で 4,000 万米ドルを約束しました。 しかし、組織は、将来の資金提供者に、彼らの資金がどこに最大の影響を与えるかを知ってもらいたいと考えています. 「言及を研究することは、ソフトウェアが影響を与える場所の地図を描くための最良の場所でした」とTaraborelli氏は言います。

影響の測定

データセットを作成するために、Taraborelli のチームは SciBERT と呼ばれる人工知能言語モデルから始めました。 これは、テキストを表示し、不足しているセクションを埋めるために研究論文でトレーニングされたニューラル ネットワークです。 研究者はさらに SciBERT をトレーニングして、テキストを処理し、単語またはフレーズが科学ソフトウェアの名前であるかどうかを判断しました。 これを行うために、彼らは SoftCite と呼ばれる約 5,000 の科学論文の既存のデータ セットを提示しました。このデータ セットでは、すべてのソフトウェアの言及が手動でラベル付けされていました。 次に、研究者は、CZI がオンライン リポジトリ PubMed Central から、および出版社から直接入手した約 2,000 万件の記事のコレクションに、洗練されたモデルを適用しました。

次に、それぞれの言及が言及している特定のソフトウェア ツールを特定しようとしました。 CZI の研究科学者である Ana-Maria Istrate は、これが最大の課題の 1 つであると述べています。 たとえば、scikit-learn と呼ばれるデータ分析用の一連のツールは、テキストでは「Scikit learn」、「sklearn」、「scikit-learn81」、または他の言い回しで表示される場合があります。 研究者は最初にクラスタリング アルゴリズムを適用して、類似性によってソフトウェアの言及をグループ化し、各クラスタが 1 つのソフトウェアを表すようにしました。 次に、各クラスターで最も一般的な用語を選び、GitHub などのオンライン ソフトウェア リポジトリで検索して、ソフトウェア名をオンラインの場所にマッピングしました。 最後に、研究者は手動でデータをクリーニングして、実際にはソフトウェアに言及していないフレーズを削除しました。

240 万の論文のサブセットに適用すると、チームは約 1,000 万の言及を検出しました。これは、97,600 の固有のソフトウェアに相当します。 人々はこれらのデータを使用して、たとえば、研究分野ごとに最も頻繁に言及されているツールを特定したり、一緒に表示されるソフトウェアのタイトルを見つけたり、最も人気のあるソフトウェアの部分を時系列で明らかにしたりすることができます (「ソフトウェアの台頭」を参照)。 これらの潜在的な用途は、GitHub の Software Mentions データ セット リポジトリに付属する計算ノートに記載されています。 「トップ近くにランクされたソフトウェアの一部が、EOSS プログラムを通じて資金を提供したツールであることに注目して興奮しています」と Istrate 氏は言います。 これらには、Seurat、GSVA、IQ-TREE、Monocle などのタイトルが含まれます。

ソフトウェアの上昇: 2017 年から 2021 年までの CZ Software Mentions データ セットで最も急成長している 5 つのツールを示すグラフ。

出典: CZI/Ref.1

ドイツのヴィスマール応用科学大学のコンピューター科学者であるフランク・クルーガーは、昨年同様のプロジェクトを完了しました。2、CZI チームは「ソフトウェアの言及をカバーする素晴らしいリソースを確立する素晴らしい仕事をした」と述べています。

オーストラリアに住み、科学ソフトウェアの開発者と資金提供者を集めた非営利組織である Research Software Alliance を率いる Michelle Barker 氏は、このデータ セットは重要な貢献であると述べています。 「私たちは、研究用ソフトウェアが現代の研究の重要な部分であることが認識されているこの素晴らしい分岐点にいます」と彼女は言いますが、研究者は「データを分析できるようにする」必要があります. ソフトウェアへの言及を文書化することは、資金を適切に振り向けるのに役立つだけではありません、と彼女は付け加えます。 また、開発者に評価を与え、組織が誰を雇って昇進させるべきかを知るのに役立ちます。

また、開発者が自分の作業がどのように使用されているかを知るのにも役立ち、研究者が公開された計算解析を実行するためにどの特定のツールが使用されたかを示し、再現性を高めます。

新しい規範が必要

CZ Software Mentions データ セットなどのツールは、開発者の作業を認識する 1 つの要素にすぎません。 研究者によると、新しい基準も必要です。 研究ソフトウェアの持続可能性への資金提供に関するアムステルダム宣言3昨年 11 月に Research Software Alliance によって作成された . (データセットについても同じ議論がなされています。)

そして11月、タラボレリ氏らは「科学的オープンソースソフトウェアに資金を提供するための10の簡単なルール」を発表しました4多様性を奨励し、ソフトウェアプロジェクトの透明なガバナンスを促進し、ツールの作成だけでなく既存のツールの保守もサポートするよう資金提供者にアドバイスしています。

皮肉なことに、ツールを使用すればするほど、論文で具体的に言及される頻度が低くなる傾向があります。 Taraborelli は、Matplotlib と NumPy の遍在性を指摘しています。これは、Python プログラミング言語で数値解析やグラフをプロットするための人気のあるライブラリです。これらの使用法は、多くの場合、言及されていません。 しかし、GitHub では、他の何百万ものソフトウェア パッケージがこれらのライブラリに依存しています。 「ソフトウェアの依存関係を引用として数えると、これらのプロジェクトのいくつかは、これまでに科学で生み出された最も影響力のある成果物になるでしょう」と彼は言います。 「それでも、数年前まで、主要な資金提供機関は、これらのプロジェクトへの資金提供を拒否し、十分な影響がないと述べていました。」

オーストラリア国立大学キャンベラ校の生物学者で IQ-TREE ソフトウェアの共同開発者である Robert Lanfear は、次のように述べています。 「追加の使用方法はいつでも歓迎します。 これらは、各ソフトウェア パッケージがどのように、どの程度使用されているかをよりよく理解するのに役立ちます。」

Leave a Comment

Your email address will not be published. Required fields are marked *