アレン AI 研究所の研究者が、人工知能システムの数学的推論能力を包括的に評価するための統合ベンチマークである Līla を提案

数学的推論は、汎用人工知能システムの基本的な要件です。 これらのタスクは、さまざまな複雑さを持つ可能性があり、食料品の買い物のように単純な場合もあれば、気候モデリングのように複雑な場合もあります。 アリゾナ州立大学とアレン AI 研究所の研究者は、この分野の AI システムを評価および強化するために、数学的推論の統一ベンチマークである Līla を提案しました。 ベンチマークは、言語の多様性 (言語がない、単純な言語)、言語形式 (質問に答える、穴埋め)、数学的能力 (算術計算)、外部知識 (常識、物理)。

Līla は、自然言語の 23 のさまざまなタスクにまたがる 140,000 の質問で構成されており、Python プログラムと他の言語の命令で注釈が付けられています。 Līla-IID (train、dev、test)、Līla-OOD (train、dev、test)、Līla-Robust など、データセットの複数の分割が含まれています。 ベンチマークは、Python プログラムでタスクの指示と解決策を収集して 20 のデータセットを拡張し、正解と説明可能な解決策の両方を得ることで構築されました。 さらに、2 つの評価データセットが追加され、言語摂動と分布外パフォーマンスの堅牢性が評価されました。 チームは、Līla でトレーニングされた汎用の数学的推論モデルである Bhaskara も導入しました。 このモデルは、HuggingFace で入手できます。 彼らのテストによると、マルチタスク モデルは、新しい算術タスクを完成させる際に、同等サイズの T5 や GPT-Neo よりも優れたパフォーマンスを発揮します。

チームはまた、実験からのいくつかの重要な発見を強調しました。 優れたアウト オブ ディストリビューション (OOD) パフォーマンスは、そのような重要な成果の 1 つです。 この研究では、マルチタスクのバスカラ モデルが、ベンチマークで提供されている分布外分割である Līla-OOD を使用したトレーニング中に遭遇しなかった新しい数学の問題タイプで、シングルタスクのピアよりも優れていることを発見しました。 Līla-Robust は、数学的内容を変更せずに言語的バリアントを含む質問を含む分割であり、数学的推論モデルの堅牢性を評価するために使用されました。 Bhskara のトレーニング教材の多様性は、言語の混乱に対する言語の全体的な堅牢性に貢献しました。

以前の研究では、トランスフォーマーベースの LLM を使用して、自然言語の数学的クエリが与えられた代数式を直接生成していました。 一方、バスカラは、実行すると正しい応答を生成する Python スクリプトを出力するように教えられました。 Lla ベンチマークには必要な注釈があるため、これは達成可能になりました。 研究者はまた、微調整と少数ショット条件の両方で、プログラム合成が直接応答を大幅に上回ることにも注目しました。 したがって、数学的推論のために解釈可能なプログラム中間体を収集して生成することの概念的および実用的な価値がさらに強調されました。

彼らはさらに、GPT-3 のような最先端の言語モデリング システムが Līla でうまく機能しない理由を調査し、そうであると結論付けています。 チームによる重要な貢献の 1 つは、数学的推論のために既存のデータセットにプログラムの注釈を追加し、正しい答えと説明可能な解決策の両方を提供することです。 チームによる研​​究記事は、権威ある EMNLP 2022 カンファレンスでも発表されます。

チームは調査を通じて、AI が汎用的な数学的思考を理解できるようになるまでにはまだ長い道のりがあるものの、このような急速な進歩と関心の高まりにより、さらに多くのことを達成できることに気付きました。 チームは、数学的推論システムの進歩を測定および促進するための貢献を切望しています。 彼らは、人々のアプローチ方法を変え、さまざまな数学的問題を解決するために、コミュニティが実行する将来の作業を予測しています。

チェックアウト データセットモデル、 と 記事参照. この研究のすべての功績は、このプロジェクトの研究者に帰属します。 また、忘れずに参加してください 私たちのRedditページ不協和音チャンネルでは、最新の AI 研究ニュース、クールな AI プロジェクトなどを共有しています。


Khushboo Gupta は MarktechPost のコンサルティングインターンです。 彼女は現在、ゴアのインド工科大学 (IIT) で B.Tech を目指しています。 彼女は、機械学習、自然言語処理、および Web 開発の分野に情熱を注いでいます。 彼女は、いくつかの課題に参加することで、技術分野についてさらに学ぶことを楽しんでいます。


Leave a Comment

Your email address will not be published. Required fields are marked *