1. HOME
  2. ブログ
  3. 大規模言語モデル(LLM)の性能評価に関する現状と弊研究所のスタンス(「IISIA技術ブログ」Vol. 21)

大規模言語モデル(LLM)の性能評価に関する現状と弊研究所のスタンス(「IISIA技術ブログ」Vol. 21)

前回のこの「IISIA技術ブログ」の執筆が今年(2024年)7月末であったので既に2か月近く時間が開いてしまったことになる。とはいえ、弊研究所そして筆者自身の人工知能研究は着実に進んでいる。現状、これから来春(2025年春)までに行われる予定のAI関連の学会発表3つを含むゴールに向けての研究活動を筆者は進めているわけであるが、徐々にそれに関連した事項について、この場を借りてコラム形式で書いていければと考えている。今回はその流れの中で大規模言語モデル(LLM)の性能評価について取り上げてみたいと思う。主に参考にするのは[山田 et al., 24]である。

現状、とりわけ我が国における大規模言語モデル(LLM)に関する研究は次の2つの方向で行われてきている。第1に、商用利用を前提としたChatGPTやGeminiとは別に、オープンなアーキテクチュアを発展させる形で、かつ特に日本語に特化した形での高性能LLMを創り上げるという方向性である。国立情報学研究所における研究などがその典型であるが、残念ながら商用LLMのレヴェルを超える性能にまで達しているのかというとそうはなっていないのが現状だ。これらの研究開発によって達成したレヴェルはOpen AI社でいうとGPT3.5-turboのレヴェルであると考えられている。したがった過度な期待はまだ禁物ということになる。

ただそれ以上に気になるのが、こうした日本勢から「追いかけられる側」にいるはずの商用LLMの作り手である米系スタートアップたちによる性能改善のための努力もどうやら滞ってきているということなのだ。推量など一部の分野については改善された製品も出されていることには出されているものの、かつてChatGPTが世に送り出された時ほどのブレイクスルーが達成されているのかというと、「二の矢が無い」というのが現状なのである。したがってこれが現実のトップランナーたちをただ漫然と追いかけ、かつスコープとしては我が国以外ではなかなか用いられないであろう「日本語特化型LLM」を作ればそれで事が足りるという話にもなっていないのが現状というべきであろう。

もう1つの方向性が商用LLMを前提としつつも、より実務に即した形での性能改善を、特に質問文と生成文における一致(何が「一致」するのかは論じる必要があるが)についてどこまで突き詰めていけるのかを究めるものである。さらにこの方向性は2つに分かれており、LLMそのものに追加的な学習を加えるという手法であるファイン・チューニング(fine tuning)及び指示チューニング(instruction tuning)がまず第1の方向性であり、残りの方向性は外部知識をデータベースとして検索対象に置き、そこから類似度分析を通じて質問文から生成文を導き出すという検索拡張生成(Retrieval Augumented Generation, RAG)と呼ばれている。これらの中で現状、人工知能学会などにおける我が国での研究動向を見る限り、いかにも「理系的な作業」になりがちな前者はまだ大いに取り組まれているが、後者については「やり尽くされた感」が拭えないかの様な状況であるというのが卑見である。こうした流れになっている背景としては、データの構造化(メタデータの活用など)とLangChainを通じた適切なパイプラインの構築がある程度、整ってきたことと、それよりも何よりも、データベースに入れるべき社会的にも有意なデータが、(実態問題として)「理系オンリー」の人脈・文脈では取りづらくなってきたという事実があることも忘れられない。

こうした現状の中で弊研究所としては、ファイン・チューニングや指示チューニングはコストがかかりすぎ、むしろ簡便な検索拡張生成を突き詰めるべしと考えている。後者を巡っての障壁は社会的に有意なデータがどこにあるのか、またそれが果たしてアクセス出来るのかにあるという点は先ほど触れたばかりであるが、だからこそAiについても「エンジニア」ではなく、社会実装を進めるための(WEBでいうならばSEに相当する)「AIプランナー」こそが必要なであって、「社会科学・人文科学」の見地からこれら「有意なデータ」を見つけ出し、社会実装に供していくということを「AIエンジニア」と組みになって推し進めるべきなのである。事実、弊研究所のここに来ての研究開発に際してもこの方向性で作業を進めてきている。

しかし、ここまで述べて、次の重大な課題があることに気づくのである。それはこの様にして「社会的に有意な言語データ」をコーパスとし、データベースに格納してから検索拡張生成システムを構築するとして、そこでの性能評価をどの様にして行うかという点なのだ。いわゆる性能評価、metricsの問題である。この点に関連して[山田 et al., 24]は、LLMを巡るモデルの性能評価方法には次の3つがあると述べている。

―人手評価:人間の判断でモデルが生成したテキストを評価する方法

―評価指標を用いた評価:タスクに応じた評価指標に基づき、モデルが生成したテキストを自動で評価する方法

―LLMを用いた自動評価:LLmを評価者として、モデルがしえ製したテキストを自動で評価する方法

そして[山田 et al., 24]はこれら3つが存在するものの、最終的にはどの手法が絶対的に良いのかについて確立された判断は下されていないと述べている。なぜそうなのかといえば、何といっても言語は最後の最後、ヒトが実際に読んでみてどの様に理解出来るのか、あるいはいかなる印象を抱くのかがカギを握るのである。テキストについての話をするとなかなか分かりにくいかもしれないので、例えば次に掲げる「新曲」(like-the-third-movement-of-piano-concert-of–robert-schuman-very-impressive-motive-resolut-piano-with-full-orchestra-moderate-velocity-very-melodious-_100624)をお聞きいただければと思う。どの様な印象を抱かれたであろうか?

リンク先にあるこの「新曲」は拡散モデル(stable diffusion)を商用利用に供したStable Audioで筆者自身が作成したものである。早速、弊研究所の「X」アカウント上で聴いた上での印象を読者の方々に尋ねたが、約4分の1の方々が「何か違和感を感じる」との回答をお寄せ頂いた。聞いた感じでは現代音楽であり、細部にわたってチェックすれば確かに「確率論としてこの音から次の音に飛ぶことはある」といった感じで音が連ねられているわけであるが、何ともこう、違和感を覚えるのである。そう、これと同じことが大規模言語モデル(LLM)の性能評価を巡ってはどうしても付きまとうことを指摘しておかなければならない。

RAG とは何ですか? - 検索拡張生成 AI の説明 - AWS

すなわち、こうである。検索拡張生成システム(RAG)を用い、かつそこに実装するコーパスが確かに社会的な有意性を持つにしても、専門領域に特化した文書である場合、そこでの評価を窮極において下すことが出来るのは、当該文書を用いて「手作業で」仕事をしたことのある専門家だけである。それ以外の「部外者」の皆さんは当該文書を見ても何のことだか分からず、かつそれに関するチャットボット経由での回答文の生成に際しても、単なる事実関係のチェックや文法チェックを超え、果たして「意味のある回答」になっているのかは、やはり専門家である(あるいは専門家であった)人物しか下せないのである。しかしだからといって評価指標を用いた機械的な評価となると、どうしても融通が利かなくなってしまう。そこでタスクごとに評価指標をつくるとなるとそれこそ無尽蔵に評価指標を作らざるを得なくなり、人手であればある程度任せられる評価のため膨大な作業をあらかじめ行わなければならなくなってしまう。かといって人手評価が最適かというと、こうした人間である評価者特有の「融通」もさすがに膨大な質問・回答群を前にしては限界があるのであって、やはり自動化の契機が高まって来るというわけなのだ。またさらに言うならば、なぜ「性能評価」をするのかというと、最終的には生成文(回答)について改善を施したいからなのだ。そうである以上、こうした「改善」のための作業まで性能評価に巻き込んでしまえば一石二鳥ということになってくる。

よって最終的な解は、人手評価がどうしても排除出来ないにせよ、一定の指標を概念上設けつつ、LLM自身に生成文(回答)の評価をさせ、かつ改善をさせるのが一番ではないかというのが弊研究所の基本的な見解なのである。評価のための概念上の指標としては回答の「有用性」「関連性」「正確性」「深さ」「創造性」「詳細レヴェル」などが一方ではあり得、それぞれについてレーティングを10段階評価でつけさせると共に、改善提案をさせるという手あるであろう。具体的には生成文が出たらば、それに対する評価を行う様にプロンプトエンジニアリングで作り込めば良い。また検索拡張生成(RAG)特有のこうした概念上の指標をということであれば、ここでのプロンプトにおいてContext Relevance(文脈の関連性)、Answer Faithfulness(回答の忠実性)、Answer Relevance(回答の関連性)、さらにはNoise Robustness(ノイズへの頑健性)、Negative Rejection(回答不可能な質問の却下)、Informatoin Integration(情報の総合)、Counterfactual Robustness(反事実の頑健性)といった概念を用い、同様の作業をLLM自身に行わせ、改善提案を行わさせれば良いであろう。

こうした大規模言語モデル(LLM)による生成文(回答)に対する性能評価と、その改善提案は人手評価とLLMによる性能評価のいわば「二人三脚」の作業である。その限りにおいても、弊研究所がかねてより述べているとおり、「人工知能はあくまでも人間にとって拡張現実を創り出し、それをもって人間が望む世界を創り出すためのツールに過ぎない」とする”弱いAI”の実現という考え方の範疇にこのことは入って来るというのが現段階における卑見である。

2024年10月6日 東京・丸の内にて

株式会社原田武夫国際戦略情報研究所 ファウンダー/代表取締役CEO/グローバルAIストラテジスト

原田 武夫記す

(参考文献)

[山田 et al., 24] 山田育矢, 鈴木正敏,西川荘介,藤井一喜,山田康輔,李凌寒, “大規模言語モデル入門II 生成型LLMの実装と評価”, 技術評論社,2024

・・・

今回のコラム、いかがでしたでしょうか?

来る10月12日(土)に「2024年秋・IISIAセミナー」を開催致します。「この話の次」を聞きたいという方、是非ご参集下さい。お申込みはこちら(この文章をクリック下さい)から今すぐどうぞ!