マルチモーダルと外部知識導入による極みについて。（「IISIA技術ブログ」Vol. 19）

2024.06.16

今年（2024年）も6月になって世上、色々と騒がしくなってきている。そうした中で弊研究所も何かと所内外で為すべきこと・こなすべきことが多く、どうしてもアカデミアでの歩みが止まりがちになってしまう。しかも6・7月は客員教員を務めさせて頂いている広島大学での連続集中講義で毎週、現地入りしている。どうしてもそうした多事・他事にかまけてしまい、研究の歩みが滞りがちになる。今・このタイミングでようやく少し時間がとれたので、この「技術ブログ」をアップデートしたいと思う。

そう言いつつ、いきなりであるが告知を一つだけ。弊研究所における人工知能研究は基本的に「弱いAI」という前提で行っているものであり、具体的には人工知能（AI）とは私たち人類と「共存」し、かつ私たち人類の能力を拡張するためのものであるという前提に立っている。そしてそうした観点から行っている研究テーマの一つが「生成AIと外交（Generative AI & Diplomacy）」であるわけだが、この度来る25日17時（日本時間）より1時間にわたり、国連大学マカオ研究所（United Nations University Macau）と弊研究所が共催でこのテーマに関するウェビナーを実施することとなったので是非皆様をご招待出来ればと思う。筆者自身もパネリスト3名の中の1人かつ共催団体の代表として登壇する。「弱いAI」という基本的なスタンスに基づくと最終的には人工知能の効果的な社会実装による社会改良という方向性に辿り着くが、そうした中で世界的な議論の的となりつつあるのが「公務員とAI」というイシューである。「生成AIと外交」というテーマはその典型的なサブカテゴリ―であるわけだが、意外にもまだ研究の乏しい分野でもある。国連の正規下部機関との対等な立場での共催という形での今回のイヴェント開催が、この分野におけるグローバル規模での研究の進展に向け一助となればと切に願う次第だ。

閑話休題。

「弱いAI」と対比されるのが全知全能とでもいうべき「強いAI」が実現されるという議論である。GAI（General Artificial Intelligence, 汎用人工知能）といったコンセプトが正にこれなのであるが、そこまで行かずとも入力データをテキスト、画像、時系列データなど複数とし、これらから最終的に一つの予測（predicition）を出すといった研究はとりわけグラフニューラルネットワークを用いて盛んに進められているのが現状である。そうした中で今回は[Ouyang et al. 24]の研究成果にフォーカスしながらその概略を考察してみたいと思う。この論文の概要には次の様に記されている。

Financial prediction from Monetary Policy Conference (MPC) calls is a new yest challenging task, which targets at predicting the price movement and volatility for specific financial assets by analyzing multimodal information including text, video, and audio. Although the exoisting work has achieved great success using cross-modal transformer blocks, it overlooks the potential external financial knowledge, the varyiung contributions of different modalities to financial prediction, as well as the innate relations among different financial assets. To tackle these limitations, we propose a novel Modal-Adaptive kNowledge-enhAnced Graph-basEd financial pRediction scheme, named MANAGER. Specifically, MANAGER resorts to FinDKG to obtain the external related knowledge for the input text. Meanwhile, MANAGER adopts BEIT-3 and Hidden-unit BERT (HuBERT) to extract the video and audio features, repectively. Thereafter, MANAGER introduces a novel knowledge-enhanced cross-modal graph that fully characterizes the semantic relations among text, external knowledge, video and audio, to adaptively utilize the information in different modalities, with ChatGLM2 as the backbone. Extensive experiments on a publicly available dataset Monopoly verify the superiority of our model over cutting-edge methods.

非常に平たく言うと、この研究はこれまでテキスト・データからの自然言語処理（NLP）に頼りがちであった金融商品の動向予測について、動画や音声といった多様なデータを取り込むことによってさらに精緻に行おうというわけである。また外部の知識データベースへの接続も試みている。正にありとあらゆる入手可能なデータをもって（マルチモーダル）、動向予測の「極み」を狙っている。

（Source: [Ouyang et al. 24]）

ただし我が国の研究者にとってややとっつきにくくさせているのが、この研究が必ずしも我が国における人工知能研究のメインストリームになっているとは言い難いツールを多様している点である。例えばFinDKGとはFinancial Dynamic Knowledge Graphの略であり、英ロンドンのインペリアル大学に所属する研究者Xiaohui Victor Liの研究に基づくツールである。グラフニューラルネットワーク（GNN）の活用例であるわけだが、この時使われる「グラフ」とは離散数学におけるグラフを指している（この点も含め、GNNについて分かりやすい解説例としてはこちらを参照されるのが良いであろう）。

そして最終的にはChatGLM2を用いて、金融商品に関する個別のタスクにチューニングした形でマルチモーダルな入力に基づくグラフをベースにした結果を出していくわけだが（価格動向（price movement）、ヴォラティリティ（volatility）等）、問題はこのChatGLM2の大規模言語モデルが英語と中国語にほぼ特化したものであるという点にある。中国・清華大学で研究開発されているこの大規模言語モデルについてはこちらの記述が参考になるが、日本語での学習が全く足らず、対話モデルとして用いても日本語では極めておぼつかない回答しかしてこないという報告がある。したがって本研究の成果をそのままコードとして日本語ベースでも使えるというわけではなく、この大規模言語モデルによる最終的なヒューマンインターフェースのところでかなりの工夫が必要（ChatGLM2を日本語で学習させるか、あるいはそれ以外の大規模言語モデルをあえて利用するか等）になるものと考えられる。

データセットとしてMonopoly [Mathur et al. 22]を用いた結果、ベースラインとした他のモデルと比較して、価格動向とヴォラティリティの双方に関する予測のいずれについても、MANAGERは好成績であったと本論文は結論づけている。したがって、上記の様な我が国における代表的な関連研究との比較における差異、困難性にも拘わらず、同一の方向性での「日本語をベースとしたモデル」による検証は一考に値すると考える次第である。

2024年6月16日　東京・丸の内にて

株式会社原田武夫国際戦略情報研究所　代表取締役CEO/グローバルAIストラテジスト

原田　武夫記す

（参考文献）

[Mathur et al. 22] Mathur, Puneet, et al. “Monopoly: Financial prediction from monetary policy conference videos using multimodal cues.” Proceedings of the 30th ACM International Conference on Multimedia. 2022.

[Ouyang et al. 24] Ouyang, Kun, et al. “Modal-adaptive Knowledge-enhanced Graph-based Financial Prediction from Monetary Policy Conference Calls with LLM.” arXiv preprint arXiv:2403.16055 (2024).

・・・

＊弊研究所代表・原田武夫書き下ろしによる「IISIA技術ブログ.」。いかがでしたでしょうか？この話の「続き」を知りたい方、とにかく”もっと知りたい”と思われる皆様のために、「2024年夏・IISIAセミナー」を来る7月20日（土）に東京・有楽町の国際フォーラムにて開催いたします。第2部はこれまで弊研究所のセミナーにお出で下さったことの無い方々を対象とした無料セミナーです。詳細とお申込みは今すぐコチラよりどうぞ（クリックすると該当サイトにジャンプします）。

マルチモーダルと外部知識導入による極みについて。（「IISIA技術ブログ」Vol. 19）

情報の断片化から一歩抜け出す (“情報リテラシー”教育の発展とその向こう側(...

2025年の「本当の焦点」は何か？（原田武夫の”Future P...

社員インタビュー第6弾！私たちの企業文化の魅力（「IISIA採用人事ブログ」...

IISIA教育の歴史を振り返る(その１) (“情報リテラシー”教育の発展とそ...

「最終戦争」で自滅する我が国を救うには。（原田武夫の”Futur...

「マネジメントのダボス会議」に出席して (“情報リテラシー”教育の発展とその...