1. HOME
  2. ブログ
  3. 時系列予測をさらに究める。自己回帰モデルによるアプローチ(「IISIA技術ブログ」Vol. 13)

時系列予測をさらに究める。自己回帰モデルによるアプローチ(「IISIA技術ブログ」Vol. 13)

相変わらず世情が騒がしい。そうした中で弊研究所に対しても全くもって的外れな指摘・批判を繰り返す御仁たちがいる。「非科学的」「非常識」なそうした声を一瞥だにする必要は全くないのであるが、それでも時に糺したくなることもある(それが人情というものだ)。そこでこのコラムの冒頭ではっきりさせておきたいと思う。

まず、弊研究所のヴィジョンはPax Japonicaの実現である。すなわち我が国が課題先進国であるが故に、そこでの社会課題を先端技術の実装によって解決していく、その様相をグローバル社会全体が模倣し、やがてその意味での「日本化」が全世界に広がっていくというのが弊研究所が追究しているイメージである。そしてそのためにミッションがある。”Giving the People Hope and Future(人々に希望と未来を与える)”というミッションだ。もっともだからといって何ら根拠のない思い込みを述べたり、はたまた陰謀論をばらまいているわけでもないのである。私たちIISIAは科学(science)の観点から一方では人工知能(AI)を用いた定量分析、他方ではグローバル社会において実際にプレイヤーとして活動する中で蓄積した知見(expertise)に基づき公開情報分析(OSINT)という形で定性分析、の双方を実施し、それぞれの成果を組み合わせ、日々アップデートすることにより、未来シナリオを構築し、皆様に披歴させて頂いている。ただし(ここからが最も重要なのであるが)そこで「答え」を教条的に指し示しているわけではないのである。この点が当方をして「情報商材の販売者」などと的外れなことを述べてやまない輩が完全に間違っている点に他ならない。なぜならば、弊研究所は以上の様な所作をもって一つの能力(capability)としてリーダーシップ、コミュニケーション論などとも結合させる形で”情報リテラシー”を定義し、自らを「”情報リテラシー”の研究・開発・教育・普及のための機関である」と定義しているからである。すなわち、ご利用になられる全てのお客様の能力としての”情報リテラシー”の育成こそが、私たちIISIAが行っていることなのであって、どこぞの投資顧問や、陰謀郎家とは全くもって質的にも、レヴェル的にも違う存在なのだ。このことをまずは(何度も述べており、恐縮ではあるが)はっきりさせておきたいと思う。

各種金融関連データについて時系列分析(time-series analysis)を行うべく、人工知能(AI)開発に励んでいるのもそのせいである。単にそうしたAIツールがはじき出すデータの結果に左右されるのではなく、利用者にはこれがあくまでも自らの”情報リテラシー”を涵養するためのツールに過ぎないとまずは理解してもらいたいのである。そしてそのためには、時系列分析そのものの原理的な理解が必須であり、そうした理解を深めようと考えている全ての皆様に対して、読みやすく、かつ理解しやすいテキストは無いかと筆者自身、ここに来てあらためて探していた。そしてようやく出会ったのが今回のコラムに際してベースとなる記述を公表している[Peixeiro 23]である。

まずこの本の第1章では「時系列予測」の基本中の基本が記されている。とりわけ目を引いたのが「本章のまとめ」と記されている以下の5項目である。

・時系列は、時間順に並べられたデータ点の集まりである。

・時系列の例としては、株の終値や外気温などが挙げられる。

・時系列は、トレンド、季節性、残差の3つの成分に分解できる。

・予測時に目標を定めること、モデルをデプロイした後に監視することが重要である。このようにすると、プロジェクトの成功と長寿命化が保証される。

・モデル化の際に時系列の順序を変更してはならない。データのシャッフルは許可されない。

この意味での「科学」を知る人と、そうではない方との間の認識を分かつのは3番目の点ではないかと思う。なぜならば後者は時系列そのもののraw dataをもって、未来の値が予測されると単純に思ってしまうからである。ところがこれは間違っている。なぜならば10000プロット以下の数の時系列を伝統的な統計学上のモデルで把握するにしても、あるいはそれ以上のプロット数のモデルを人工知能(AI)、とりわけ深層学習(deep learning)によって構築するにしても、結局のところそこでモデル化できるのはよりゆったりした変化を指し示すトレンドに過ぎないからである。これに対して季節性の変動、さらにはトレンドでも季節性でも把握出来ない残差=ホワイトノイズは徹底して排除されなければならない。さもないとモデルによる予測(prediction)が明らかに左右されてしまうからである。したがってこの意味での作業=前処理(preprocessing)が時系列予測においては最も重要かつ最初の作業ということになってくる。当然、弊研究所の提供しているAIアルゴリズム・ツールである「Prometheus」においては何重にもわたってこの様な前処理を丁寧に施してある。

その「Prometheus」であるが、アルゴリズムのタイプとしてはCNN(畳込みニューラルネットワーク)とLSTMを利用しているということについて、これまで何度か公表してきた経緯がある。[Peixeiro 23]はこのタイプについて次の様に述べている。

CNNがデータシーケンスをフィルタリングできる一方で、LSTMがデータシーケンスをうまく処理することもわかっています。そこで、シーケンスをフィルタリングしてからLSTMに渡したらモデルの性能がよくなるかどうかをテストしてみると面白そうです。

このモデルでも入力シーケンスをConv1D總に渡しますが、今回は学習にLSTM層を使います。その後、情報を出力層に送ります。この場合も、モデルを訓練し、その性能をディクショナリに収納します。

そもそも伝統的な統計学上のモデルはプロット出来る時系列の量が比較において小さく、予測に際して精度が低い場合がある(ヒストリカル・データが大量にある場合)。これに対して、人工知能(AI)を用いたCNN+LSTMは大規模な時系列データをそのまま使えるため、より優位な様に見えるわけだが、[Peixeiro 23]はこれに飽き足らず、次の様に述べてより良いモデルを追究する様、読者を誘うのである。

自己回帰モデルは出力シーケンス全体一気に生成するのではなく、予測値を1つずつ生成し、その予測値を次の予測値を生成するための入力として使います。これは最先端の予測モデルで使われている類いのアーキテクチャですが、注意しなければならない点があります。モデルの最初の予測が非常に悪い場合、その誤りは次の予測に引き継がれ、誤差が拡大していくことです。

 

Unrolled structure of the autoregressive LSTM model

(出典:[Qiaoqiao et al. 21])

[Peixeiro 23]はこの様に述べて、CNN+LSTMなど他のモデルとの比較に際し、MAE(Mean Absolute Error/平均絶対値誤差)を算出し、比較する。その結果、自己回帰(autoregressive)を行うARLSTMが優位であることを指し示すのである。このモデルを用いると、任意の長さのシーケンスを簡単に生成できるようになる。さらにこのアプローチを採用すると、新しいモデルを再訓練しなくても、時単位、日単位、月単位など、様々な尺度で時系列を予測できるようになるという追加の利点もある。Google Deep Mindによって構築されたアーキテクチャの一つだえり、上述の様に誤差の蓄積・拡大という根本的な問題はあるにしても、注目に値するアプローチであることは間違いない。

弊研究所の「Prometheus」シリーズについても、このARLSTMアーキテクチュアを試用したモデルを開発中である。そしてその結果を従来型との比較により評価してみたいと考えている。成果については後日、この「技術ブログ」で明らかにしたい。いずれにせよ、私たちIISIAは不断の努力で開発と社会実装を進める人工知能(AI)研究機関である。どこぞの誰かと同じ類と思われるのは誠に心外なのである(読者諸兄は既にご理解のことと期待しているが)。

 

2024年1月18日 東京・丸の内にて

株式会社原田武夫国際戦略情報研究所 代表取締役CEO/グローバルAIストラテジスト

原田 武夫記す

 

(参考文献)

[Qiaoqiao 21] Li, Qiaoqiao & Xu, Yan & Chew, Benjamin & Ding, Hongyuan & Zhao, Leo : An Integrated Missing-Data Tolerant Model for Probabilistic PV Power Generation Forecasting. Power Systems, IEEE Transactions on. 37. 10.1109/TPWRS.2022.3146982, 2021.

[Peixeiro 23] Peixeiro, Marco(株式会社クイープ訳) : Pythonによる時系列予測, マイナビ出版, 2023.