Not ”Attention” but ”Data for Free of Charge” Is All You Need. (「IISIA技術ブログ」Vol. 3)
夏休みに入って我が国においてもさすがに「生成系AIフィーバー」とでもいうべき流れが少し収まってきた感じがしている。このAI騒動についても、元をたどれば「誰も人工知能なんていっても振り向かない時期」に我が国でひっそりと、しかし着実に研究をしていた先達たちがいたからこそのパーセプトロン開発があってこその動きなのであって、何も舶来のものであると言い切ることは出来ない動きなのであるが、それでも「外国からすごいのがやってきました!」というと予算が付きやすい&何かあっても責任をとらなくても良い、という例によって例のごときの我が国のビジネスパーソン(after「平成バブル崩壊」)のメンタリティーそのものが発動されてしまったが故に、動き自体が止まらなくなってしまっている。
この「技術ブログ」はAIについての社会実装のプロということで教育を受け、その意味で(社会実装における目標を定めることなく、とにかく評価指標(metrics)上の数値の改善だけを目的としてコードをつくりまくる「エンジニア」ではなく、むしろその真逆であり、「結局、AIは何に使うべきなのか?」という社会実装を起点として計画を立て、これを実現していく「プランナー」である筆者の立場から記しているものである。そして、その視点からすると上述の様な「生成系AIフィーバー」ほど滑稽なことはないのである。なぜか?
「テキスト生成系AIの肝は大規模言語モデル(LLM)だ。だからこそまずはLLM、しかも日本語のそれを大車輪で開発すべし」
”日の丸ジャパン”というと熱くなる御仁たちが例によってこういったロジックで日本語LLMを作り、続々と発表してきている。それらはOpenAIが苦手としていると伝えられる日本語に特化したLLMであるが故に品質もそれなりに良いのであろう(きっと)。だが、こうした流れが出来ること自体、AIと実社会の間をつなぐ役割を担うAIプランナーとしては全くもって論外だと言わざるを得ないのである。
ビジネスの基本は1つしかない。それは「タダのものを使って付加価値をつくり、かなり高い値段で売ること」である。このことは余りにもシンプルな真実なのだが、意外にも経営学修士号(MBA)の教科書やら、あるいは高名なコンサルタントの書いた本には書かれていないことなのである。それらの本ではこのステートメントの最初の文言である「タダのものを使って」という下りが端折られており、次の文言、すなわち「付加価値をつくり」から議論が始められるのが一般だ。そして次にマーケティング・セールスの話である「かなり高い値段で売ること」という部分が続く。しかし、である。繰り返しになるがビジネスの基本は「タダのものを使って」という下りなのである。ここが忠実に守られていないと、結局、最終成果物である製品やサーヴィスの価格は高くせざるを得ず、適度に高い、だから稼げるというビジネス目標を達成できなくなってしまう。
実は今、流行りの「生成系AI」についても同じことが言える点に気づかなければならない。テキスト生成についてのLLMにせよ、画像生成についてのモデルにせよ、実のところ私たちが過去20年以上にわたって使ってきたITツールの数々にそもそも仕込まれていた仕組みがベースになっているのである。私たちはそこにあるツール(例えばweb mailシステム(gmail等)やsocial media)を自らのPC上で操作する。あるいはOSがたびたび再起動となり、その度に何かが修繕?されていることに気づくが放置している。この20年にわたって私たちがこれらを用いている中でトライ・アンド・エラーをしてきた結果が、結局のところテキストあるいは画像について、特定のプロンプトを投げ込むとかなりの角度で適正な形での答えが返って来る=生成されるアルゴリズムの完成を実現するためには必須だったのである。しかし考えても見て頂きたい、あなたはこうした「人類史上、偉大なるプロジェクト」に自ら知らずに参画する中で何等かの金銭的な報酬を得ただろうか?・・・答えはNOである(!)。何十億人という人類がこの「人類史上、偉大なるプロジェクト」の実現のために長きにわたり、タダ働きさせられてきたのである。
そもそもコンピューティングの世界では1980年代まで、我が国がトップであった。驚くべき事実だが、本当のことだ。しかしこの地位が崩されたのは、コンピュータの計算速度の加速化が十分でなかったというハードな理由もあるものの、とにかくそこに入れるべき計算データが足りず、さらにはそれを全て「手入力」しなければならなかったためである(これが「第2次AIブーム」における失敗である)。我が国政府は相当な量の国費をここでのAI開発につぎ込んだが、結果的に大失敗をおかしてしまった。ただし仮にここで何等かの小さな技術的な成功を達成していたとしても、果たしてそれが「ビジネス」となるのかは大いに疑問であったはずだ。なぜならば、とりわけAIにとって必須なデータの収集とその入力に莫大なカネを投じていたからである。つまり「タダではない」のであるから、ビジネスとしては成功しないというわけなのだ。
今、流行りの「生成系AI」はその点、実に巧みだ。まずもって過去20年間、どうやってデータを集めてきたのかは「企業秘密」として一切触れない。ChatGPTの周辺で用いられているLLMやGPT4については、確かに概要が分かるtechnical reportめいたものは公表されているが、そこで用いられたデータや学習のやり方を公開はしていないのである。それもそのはず、今や有料で使うのが当たり前になりつつあるChatGPTがもたらす価値の源泉はといえば、上記の様に蓄積された莫大なデータとその修正情報なのであって、他でもないそれは私たちがタダ働きをした成果物であることがばれてしまうからである。「タダであるものを使ってビジネスをする」という基本中の基本に則ったビジネス・モデルなのであって、実に巧みと言わざるを得ないであろう。これに対して、「これからはLLMだ!」とばかりに大枚をつぎ込んで我が国企業は遅ればせながらLLMを続々と開発してしまっている。AIプランナーの目線から見ると、まさに「愚の骨頂」なのであって、最初からビジネス的には追い付かないことが目に見えているというわけなのだ。
「それではお前さんのところの研究所が出している金融指標ヴォラティリティのAI分析ツールであるPrometheusはどうなのか?ここでいうビジネスモデルの基本に立っているのか?」
そんな声が聞こえてきそうである。そう、そのとおりなのであって、コーディングを担当した責任者である私からすれば、ユーザーの皆さんにはこの点を是非「高く」評価してもらいたいのである。
Prometheusでは以前も記したとおり、各種金融指標の終値を日次ベースで切り取り、その差分をヴォラティリティと認識した上で前処理を施し、計算を実行する。したがってここでの文脈から言うと、各種金融指標の終値をどの様にして正確かつ「タダ」で入手し続けられるのかがビジネス・モデルとしては最大の課題となってくる。しかもここでいう各種金融指標のデータを出来ればweb上からあまり手間暇をかけないコードで吸い取っていきたいのである。webサイトからのいわゆるスクレイピングの手段としてはbeutiful soupなどが使えるが、とにかくスクレイピングされる側のサイトにもいても十分、その備えがなされている必要があるのだ(すなわちHTMLで見た際、複雑なコーディングになっていない方が望ましい)。さらに言うならばこのスクレイピングの対象であるwebサイトには網羅的な形で各種金融指標がのっていて欲しいのである。
以上の観点からPrometheusではポーランド系のサイトであるStooq.comを用いている。コードについては(企業秘密なので)割愛することにしたいが、これにより、クリック一つで最後の計算と図示まで一気に行うことが出来ている。付け加えるならばStooq.comの利用はタダである。そこにpythonによるコーディングで付加価値を付け、最終的には図示とその日次での提供(営業日ベース)により、それなりの金額でのご提供を可能にしているというわけなのだ。その意味で私たちの研究所が提供するPrometheusはビジネスの基本中の基本に則ったものだ。昨年(2022年)7月にリリースしたが、その後、第2弾のリリースも経て現在は年商ベースで約1.6億円ほどのビジネスになっている。見てくれはよくても、年商ベースで1億円にすら届かないAIスタートアップが大多数である我が国の現状を踏まえれば、我ながら成功した部類であると考えるのだがいかがであろうか。
最後にまとめを。AIビジネスは「AI研究」とは違い、ビジネスの基本に立ち返る必要がある。その際、最終的には「いかに安く材料を入手し(できればタダで)」、それを「いかに高く売るのか」がカギを握るのである。このあたりのことをプランニングするのはAIエンジニアではなく、AIプランナーの仕事である。PrometheusI及びIIの当座の成功を踏まえ、次のAIビジネス・モデルへと今、大きく舵を切りつつあるのが我がIISIAなのだ。
2023年8月18日 京都にて
代表取締役CEO/グローバルAIストラテジスト 原田武夫記す