JavaScriptが無効になっています。
このWebサイトの全ての機能を利用するためにはJavaScriptを有効にする必要があります。
ChatGPTをはじめとする生成AIは、社会のあり方を一変させるほどのインパクトを与えている。人間のように自然な文章を生成し、複雑な対話を行う、その能力は、多くの企業のビジネスやユーザーの生活の中で、AIの絶大な威力を強く印象づけている。しかし、生成AIの進化は留まることを知らない。
今、大規模言語モデル(LLM)の次にやってくる、生成AIをさらに進化させる新たなAIの基礎技術に注目が集まっている。「世界モデル(ワールドモデル、もしくは世界基盤モデルと呼ばれる場合もある)」である。
世界モデルとは、端的に言えば、AIが観測データを基に学習した、現実世界の状態や挙動を写し取った、いわば“デジタル箱庭”と呼べるような機能を持つAIモデルのことだ。世界モデルを活用すれば、物理や化学の現象、社会の動き、人の行動などが実際に起きる前に、起きた後の結果を予測することができるようになる。
現在、広く活用されるようになった生成AIでは、膨大なテキストデータを学習して言語のルールや文脈を習得したAIモデルであるLLMを利用し、高度な推論や要約、創作活動を可能にしている。ただしLLMは、多様な用途に利用できる極めて汎用性の高いモデルではあるのだが、本質的な限界が存在する。基本的に、言語のような抽象的記号の扱いには精通しているものの、私たちが生きる物理的な現実世界を真に「理解」しているわけではないという点である。例えば、LLMは「重力」という言葉の意味を説明することはできる。つまり、既に人間によって定義された言葉を自在に操ることはできる。しかし、リンゴが木から落ちるという物理現象の背景にあるものが重力であることを、体感的に理解しているわけではない。言葉と言葉の関係性を統計的に学習しているだけなのだ。
これに対し、世界モデルは全く異なる学習アプローチを取っている(図1)。AIモデルが直接外界と関わり合いながら、その状態や挙動の背後にある物理法則や因果関係といった現実世界のルールを自律的に学習していく。人間の赤ちゃんは、周囲の環境を五感で感じ、行動して起きたことを経験することで、「ボールから手を離すと落ちる」「壁にぶつかると進めない」といった世界の仕組みを学んでいく。世界モデルでは、それと同様の方法で外界の仕組みを学んでいく。このため、初めて遭遇する状況や、学習データにはなかった未知の事態に直面しても、ある程度柔軟に対応できるようになる。
用途に着目してLLMと世界モデルを比較してみたい。LLMでは「知っていること」を整理し、伝達する能力に長けたAIの基盤技術となっている。これに対し、世界モデルは、「これから起こりうること」をシミュレーションし、理解する能力を持つAIの基盤技術となる。
世界モデルの学習において重要な点は、物理法則や物事の因果関係などを人間が明示的に学習させるのではないことだ。カメラで撮影した動画や多様なセンサーで収集したデータなどから、外部環境に潜む物理法則や因果関係といった「世界の仕組み」を自律的に学習していく。この点は、未知の法則に基づく現象であっても、AIが自律的な経験に基づいて暗黙的な予測機能を獲得できてしまう可能性があることを意味している。また、熟練技能者などが経験の中で習得した、いわゆる「勘」や「コツ」を取得できる可能性もある。
現実世界で起きる現象を予測するデジタル技術として、以前から「CAE(Computer-Aided Engineering)」と呼ばれるコンピュータ・シミュレーションが、科学研究や技術開発・工業製品の開発などで広く利用されている。また、近年では「デジタルツイン」と呼ばれるデジタルモデルを利用した予測技術が、設備保全や生産ライン、社会インフラなどの管理・制御に利用されるようになった。世界モデルを活用すれば、こうした従来のシミュレーションやデジタルツインとは違った予測情報を得ることができるようになる。3つの予測手法それぞれの特徴と適用適性を紹介したい(図2)。
CAEを活用する従来のシミュレーションでは、物理法則に基づいて現実世界を模写した解析モデルを作り、解析条件を入力して起こりうる現象の解を求めて予測する。有限要素法(FEM)や流体解析(CFD)、熱解析などがその代表例だ。この方法の強みは、既知(解析の背景を理解しやすい)の理論に裏打ちされた、因果関係が明確で信頼性の高い解が得られることである。人間が理解・利用しやすい情報が得られるため、製品開発などの設計・検証に適用しやすい。その一方で、モデル化に時間と手間がかかる、現実世界で起きる想定外の現象を反映しにくい、計算コストが大きく、リアルタイム性にかけるといった弱みもある。
デジタルツインは、現実世界の対象物・システムのデジタルコピーをリアルタイムで更新し、運用や制御に役立てる技術である。CAEにおいて活用した解析モデルに、センサーやIoTデバイスなどで収集したデータ(温度、振動、圧力など)を継続的に入力することで、現在の対象物の状態・挙動を再現できる点が特徴である。CAEを利用する予測に比べて、現実の挙動を常に反映できる点や、現実データに基づく予測ができる点などの強みがある。こうした特徴から、工場やプラントの設備の監視・保全、都市や建物の管理などに利用されている。その一方で、高精度なモデルと大量の実データが必要な点、システム統合・通信・データ整備の負担が大きい、精度や再現性がセンサーデータの質に依存するといった点が弱みとなる。
一方、世界モデルに基づくAIによる予測では、AIがセンサー・カメラなどから得た大量の観測データから環境の因果構造を自律的に学習し、将来の状態を生成・予測する。物理法則を明示的に定義せず、現実世界の状態変化をAIモデル内部の表現として予測機能を獲得できる点が最大の特徴となる。さらに、従来の生成AI技術と組み合わせて利用すれば、将来の挙動を予測した結果を映像・アニメーション・文書・図表などの形式で自在に表現することも可能だ。
未来予測の手段として世界モデルに基づくAIを活用する際には、明示的なモデル化作業は不要であり、未知の現象にも対応できて、マルチモーダル(映像、音、センサーデータ、テキストなど)なデータの統合も可能である。つまり外部環境の情報を収集する適切なセンサーさえ与えておけば、対象物や状況、環境が変化したとしても、変化を自律的に学習して適切な予測結果を導き出すことができる。こうした変化に対する柔軟かつ適切な対応が世界モデルを基にしたAIを未来予測に活用する際の強みになる。その一方で、解析過程や根拠がブラックボックス化されているため、得られた結果の説明可能性が低い、データ依存性が高く学習領域外の予測は不安定といった欠点もある。こうした特徴を勘案して、自動運転車やロボットの行動予測・環境認識、複雑なパラメータが絡み合う都市や物流のマクロシミュレーション、気候・災害など複雑系でのシナリオ生成などで、効果的な活用が可能であるとみられている。
ここからは、世界モデルのビジネスへの活用が効果的と期待されている応用領域を、4つ挙げて、それぞれの具体的活用効果を紹介したい(図3)。
製造業では、工場全体をデジタルツイン化して、生産ラインの最適化、予知保全に役立てられるようになった。さらに工場全体の動的な振る舞いを学習した世界モデルを構築することで、機械の状態だけでなく、資材の流れ、ロボットや作業員の動き、エネルギー消費パターン、さらには倉庫内の環境変化までを統合的に理解できるようになる。仮想空間上で様々なシナリオを安全かつ高速にシミュレーションすることで、単に装置の故障の予兆を察知(予知)するだけでなく、ライン全体での品質や稼働率の低下を精緻に予測することが可能になる。
また、ロボット制御の高度化に向けた応用も進みそうだ。ロボットのアームがテーブルの上にあるカップを掴もうとする場合を考えてみよう。従来のロボット制御のアプローチでは、アームの動かし方を細かくプログラミングする必要があった。これに対し、世界モデルを持つロボットは、まずカメラからの映像を通じて現在の状況(テーブル、カップ、アームの位置関係)を認識する。そして、自らの内部モデルの中で、「アームをこの角度でこれくらいの速さで動かしたら、カップにぶつからずに掴めそうだ」「もし速すぎたら、カップを倒してしまうかもしれない」といった複数の未来をシミュレーションし、最も成功確率の高い行動を選択して実行に移すことができる。
自動車業界では、世界モデルを活用することで、自動運転技術の実現に向けた最大の障壁を解決できるのではと期待が高まっている。「ロングテール」と呼ばれる発生頻度は低いものの致命的な結果を招きかねない危険なシナリオへの対応である。「駐車車両の陰から子供が突然飛び出してくる」「高速道路で前方の車両から積み荷が落下する」といったシナリオは、現実世界の走行テストだけでAIに十分な学習をさせることは、ほぼ不可能である。世界モデルならば、天候、時間帯、交通状況などを自在に変化させ、現実世界では再現が困難な、ありとあらゆる危険なシナリオを生成し、安全な仮想空間の中で何百万、何千万回もの危険な状況を「経験」し、対処法を学習することが可能になる。
小売業や物流業では、強靭かつ効率的なサプライチェーンの構築に活用できる可能性がある。近年の世界情勢の混乱は、効率性のみを追求したサプライチェーンがいかに脆弱であるかを露呈させた。世界モデルは、従来の効率的なサプライチェーンから、変化に強く、自己修復能力を持つレジリエント(強靭)でアダプティブ(適応的)なサプライチェーンへの移行を可能にする。倉庫の在庫レベルやトラックの現在位置といった内部データだけでなく、天候予報、交通情報、港湾の混雑状況、さらにはSNS上のトレンドや地政学的なニュースといった外部のリアルタイムデータを統合的に取り込み、影響を受ける地域の店舗へ事前に、かつ自動的に在庫を再配置するような指示を出すことができるようになる。
エンターテインメントの領域においても、ユーザーの行動パターンや心理状態などを学習した世界モデルを活用することで、行動や感情に適応してリアルタイムで変化し続ける生きたコンテンツを創造できる可能性がある。例えば、AIが「このゲームプレイヤーは現在のクエストに飽き始めている」と予測した場合、ゲームの世界に予期せぬ新しいイベントを自動生成して、プレイヤーの興味を引きつけたりすることができる。
現代のビジネス、生活、そして行政など社会活動は、データに基づいた何らかの予測の上に成り立っている面がある。例えば、企業は、過去の販売実績、市場トレンド、顧客行動といったデータを分析し、将来の需要や業績を予測することで行動計画を立てている。
ただし、こうした従来の予測に基づく行動には弱点がある。過去に前例のない出来事、すなわち「不確実性」に直面した途端に機能不全に陥る可能性があることだ。パンデミック、地政学的リスク、急激な技術革新など、現代のビジネス環境は予測不可能な変化に満ちている。しかし、世界モデルに基づくAIを活用すれば、予測を基にした行動というパラダイムが根底から覆される可能性がある。不測の事態に直面しても、状況の変化を速やかにAIに伝えれば、多様な仮説に基づく行動シナリオを迅速かつ低コストで検証して、最適な行動を選び出せるようになることだろう。これによって、失敗のコストと時間を劇的に削減できるかもしれない。
世界モデルの影響は、ビジネスだけでなく、都市の運営、防災、さらには行政のあり方といった社会全体のシステムを根底から変えるほどのインパクトをもたらしそうだ。予測対象の動向を決める要素が人間では扱えないほど複雑かつ大規模であるほど、世界モデルの適用効果は大きくなる。
伊藤 元昭(いとう もとあき)
株式会社エンライト 代表
富士通の技術者として3年間の半導体開発、日経マイクロデバイスや日経エレクトロニクス、日経BP半導体リサーチなどの記者・デスク・編集長として12年間のジャーナリスト活動、日経BP社と三菱商事の合弁シンクタンクであるテクノアソシエーツのコンサルタントとして6年間のメーカー事業支援活動、日経BP社 技術情報グループの広告部門の広告プロデューサとして4年間のマーケティング支援活動を経験。
2014年に独立して株式会社エンライトを設立した。同社では、技術の価値を、狙った相手に、的確に伝えるための方法を考え、実践する技術マーケティングに特化した支援サービスを、技術系企業を中心に提供している。