JavaScriptが無効になっています。
このWebサイトの全ての機能を利用するためにはJavaScriptを有効にする必要があります。
「生成AI」と呼ばれる新しいタイプの人工知能(AI)技術の威力に注目が集まっている。ディープラーニング(深層学習)の活用が広がって以来、AIは画像認識など特定作業で人間を超える認識精度を実現し、自動運転車やスマートファクトリーなどに利用されるようになった。今話題の生成AIでは、人間と自然な言語で対話しながら調査業務をこなし、プロが創作したかのような精緻なイラストや音楽などまで量産できる。囲碁の世界チャンピオンを倒すといった従来AIの成果も、十分驚きに値するものだったが、そうした成果は、大多数の一般人にとっては「他人事」だった。これに対し、生成AIの成果は、多くの人が職を失う危機感を感じるほどの「自分事」の技術革新として映っている。ただし、AIの専門家に言わせれば、こうした生成AIの衝撃も、これから始まる大変革の始まりにすぎないという。生成AIの代表例であるChatGPTなどは、「基盤モデル」と呼ぶ進化版ディープラーニングの威力を示す応用の一面でしかないからだ。日本IBM東京基礎研究所で、基盤モデルの技術開発と応用開拓に取り組む方々に、基盤モデルに秘められた可能性と今後の応用展開、社会に与えるインパクトなどについて聞いた。
(インタビュー・文/伊藤 元昭 撮影/氏家 岳寛〈アマナ〉)
倉田 ── 人工知能(AI)技術は、ディープラーニング技術を活用することによって、「第3次AIブーム」と呼ばれる3回目の春を迎えました。そして、近年の生成AIの商用化によって、以前のブームでは来なかった夏を迎えつつあると語る研究者がいます。
これまでのディープラーニングは、画像認識、音声認識、自然言語の理解、さらには囲碁など、特定の作業(タスク)に限定適用することで、人間を超える能力を発揮する技術でした。加えて、高精度の推論を実現するためには、適用する個々のタスクごとに、莫大な量のデータを教材としてAIを学習させる必要がありました。つまり、目覚ましい成果を挙げる潜在能力を持つ技術ではあるが、期待する能力を具現化するためには、莫大な労力・時間・コストを費やして莫大なデータを収集し、AIに学習させる必要があったのです。これがAIを応用する上での実務的・経済的な高いハードルとなり、適用先が限定されていました。
基盤モデルは、ディープラーニングの威力を生かしたアプリケーションを、最小限の労力・時間・コストで生み出すことを目指して開発された技術です。大量かつ多様なデータで訓練された大規模なAIモデルであり、さまざまなアプリケーションに適用可能なAIを生み出す“基盤”となる役割を果たします(図1)。
倉田 ── 学習段階での従来のディープラーニングとの相違点は、学習を2段階で行う点にあります。まず、1段階目の学習として、応用が想定されるさまざまなタスクに共通する知識やスキルをAIに学習させます。こうして出来上がった汎用性の高いAIモデルを、基盤モデルと呼んでいます。ただし、出来上がった基盤モデルだけではタスクをこなすことができません。そこで、2段階目の学習として、出来上がった基盤モデルに少量データを追加学習させて、個々のタスクに適応化させます。この2段階目の学習を「ファインチューニング」と呼んでいます。1段階目で基盤モデルさえ完成させておけば、特定タスクに適用するAIモデルを格段に効率よく学習させることができます。
こうした基盤モデルを利用する学習では、学習に伴う作業を劇的に効率化できる重要な特徴があります。従来のディープラーニングでは、学習させるデータに、認識や処理の答えとなるラベルを付与したデータを大量に用意する必要がありました。これに対し、基盤モデルの学習では、ラベル無しデータで学習を進めることができるのです。これによって、データを用意する際の労力を大幅に削減できます。その一方で、ファインチューニングで利用するデータには、ラベルありデータを用意します。ですが少量を用意するだけで済むため、トータルな作業量で従来AIと基盤モデルベースのAIの学習を比べると、ずっと効率的に学習できます。
倉田 ── 人間のように会話できる生成AIは、会話文の中に登場した単語を基に、次に出現する可能性が高い単語を予測する大規模言語モデルで作られています。例えば、会話の中で「カラスは」という単語列が出てきたとしましょう。すると、私たちは、たぶん次には「黒い」という単語が現れるのではないかと無意識に予測しながら会話します。過去の会話や文章に基づく経験によって推測し、予想通りの単語が出てくると自然な会話として安心感を得るわけです。
同様にAIの言語モデルも、過去に書かれた文章などを学習することによって、人と同様の一見高度な知的能力に見える言語モデルに育てることができます(図2)。ただし、自然な会話を可能にするためには、莫大な量の文章を学習しなければなりません。
画像データなどは、画素間やフレーム間での連続性が高いため、近隣に連続的に登場するデータの内容を予測し易い傾向があり、ディープラーニングの適用が比較的容易でした。これに対し言語はデータが離散的であり、直前の文節から次に登場する単語を予測しにくく、当初ディープラーニングの適用が困難でした。ただし、「ベクトル表現」と呼ぶ、似た意味の単語を近隣に配置できる手法の利用法が確立され、ディープラーニングの活用が可能になりました。そこに基盤モデルを適用することで、莫大なデータの学習の効率化が実現したのです。ChatGPTは、文脈などを加味しながら、より有益な文を生成できる方向へと進化しています。より高度な言語生成を可能にするうえで、基盤モデルの活用は欠かせません。
ちなみに、ChatGPTでは、大規模言語モデルだけではなく、生成した文が正しいこと、利用者の役に立ったことなどの観点から評価するAIモデルを併用して、評価結果を生成したモデルにフィードバックする仕組みも備えているようです。これによって、ユーザーの好みに寄り添い、感心するような回答や会話を作り出しているのです。
倉田 ── 基盤モデル、大規模言語モデル、生成AIなどの用語が同じように使われていることも多いのですが、すべての生成AIが基盤モデルをベースに作られているわけではありません。要求した条件を満たす画像を生成するAIは、「拡散モデル*1」と呼ぶ、基盤モデルとは別のAI技術を基に作られています。こちらも、技術の進歩と応用の拡大が著しい領域です。
倉田 ── まず、これまで作ってきた特定タスク向けAIを、さらに機能向上させるために基盤モデルが使われています。例えば、これまで企業向けの文書検索ソフトウェアでは、質問を投げると関連文書の中にある該当する情報が含まれていそうな場所をリストアップして出力していました。これが基盤モデルを使ったAIでは、「日本IBMが設立されたのは何年ですか」といった質問を投げると、関連文書の内容を調べて「1937年」といったピンポイントの答えを示すことができるまでに進化しています。基盤モデルを活用すれば、こうした高度な機能を、簡単に実装できるようになるのです。
倉田 ── 基盤モデルは、ChatGPTのような自然言語処理の領域での活用が、多くの人にとって成果がわかりやすく注目を集めがちです。しかし、技術的には自然言語向けに特化した技術ではなく、さまざまな種類のデータを扱うことができます。
例えば、私たちは、プログラムコードの基盤モデルを作って、プログラマーの開発を支援するアプリケーションも開発しました(図3)。Red Hat Ansible*2の設定ファイルを書く際、「このような設定を書いてください」と指定すれば、その設定を自動生成して出力するというものです。このアプリケーションを利用すれば、対話的にプログラムや設定ファイルを開発できるようになり、プログラマーの作業効率が高まります。こうしたAIを活用するためには、AIを利用する側にも一定のリテラシーが求められます。プログラマーの職を奪う存在ではなく、人間と共に働き、支援する存在であると考えています。
また、面白い用途として、ゴルフトーナメントのマスターズに、お気に入りの選手の一打一打を解説してくれる生成AIを導入しました(図4)。選手のショットデータを基に、解説のナレーションを自動生成できるように学習したAIで、2万件のビデオクリップを生成しました。すべての選手・ショットを解説してくれる解説者を用意することは難しいでしょうが、基盤モデルを活用した生成AIが自然な言語で解説することで観戦者の体験の質を高めることができます。
また、アメリカ航空宇宙局(NASA)とIBMで協業し、衛星画像を基にした基盤モデルを構築しています。予め基盤モデルを作成しておくことで、洪水などの災害が発生している状況の把握や、土地の利用状況を把握するためのAIを、必要に応じて効率的に開発できるようになります。