「ChatGPT」は、AIによって自然な会話を行えるチャットサービスです。本記事ではChatGPTの基本的な仕組みや特徴、2024年時点での最新バージョンなどについて解説します。従来のシステムとの違いやアルゴリズム、学習方法について理解を深め、ChatGPTを適切に活用するのに役立ててください。
【AIの基本】ChatGPTの仕組みを理解するうえで知っておきたいポイント
ChatGPTの仕組みを知るうえで、まずは「アルゴリズム」「データセット」「評価モデル」「学習方法」という四つの単語をおさえておく必要があります。それぞれの意味は以下のとおりです。
アルゴリズム:ものごとを解決するための手順や、その計算方法
データセット:ある目的で集められ、一定の形式に整えられたデータの集合体
評価モデル:算出された結果の精度を、人に代わって評価するモデル
学習方法:与えられたデータから法則性を見つけ、予測や分類・分析などを行えるようにするプロセス
現在広く公開されているChatGPTは、文章生成言語モデル「GPT-3.5」を基にしています。GPT-3.5とは、「GPT」という文章生成モデルのバージョン3.5のことです。このバージョンでは、より自然な会話に近づけるため、評価モデルに応じて人が好む文章への調整が施されています。
ChatGPTのアルゴリズム
ChatGPTは「InstructGPT」という大規模言語モデルがベースになっています。そのアルゴリズムは、インターネット上で学習したデータを基にしつつ、より人が好む文章を作成するように追加学習(ファインチューニング)していくことで成り立っています。
とはいえ、「どのような文章が人に好まれるのか」を関数で表現するのは困難です。そこでInstructGPTでは、人が直接フィードバックを与えることにより、文章の良し悪しを学習していきます。この手法はRLHF(Reinforcement Learning from Human Feedback)と呼ばれています。人が事前に正解のデータ(ラベル)を入力し、出力された文章とそれらを比較することで、良し悪しを学習する方法です。
言語モデルの「ラベル」とは、入力されたテキストがどの分類に属するかを表すタグのことです。InstructGPTは、機械と人間のフィードバックから学習データを強化することで、より正確なラベル生成ができるようになります。
ChatGPTの主なデータセット
ChatGPTは、Webページや書籍、雑誌、論文、ニュース記事などさまざまな場所からデータを収集しています。ここではChatGPTで使われたデータセットの中から、代表的なものを二つ紹介します。
Common Crawl Corpus
「Common Crawl Corpus」とは、Webで2008年以降に収集されたデータを扱う、巨大なデータセットです。ペタバイト単位の膨大なデータを含んでおり、オープンで誰でも無料で使用できます。
BookCorpus
「BookCorpus」とは、多数の書籍を扱うテキストデータセットです。ロマンスや冒険、歴史といった異なる16種類のジャンルを扱っており、未発表の著者によって書かれた無料の小説を約11,038本学習させられます。本にはキャラクターやストーリーがあり、人物の心情や物事の因果関係を理解するための貴重な情報源です。それらを学習することで、より的確な表現ができるようになります。
ChatGPTが使用する評価モデル
ChatGPTは「Reward Model(RM・報酬モデル)」という評価モデルを使用しており、出力された文章が適切であるかを人に代わって評価します。Reward Modelは、出力された文章の文章の良さを「スカラー」と呼ばれるスコアによって表示します。評価軸は以下の3項目です。
正確性:情報が正確か
倫理観:人や環境を傷つける内容でないか
有益性:ユーザーにとって役立つ情報か
ChatGPTの学習方法
ChatGPTは事前学習とファインチューニングを経て、その結果を評価モデルによって評価し精度を上げていきます。ここでは、これまでに説明したアルゴリズムやデータセット、評価モデルがどのように学習プロセスに関わっているのかを、3段階に分けて紹介します。
プロセス1. 事前学習
はじめに、AIに大量のテキストデータを学習させ、言語モデルを構築します。言語モデルとは、入力した文章に続きそうな単語を予測し、出力するモデルのことです。このプロセスは人の手を必要とせず、大量のテキストデータがあれば自動で学習できます。
事前学習は、人間の言語を機械で処理し新たな内容を抽出する「自然言語処理」において、多く使われている手法です。汎用性の高い知識をあらかじめ身に付けさせることを目的としており、この段階では、より正確で人に好まれる文章を生成することはできません。
プロセス2. ファインチューニング
次に、構築した言語モデルにファインチューニングを加え、特定のタスクに対応できるように微調整をしていきます。ファインチューニングとは、汎用性の高いデータを学習したモデルに、特定のデータセットを再学習させることで、分野に特化したモデルを構築する「移転学習」のひとつです。Webページや書籍、雑誌、記事、論文などから得たデータを用いて、対話の生成に必要なパラメータを調整します。このようなファインチューニングを実施したモデルを「SFTモデル」といいます。
生成AIを特定分野に適応させる技術としては、ファインチューニングのほかに「RAG(検索拡張生成)」が挙げられます。RAGとは言語モデルの知識を補完するため、外部の情報源から必要な情報を取得して、生成AIの回答の精度を上げるアプローチです。
RAGは外部の情報源にアクセスできるため、常に最新の知識や情報を得られるのがメリットです。一方、ファインチューニングは学習を重ねることで回答の精度を上げていくため、深い知識が必要な分野に適しています。
プロセス3. 評価モデルで学習
次に、ファインチューニング後に生成した文章を、Reward Modelを用いて評価します。Reward Modelは正確性、倫理観、有益性の三つを評価軸として、文章の良さを評価したスカラーを表示します。
SFTモデルは、「PPO」と呼ばれる強化学習モデルを用いて何度も学習を繰り返し、スカラー値が高まるようにします。PPOは、SFTモデルが大きく更新されるのを防ぎつつ最適化を目指すことが可能なため、強化学習において広く活用されています。
ChatGPTの言語モデル、GPT-4とGPT-3.5は何が違う?
ChatGPTの言語モデルは常に改良が加えられており、現在はGPT-3.5に加え、バージョンアップした「GPT-4」も使用可能です。無料版ではGPT-3.5が使われており、GPT-4は有料版の「ChatGPT Plus」に加入すれば利用できます。
GPT-4は、従来のGPT-3.5と比べて高い問題解決能力をそなえており、なおかつ幅広い一般知識を持っています。外部から投入されるデータなどを指す「パラメータ」の数は3,550億個から約100兆個に、またコンピュータが処理できる形式に単語を分解した「トークン」の制限は4,097から32,768に増加しました。GPT-4はあらゆるタスク処理のスコアも非常に優れており、模擬司法試験や大学院記録試験などの試験において、GPT-3.5を上回る結果を示したそうです。
ChatGPTと従来のチャットボットの仕組みはどう違う?
ChatGPTと従来のチャットボットとの大きな違いは、人間に近い自然な会話を生成できるかどうかです。従来のチャットボットの場合、事前にプログラムされたルールに基づいた回答しかできません。そのため対応範囲も狭く、設定されていないキーワードや、はじめて質問される事柄などへの対応は困難でした。
一方、ChatGPTは回答を用意しておく必要はなく、ビッグデータの中から最適な回答を選び出してくれます。また、内容がわかりづらいと感じた場合は、「わかりやすく」「初心者向けに」などのキーワードを加えて回答をブラッシュアップすることも可能です。人と会話をするように自然な返答を得られるため、各企業での問い合わせ業務効率化などへの活用が期待できます。
まとめ
ChatGPTはファインチューニングや、人が直接フィードバックを与えるRLHFにより、人間の会話に近い高精度の文章の生成が可能です。従来のGPT-3.5に加え、バージョンアップされたGPT-4では、さらに高い知識量や問題解決能力も備えています。
ChatGPTを含む生成AIは、コンタクトセンターでも活用可能です。顧客対応内容のリアルタイムでのテキスト化や要約、オペレーターへの回答の提案などにより、業務効率化につながるかもしれません。
この記事の推奨者
- TOPIC:
- 生成AI
- 関連キーワード:
- 生成AI
- 運用ノウハウ・ヒント