- 異なる文章表現間の同一性・関連性・差異性を、「literal(逐語的)なレベル」で捉えるWEB検索エンジン・プログラム vs 、「文章表現のパターンやコンテクストなど文章表現の内的構造というレベル」においても捉えるテキスト生成AI
- 生成AIの事前訓練に用いられたデータ、および、生成AIがテキスト自動作成に利用するデータの「質」問題
- 「事実と価値」、「事実と推測」の区別を基本的には持たないinput-outputシステムとしての、テキスト生成AI
- 「事実」的内容に関わるユーザーからの質問に対する回答の生成に対する製品設計(Product design)の差異-なぜChatGPT3.5は「明治大学経営学部の学科構成はどのようなものですか?」などといった事実に関する問いに対して、まったく誤った回答をするのか?
- OpenAI LP(2023)「明治大学経営学部の学科構成」ChatGPT3.5による2023/6/8回答
https://chat.openai.com/share/6656121d-cf85-4779-adcc-fb984b7e1f7a - Perplexity AIによる2023/6/8回答
https://www.perplexity.ai/search/9ad47627-3f30-4251-9ae2-6a3a7824db92?s=c - ChatGPT4.0による2023/6/8回答
https://chat.openai.com/share/259f7704-cf1a-4429-9acb-ecec8fe73334 - 佐野正博(2023)「ChatGPTの回答の「信頼性」問題-なぜChatGPTは、すぐにわかるような「明らかに間違った情報」を回答することがあるのか?」
https://www.sanosemi.com/sano_lecture/archives/5879
例えばGoogle検索において、同義語や類義語に関する辞書データベースを利用していることは[1]や[2]の特許情報に示されている。
[2] Google(2013)「同義語抽出システム、方法および記録媒体」WO2014002775A1https://patents.google.com/patent/WO2014002775A1/ja
これに対して、生成AIシステム・プログラムは、大量のデータから学習して「大規模言語モデル」(Large Language Models、LLM)を創り出して、様々な「判断」処理をおこなっている。すなわち、異なる文章表現間の同一性・関連性・差異性を、literalなレベルだけでなく、文章表現のパターンやコンテクストなど文章表現の内的構造というレベルにおいても「判断」している。
例えば、大規模言語モデルの構成要素の一つには、「(ある特定のコンテクストにおいて)ある特定の単語の次に、どのような単語がどの程度の出現確率で登場するのか?」という単語出現確率に関するデータベースがある。また実際の生成AIシステムにおいてどこまで実装されているのかは明確ではないが、文章のパターンやコンテクストを対象として、直喩(simile)、隠喩(暗喩,metaphor)、換喩(metonymy)、提喩(synecdoche)、諷喩(allegory)などの「比喩」表現的構造という視点から同一性・関連性・差異性の「判断」処理をおこなうことも研究されている。
単語間の現象的関係の中に、直喩、隠喩、換喩、提喩、諷喩といった様々な「比喩」表現的構造が存在しているということは、「現象的構造に関する構造」(単語間の連接という現象的構造の中に、メタ的レベルにおける構造が存在し、それらの構造がいくつかに分類されるということ)の存在を示すものである。
生成AIの回答の精度の相対的限界が存在する一つの要因は、「著作権の法的保護期間内にある良質なデータを大量には利用できていない」ということにある。
現行のテキスト生成AIシステムは、inputデータの中に、「事実」言明と「価値」言明の区別、「事実」と「推測」の区別をメタデータとして持つような設計には基本的にはなっていない。(そうした区別構造を持つ生成AIシステムを技術的には考えられるが、現行のテキスト生成AIシステムのハードウェア能力的問題[高精度化と高速化の相反的関係も含む]や、「価値」判断に関わる倫理的問題[どのような「価値」を優先させるのかも含めて、「価値」判断に関しては多様な考え方があり、社会的に広く一致・共通している点もある程度は存在するが、それほど多くはない。]などから実装することは、誹謗中傷的言明・人種差別的言明・犯罪助長的言明など一部の例外を除き、現段階では基本的にはされてはいない。)
また学習(training)として、最初に与えられたinputデータを、外部的な「事実」データ群との一致・不一致によって「事実」データと「非-事実」データ(推測、物語、空想など)に区分する学習や、言明の信頼度を算出するような学習をさせるような製品設計にはなっていない。すなわち、「事実」言明と「価値」言明の区別、「事実」と「推測」の区別といった差異構造を事後的に内部的に持つような設計には基本的にはなっていない。
しかしながらChatGPT無料版(ChatGPT3.5)の回答の信頼性の低さに関して、「現行の生成AIシステム技術それ自体の構造的限界を示している」という理解はあまり適切ではない。欠陥に起因するというよりも、に対する一般的な懐疑の
信頼度の高低に関するテキスト生成AIの判定法
生成AIシステムも、基本的には input – processing unit – output構造である。それゆえ、processing unitによる処理プロセスにおいて、「信頼度が高いデータ」群を明示的に指定することによって、より信頼度の高い回答を出力するように設計することはできる。例えばPerplexity AIがChatGPTよりも信頼度の高い回答を生成する確率が高いのはそうした設計になっているためと思われる。なおChatGPT4もオプションのBrowse with Bingオプションを選択することでより信頼度の高い回答をするような設計になっている。
「なぜChatGPT3.5は下記WEBページのOpenAI LP(2023)「明治大学経営学部の学科構成はどのようなものですか?」などといった事実に関する問いに誤った回答をするのか?」といった趣旨の問題に関しては下記のPerplexity AIによる2023/6/8回答やChatGPT4.0による2023/6/8回答が参考になる。
ただしChatGPT4.0による2023/6/8回答に挙げられている要因だけでは、「明治大学経営学部の学科構成」に関して間違った回答をするのかを説明はできない。
「明治大学経営学部の学科構成」に関して間違った回答をする理由に関する説明の正確性・信頼度に関しても、Perplexity AIの方がChatGPT4よりも高い。
なお本問題については佐野正博(2023)もご参照ください。