テキスト生成AIにおける最小処理単位「トークン」ーなぜ日本語文よりも英語文の方がより詳細な回答となるのか？(2024/12/23一部追記改訂版)

生成AIに与えるプロンプト文は必ずしも文章である必要はない。というのも、WEBインターフェースで生成AIに与えたプロンプト文は、実際に生成AIに処理させる段階でトークン（token)≒単語に分解されるからである。

トークンについてのOPenAIによる公式の解説は、Open AI(2024) “What are tokens and how to count them?”にある。それによれば、1トークンが英語で約4文字、平均で75wordsが100トークンとされている。

自分が入れた文章のトークン数については、OpenAIが提供している下記WEBページ「Tokenizer」で調べることができる。

Tokenizer: Learn about language model tokenization

上記WEBページの「Tokenizer」で調べると、GPT-3.5およびGPT-4の場合、下記の図に示されているように、「原子力の社会的利用をめぐる推進論と批判論の歴史的展開」という26文字の日本語文で36トークンとなっている。
　なお下図の色分けは、「原子力の社会的利用をめ」までの部分は、漢字・ひらがなともに、1文字1トークンとなっているが、「ぐ」の部分はひらがな1文字で２トークンとなっていることを示している。

これに対して同語句の英訳であるHistorical Development of Arguments for and against Civilian/Non-Military Use of Nuclear powerという12words(94文字,Civilian/Non-Militaryも1word扱い)の英語文では、下記の図に示されているように、18トークンと、日本語の場合の約半分のトークン数となっている。
　なお下図の色分けは、前置詞の「of」、「for」、「against」、接続詞の「and」だけでなく、「Development」、「Arguments」、「Nuclear」、「Power」といった単語が1wordで1トークンとなっていること、および、「Historical」や「Civilian」といった形容詞語句が1wordで２トークンとなっていることを示している。

「原子力の社会的利用をめぐる推進論と批判論の歴史的展開」という日本語の語句は、GPT-3で48トークンであったが、GPT-3.5およびGPT-4では36トークンとなり、トークン消費量が25％も減少し、3/4となっている。そしてさらにGPT-4oおよびGPT-4o miniでは、24トークンとGPT-3の半分にまで減少している。
（トークン消費量に関して、英語文の場合には日本語文とは異なり、それほどの劇的な性能向上はない。Historical Development of Arguments for and against Civilian/Non-Military Use of Nuclear powerという英文の場合、GPT-3で19トークン、GPT-3.5およびGPT-4で18トークン、GPT-4oおよびGPT-4o miniで17トークンというようにわずかな改善にとどまっている。)

日本語文に関するトークン分解に関するより詳しい具体的事例に基づく説明としては、OPenAI ”Inquiry Regarding Token Counting in Japanese for GPT-3 API” OPenAI＞Documentation＞API reference、2023年9月などが参考になる。

CRIMO voice(2024)「ChatGPTの文字数制限は1万字弱！無料・有料の違いや対処法を解説」2024/5/27によると、質問入力可能トークン数(日本語文字数)、および、最大回答トークン数（日本語文字数）の推定値は、下記の通りである。

LLM	質問入力可能トークン数 (日本語文字数)	最大回答トークン数（日本語文字数）
GPT-3.5	約16,000トークン（約10,000文字）	約3,000トークン（約2,048文字）
GPT-4	約32,000トークン（約25,000文字）	約20,000トークン（約15,625文字）

［GPT-4の最大回答トークン数の約20,000トークンに対応する文字数が約2万5,000文字となっているのは間違いと思われるため、引用に際して推定値の数字を訂正した。］

[関連資料]

上記のように、トークン消費量は日本語文よりも英文の方が少ないため、英語文で質問した方がより長い質問が可能となるとともに、より適切でより詳細な回答が一般的には生成される。

LLM	質問入力可能トークン数 (日本語文字数)	最大回答トークン数（日本語文字数）
GPT-3.5	約16,000トークン（約10,000文字）	約3,000トークン（約2,048文字）
GPT-4	約32,000トークン（約25,000文字）	約20,000トークン（約15,625文字）

テキスト生成AIにおける最小処理単位「トークン」ーなぜ日本語文よりも英語文の方がより詳細な回答となるのか？(2024/12/23一部追記改訂版)

テキスト生成AIにおける最小処理単位「トークン」ーなぜ日本語文よりも英語文の方がより詳細な回答となるのか？(2024/12/23一部追記改訂版) への3件のフィードバック

メタ情報