テキスト生成AIにおける最小処理単位「トークン」ーなぜ日本語文よりも英語文の方がより詳細な回答となるのか?

生成AIに与えるプロンプト文は必ずしも文章である必要はない。というのも、WEBインターフェースで生成AIに与えたプロンプト文は、実際に生成AIに処理させる段階でトークン(token)≒単語に分解されるからである。

 

トークンについてのOPenAIによる公式の解説は、Open AI(2024) “What are tokens and how to count them?”にある。それによれば、1トークンが英語で約4文字、平均で75wordsが100トークンとされている。

 

自分が入れた文章のトークン数については、OpenAIが提供している下記WEBページ「Tokenizer」で調べることができる。

 

上記WEBページの「Tokenizer」で調べると、GPT-3.5およびGPT-4の場合、下記の図に示されているように、「原子力の社会的利用をめぐる推進論と批判論の歴史的展開」という26文字の日本語文で36トークンとなっている。
 なお下図の色分けは、「原子力の社会的利用をめ」までの部分は、漢字・ひらがなともに、1文字1トークンとなっているが、「ぐ」の部分はひらがな1文字で2トークンとなっていることを示している。

 

これに対して同語句の英訳であるHistorical Development of Arguments for and against Civilian/Non-Military Use of Nuclear powerという12words(94文字,Civilian/Non-Militaryも1word扱い)の英語文では、下記の図に示されているように、18トークンと、日本語の場合の約半分のトークン数となっている。
 なお下図の色分けは、前置詞の「of」、「for」、「against」、接続詞の「and」だけでなく、「Development」、「Arguments」、「Nuclear」、「Power」といった単語が1wordで1トークンとなっていること、および、「Historical」や「Civilian」といった形容詞語句が1wordで2トークンとなっていることを示している。

 

「原子力の社会的利用をめぐる推進論と批判論の歴史的展開」という日本語の語句は、GPT-3で48トークンであったが、GPT-3.5およびGPT-4では36トークンとなり、トークン消費量が25%も減少し、3/4となっている。こうしたこと、および、Open AIの発表を見ると、GPT-4oではGPT-3.5およびGPT-4よりもトークン消費量の減少が期待できる。しかしながら2024/6/12現在ではTokenizerは、coming soonとなっており利用ができない。

 

日本語文に関するトークン分解に関するより詳しい具体的事例に基づく説明としては、”Inquiry Regarding Token Counting in Japanese for GPT-3 API”2023年9月などが参考になる。

 

CRIMO voice(2024)「ChatGPTの文字数制限は1万字弱!無料・有料の違いや対処法を解説」2024/5/27によると、質問入力可能トークン数(日本語文字数)、および、最大回答トークン数(日本語文字数)の推定値は、無料利用可能なGPT-3.5で約16,000トークン(約10,000文字)、約3,000トークン(約2,048文字)、有料のGPT-4で約32,000トークン(約25,000文字)、約20,000トークン(約2万5,000文字)となっている。[有料のGPT-4の最大回答トークン数の約20,000トークンに対応する文字数が約2万5,000文字となっているのは、間違いではないかと思われるが、原文のママの引用とした]

 

上記のように、トークン消費量は日本語文よりも英文の方が少ないため、英語文で質問した方がより長い質問が可能となるとともに、より適切でより詳細な回答が一般的には生成される。

 
カテゴリー: AIに関する技術論的考察, トークン パーマリンク