ChatGPT4oの新規性
OpenAI(2024) “Hello GPT-4o”,2024/5/13によれば、GPT-4oの最後の「o」の文字は、「すべて」を意味する接頭辞omniの略称である。これはGPT-4oで実装された新しいインターフェースにおいて、”it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. ”[ChatGPT4oが、テキスト、音声、静止画像、動画像のあらゆる組み合わせを入力として受け付け、テキスト、音声、静止画像のあらゆる組み合わせを出力として生成する。]ことを象徴的に示すものである。
GPT-4oでは、人々の感情や意図をより深く理解した感情表現が可能となり、テキストによる対話だけでなく、音声による対話でも、これまでよりもさらに自然な会話ができるようになっている。実際、下記のAI音声サンプルやOpenAIのデモンストレーションに示されているように、リアルな人間の発話とまったく区別がつかない水準に達している。
GPT-4oでは、人々の感情や意図をより深く理解した感情表現が可能となり、テキストによる対話だけでなく、音声による対話でも、これまでよりもさらに自然な会話ができるようになっている。実際、下記のAI音声サンプルやOpenAIのデモンストレーションに示されているように、リアルな人間の発話とまったく区別がつかない水準に達している。
「ChatGPT4oのどこが優れているのかを詳しく教えてください。」という日本語プロンプト文に対するChatGPTの回答のAI音声
「GPT4oは、GPT4よりもどこがどのように優れているのかを詳しく教えてください。」という日本語プロンプト文に対するChatGPToの回答のAI音声
Can you elaborate on what makes ChatGPT4o so good?という英語プロンプト文に対するChatGPT4oの回答のAI音声
ChatGPT4o関連ニュース
- OpenAI(2024) “Hello GPT-4o”,2024/5/13
- OpenAI(2024) ”Introducing GPT-4o” 2024/5/13
https://www.youtube.com/watch?v=DQacCB9tDawOPENAIによるChatGPT4oに関する紹介動画。応答速度の向上、音声合成能力のさらなる向上とともに、マイクによるAI音声入力を可能にすることで、リアルな人間との対話に近いサービスを提供している。OpenAIの音声合成能力は以前からかなり高かったが、イントネーション、間合い、感情表現に関する能力がさらに高められており、リアルな人間による発話との区別が困難なレベルにまで達している。このことについては、本サイトにおける「ChatGPT3.5 – 空想力に富んだ面白い回答、かつ、回答内容に即した読み上げ音声の自動生成」や、生成AIを利用した「日本語テキストの英語化」(その3)などの記事にアップしたChatGPTの音声ファイルでも実感できる。なお、OpenAIによるデモンストレーションは、11分52秒の箇所辺りから見ることができる。 - GPT-4oに関するサム・アルトマン(Sam Altman)の2024/5/13付けブログ投稿
https://blog.samaltman.com/gpt-4oサム・アルトマンは、本ブログにおいて2つのことを強調している。
第1点目は、「ChatGPTの最新モデルChatGPT4oを有料サービスとしてだけではなく、無料サービスとしても提供する」としたことである。すなわち、アルトマンは本ブログの冒頭において” a key part of our mission is to put very capable AI tools in the hands of people for free (or at a great price). I am very proud that we’ve made the best model in the world available for free in ChatGPT, without ads or anything like that. ”[私たちのミッションの重要な部分は、非常に有能なAIツールを無料で(あるいはかなり割安な価格で)人々の手に届けることです。世界最高のChatGPTモデルを、広告などなしに無料で利用可能としたことを私はとても誇りに思っています。]と述べている。
第2点目は、「ChatGPTの最新モデルChatGPT4oの革新的インターフェース」の画期性である。ChatGPT4oは、マイクによる音声入力、および、ビデオカメラによる動画入力に対応したインターフェースに対応した。これまでもアップルのSiriやアマゾンのAlexaのように、人間との音声的コミュニケーションをおこなうAIは存在した。ChatGPT4oはそうした機能をさらに高度化したに止まらず、ビデオカメラで撮影している画像にリアルタイムに対応した対話機能を備えたのである。
これまでのAIは、人間の五感の内でいわば「聴覚」機能しか有していなかったのであるが、ChatGPT4oはそれに加えて「視覚」機能も有するようになったのである。人間の身体で言えば、これまでは「耳」と「口」しか有していなかったのに対して、ChatGPT4oは「眼」も備わったことになる。
こうした技術革新とともに、それ以前のやりとりを踏まえた回答を生成するメモリ機能、テキストや音声などのデータ解析・回答生成機能、応答速度に関するさらなる性能向上もあり、SF映画のスタートレックのホロデッキに登場するAI人物や、映画『her/世界でひとつの彼女』のサマンサなどと同じように、感情表現豊かで人間らしい自然な音声コミュニケーションが可能となっている。
アルトマンは”the new voice (and video) mode is the best computer interface I’ve ever used. It feels like AI from the movies; and it’s still a bit surprising to me that it’s real.”[(ChatGPT4oの)新しい音声モードおよびビデオモードは、私がこれまで使った中で最高のコンピューター・インターフェースだ。まるで映画に出てくるAIのようで、それが現実化したことにまだ少し驚いている。]と述べているが、まさにその通りである。
- ChatGPT日本「チャットGPT – 4o (Omni)」
https://chatgptjapan.org/chatgpt-powered-by-gpt-4o/chatgptjapan.orgnによるGPT-4oに関する説明。本WEBページによると、GPT-4oは「平均320ミリ秒、232ミリ秒の音声入力に応答することができる」など音声、視覚、テキストをリアルタイムで推論することができる。またテキスト、画像、音声といった情報を統合的に取り扱うことができるので、ユーザーはGPT-4oに画像をアップロードしたり、音声で話しかけるといった形でのインターフェースを実現している。そのためGPT-4と写真・動画に基づく会話が可能となっている。
すなわちGPT-4oは、「トーン、背景雑音、複数の話者のダイナミクスを無視して」いたそれ以前の推論エンジンとは異なり、感情を込めた話し方でのリアルタイムでの応答処理が可能となっている。「(Whisper、GPT、TTSをパイプラインで組み合わせたGPT-4o以前のOpenAIシステムの)Voiceモードの平均待ち時間はGPT-3.5で2.8秒、GPT-4で5.4秒」とかなりの応答遅延があったが、GPT-4oの応答速度はGPT-3.5の9倍、GPT-4の17倍も高速であり、わずか0.32秒という平均待ち時間を達成している。同WEBページによると、人間の平均応答時間は0.21秒であるから、ほぼ人間並みの応答速度である。また同WEBページによるベンチマークテストの結果は下記の通りであり、GPT-4oは、旧バージョンのGPT-4Turboはもちろんのこと、競合のGemini 1.0 Ultra、Gemini 1.5 Pro、Claude Opusを上回る性能となっている。
Eval Sets GPT-4o GPT-4T
2024-04-09Gemini 1.0
UltraGemini 1.5
ProClaude
OpusMMMU(%) (val) 69.1 63.1 59.4 58.5 59.4 MathVista (%) (testmini) 63.8 58.1 53.0 52.1 50.5 AI2D (%) (test) 94.2 89.4 79.5 80.3 88.1 ChartQA (%) (test) 85.7 78.1 80.8 81.3 80.8 DocVQA (%) (test) 92.8 87.2 90.9 86.5 89.3 ActivityNet (%) (test) 61.9 59.5 52.2 56.7 EgoSchema (%) (test) 72.2 63.9 61.5 63.2 - Knight、W.(2024) “OpenAI’s GPT-4o Model Gives ChatGPT a Snappy, Flirty Upgrade” wired.com, 2024/5/14
https://www.wired.com/story/openai-gpt-4o-model-gives-chatgpt-a-snappy-flirty-upgrade/上記WEBページのDaisuke Takimotoによる日本語訳が下記にある。
”ChatGPTが、もっと“人間”らしく進化。OpenAIの最新モデル「GPT-4o」の実力” wired.jp, 2024/5/14
https://wired.jp/article/openai-gpt-4o-model-gives-chatgpt-a-snappy-flirty-upgrade/ - Barrett, B.(2024)”I Am Once Again Asking Our Tech Overlords to Watch the Whole Movie” wired.com, 2024/5/14
https://www.wired.com/story/openai-gpt-4o-chatgpt-artificial-intelligence-her-movie/GPT-4oに関するサム・アルトマン(Sam Altman)の2024/5/13付けブログ投稿を受けて書かれたブログ。
本ブログにおいて著者のBrian Barret(Wiredニュースのexecutive editor)は、”To be honest, it felt like AI from one movie in particular: Her, the 2013 Spike Jonze sci-fi film that correctly foresaw a future in which AI relationships could handily substitute for human connection—well, it felt like and sounded like. In the demo, ChatGPT’s voice is remarkably similar to that of Her star Scarlett Johansson. In case there was any doubt as to the reference point, Altman tweeted “her”—just the one word—shortly after the event.”[正直なところ、ある映画のAIのように感じた: 2013年に公開されたスパイク・ジョーンズ監督のSF映画『her/世界でひとつの彼女』は、AIが人間のつながりを代替する未来を正確に予見していた。デモでは、ChatGPTの声は『her/世界でひとつの彼女』の主演女優スカーレット・ヨハンソンの声に酷似している。参考にしたのがスカーレット・ヨハンソンなのかどうか疑わしいかもしれないが、アルトマンはデモの直後に「her」とツイートしている。]と述べて、OPEN AIはChatGPT4oのデモンストレーションに際して映画『her/世界でひとつの彼女』のサマンサを強く意識していたことを指摘している。 - 「GPT-4o」はなんて読む? 女性の声はスカーレット・ヨハンソン(her)似?」ITmedia、2024年05月14日
https://www.itmedia.co.jp/news/articles/2405/14/news084.html - 「「GPT-4o」発表 頭一つ抜けた性能をChatGPT無料版にも展開 音声と視覚を備えて“自然な対話”可能に【追記済】」ITmedia、2024年05月14日
https://www.itmedia.co.jp/aiplus/articles/2405/14/news081.html - Shimazu,S.(2024)「新ChatGPTは「感情も理解」、自然な振る舞い可能に OpenAIの次の一手」『日経ビジネス』2024.5.14
https://business.nikkei.com/atcl/gen/19/00511/051400030/ - 日テレNEWS(2024)「【“脅威の進化”AIで何が?】GPT-4o、Veo… 専門家「命令文ひとつであり得ない映像も」 フェイクへの対応は?【#みんなのギモン】」2024/5/16
https://www.youtube.com/watch?v=O7SGdIMks_UOpenAIのChatGPT4o、GoogleのVeoなどを取り上げながら、生成AIの活用法、問題点などをわかりやすく紹介している。
当該ページ、および、下記WEBページに内容紹介がある。https://news.ntv.co.jp/category/economy/2a20ab40bc104a2fb896afba53d16193
https://openai.com/index/hello-gpt-4o/
OpenAIによるChatGPT4oに関するプレスリリース。デモンストレーションとしては、下記の紹介動画の方が優れている。なお下記の性能比較図によれば、ChatGPT4oは、Claude 3 Opuesよりも、全項目でほぼ同じかそれを上回る性能を示している。GPT-4T(GPT4 Turbo)との比較では、DRCPだけGPT4oが下回るが、他では上回っている。