GPT-4とGPT-4oの６つの違いとは - ナンバーワンソリューションズ

OpenAIがGPT-4oを発表しました。GPT-4よりも大きく進化したところが多く出ています。すでにXでは、GPT-4oの話題で溢れかえっています。

今回は、GPT-4oがGPT-4から具体的にどのように進化しているのか、内容を見ていこうと思います。

動画で解説

1分で読める要約

OpenAIが新たにGPT-4oを発表
GPT-4oは全方位型のLLM（Omnimodel）
テキスト以外に音声、画像、動画も処理可能
進化点：
- 画像解析の精度向上
- OCRの精度向上
- シミュレーション能力の強化
- 対応能力の向上
- 反応速度の向上
- 音声生成が可能
マルチモーダルAIとして高いパフォーマンスを発揮
ビジネスや日常生活での応用が期待される

本文は以下から読んでください

GPT-4oとは全方位型のLLM

OpenAIが新しいGPTを発表しました。

その名も「GPT-4o」

「o」はOmnimodel（オムニモデル）の略で意味は、全方位型モデル

すなわち、テキスト以外の音声、画像、動画の情報を処理できるということです。

名実ともにマルチモーダルとなったGPT-4oです。

では、GPT-4とGPT-4oはどのような違いがあるのかを詳しく見ていきます

GPT-4とGPT-4oはどのような違いがあるのか

すでに、GPT-4oを検証している方々が、GPT-4とどのような違いがあるかを出してきています。

今回は次の観点でGPT-4とGPT-4oの違いを見ていこうと思います。

画像解析の精度

OCRの精度が向上

シミュレーションができる

対応能力の向上

反応速度

音声の作成

画像解析の精度

紙に書いたデザインを読み取りHTMLに書き起こしている

GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。

ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。

つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い#GPT4o pic.twitter.com/3XHMFg3yye
— kmizu (@kmizu) May 14, 2024

画像を送っただけで商品名を当てる

GPT-4o凄いな、速いだけじゃなくて賢い。
1枚目 GPT-4
2枚目 GPT-4o
なんで分かるんだよ。まじかよ pic.twitter.com/2mJsujYk9c
— AIセバスちゃん (@SebasAi) May 14, 2024

GPT-4oがあれば、盲目の方でも街を歩ける

感動するし凄すぎないこれ…
盲目の方がGPT-4oを使っていて街を歩く動画

字幕つけたから見てみんな… pic.twitter.com/1DingUcUa3
— woodstock.club | SNS型投資 (@woodstockclub) May 14, 2024

こちらも盲目の方がGPT-4oをまちなかで試しているところ

GPT-4oは秒単位で現実世界を認知できる

この動画では、タクシーにサインを出すちょうどいいタイミングでユーザーに合図を出している。

10秒からでもいいから見て欲しい pic.twitter.com/OOuBBz4RBd
— 大佐/Taisa (@wasedaAI_taisa) May 14, 2024

マンガの構成も読み取ることができるなんて天才！

GPT-4o マジだ、相当複雑にも関わらず相当高いレベルで漫画を読解できててすごい
雑なプロンプトだから一部セリフが抜けちゃってるけど、それよりも漫画から人物の状況をほぼ完璧に理解できていることの方に驚いた　エッグいな…… pic.twitter.com/J59zf55GI8
— Torishima / INTP (@izutorishima) May 13, 2024

画像認識に関しては、GPT-4oの精度が格段に上がっていますね

特に盲目の方でも、GPT-4oでまちなかを歩けるのはすごい

OCRの精度が向上

画像にウニ、質問でイカですか？と質問したところ・・・

これは実用性高い

左:gpt-4o 右:gpt-4 pic.twitter.com/TSuorpLypY
— でょ (@Deyoyoyo) May 14, 2024

カオスマップもGPT-4oなら簡単に書き起こせる

GPT-4o、OCR性能もえぐい‥‥この人間でも認識困難なAIカオスマップの内容を永遠に吐き出してくる pic.twitter.com/0DumgrPYFv
— 石川陽太 Yota Ishikawa (@ytiskw) May 13, 2024

人の代わりに、GPT-4oが読書することも

GPT-4o、日本語のOCR精度が爆発的に向上してて、本のページを送ると図版のレイアウトも加味した上で完璧な書き起こしをしてくれる！

自分の読書スタイルは本当は紙が好きだけど、Notionにまとめること考えるとKindleの方が便利で一長一短…という悩みがあったんだけど、これで完全に解決した🙌 pic.twitter.com/JWcatQ7T6r
— KAJI | 梶谷健人 / 新刊「生成AI時代を勝ち抜く事業・組織のつくり方」発売！ (@kajikent) May 14, 2024

GPT-4o、日本語のOCR精度が爆発的に向上していますね。カオスマップを読み取れたり、書籍を読み取れるのはすごいです

シミュレーションができる

マジック・ザ・ギャザリングもできる

GPT-4o、マジック:ザ・ギャザリングできるんじゃねという話から試しに雑設定で遊び始めたところ、マジでシミュレーションできて笑ってる pic.twitter.com/DgPR9X1XNt
— あるふ (@alfredplpl) May 14, 2024

日本語の読み取りは完璧、自分だけの秘書になる？

GPT4o、マルチモーダルがむっちゃ強化されてる。日本語も完璧いけるし、もう人間様が夜なべして開示資料を読む必要もなくなって、「今日TDnetに出た資料ぜんぶ読んで見所のあるやつピックアップしておいて」って言えば済むようになるのでは…… pic.twitter.com/C4Yu1FkROy
— 駄犬 (@daken_in_market) May 14, 2024

シミュレーションができるのは、すごいですね

対応能力の向上

人の代わりにAIが家庭教師に

iPadの画面をGPT-4oにシェアしながらリアルタイムに生徒がGPT-4oから数学を教えてもらうデモ。

拙著でも「近い未来に全ての学生・学習者に無限の忍耐力と知識を持った家庭教師・パーソナルトレーナーがつく」と書いていましたが、もう実現しましたね。 pic.twitter.com/JBIrECEKBT
— KAJI | 梶谷健人 / 新刊「生成AI時代を勝ち抜く事業・組織のつくり方」発売！ (@kajikent) May 14, 2024

人と話しているようなAI

GPT-4o「(カメラ映像見る限り)何かの発表ぽいね」
OpenAI社員「実は、"君"を発表しているんだよ」

というやり取りのあと、「え、アタシ!?!?」と驚き照れつつリアクション返してるの、本当に映画「Her」のレベルにAIが到達した感すごい。 pic.twitter.com/ZOkF3tJ2Bj
— KAJI | 梶谷健人 / 新刊「生成AI時代を勝ち抜く事業・組織のつくり方」発売！ (@kajikent) May 14, 2024

GPT-4oがコンサルタントにもなれる

GPT-4oの「SNS運用アドバイス」が有益すぎる
ㅤ
超速で、入力データを元にした分かりやすいグラフや詳細な分析をしてくれる…👀
ㅤ
おすすめのプロンプト：
"プロのSNSコンサルとして、この人のデータを具体的に分析し、視覚化してください。
その上で、機知に富んだ運用アドバイスをしてください。" pic.twitter.com/VY3fVqinyz
— すぐる | ChatGPTガチ勢 𝕏 (@SuguruKun_ai) May 14, 2024

ㅤ

人と同じようなことがAIでも実現できることが証明されましたね。近い内にすべてAIに変わるのでは

反応速度

GPTの反応速度は格段に上がっている

GPT-4o, 反応が大幅に早くなったので、Cloudで動かしているインスタンスに100名以上の学生さんがリクエストしても、最大5インスタンスで処理できる。以前は数倍必要だった。 pic.twitter.com/TguWjKKqVa
— やのせん@VR/メタバース教育 (@yanosen_jp) May 14, 2024

音声の作成

実は音の生成もできます

いやエグいエグいエグい。

[ GPT-4o ] にダメもとで
「Kickとスネアの音を生成して」
って無茶振りしてみたら

余裕の表情で出してきたんだけどwwww
そんな発表してましたっけ…？ pic.twitter.com/Vmh5TbHVtd
— りょうちけ🦋AI×SNSの教科書📕 (@ryo_kun0811) May 14, 2024

対応できないところもある

6つの性能が向上しましたが、できていないところも

Webサイトの読み取りが苦手

Chat GPT-4oがすごいというので、ノートPCのスペック比較表を作らせてみたところ、間違いだらけで笑えない。できるだけ詳細にと言ったのに、サイズもバッテリー駆動時間も抜けてるし。対象の資料をURLで直接指定したのにまともに読み込めないなんて、一体どんな仕事なら任せられるんだ…？ pic.twitter.com/KkSNJ0CkWz
— フラとこ (@fratoko) May 14, 2024

動画の解析が苦手

【悲報：GPT-4oにも限界があった。】

今回の26分ほどのGPT-4oの初回動画を読み込ませて要約を依頼したところ、GPT-4oでは上手く要約ができなかった。

Gemini 1.5 Proだとほぼ完璧に動画解析ができた。

やはりマルチモーダルはまだGeminiが強い。

全知全能ではないので、GPT-4oの崇め過ぎには注意。… pic.twitter.com/TvBkqHAiVN
— チャエン | 重要AIニュースを毎日発信⚡️ (@masahirochaen) May 14, 2024

まとめ

GPT-4oの機能の全貌はまだ解明されていませんが、GPT-4よりも格段に性能が上がっています。

特に画像解析、OCRの性能や対応能力は段違い

AIさえあれば、人はいらないと思えるような性能です。

このような生成AIを使いこなし、新しいビジネスを創造することが問われてきますね。