ナンバーワンソリューションズの堂本です。
今回は、生成AIの中でも、特に注目すべき内容を3つに絞って紹介していきます。
日々、様々な生成AIのツールのリリースや技術の開発が行われています。
その中でも、今回ははずせない内容を3つ紹介していきます。
- GPT-5に関するサム・アルトマンの新情報 彼はGPT-5がGPT-4から大幅にアップグレードされることを基本的に認めている。アルトマンはGPT-5の性能に自信を持ち、警告を発している
- Grok-1がリリースされた今、LLMでMoE(Mixture-of-Experts)レイヤーがどのように機能するかを学ぶ絶好の機会
- グーグルがVLOGGERを発表した!VLOGGERは、人物の画像1枚と音声があれば、様々な長さのしゃべる人間のビデオを生成することができる。
それぞれ紹介していきます。
【AI最前線】OpenAIのCEO、GPT-5の”破壊的進化”と人工知能への傾倒を示唆
OpenAI創業者であるSam Altman氏が、次期言語モデルGPT-5の驚異的な性能向上を予告し、ビジネス界に警鐘を鳴らしました。
【GPT-5は”破壊的イノベーション”に】
Altman氏は昨日の記者会見で、「GPT-5は高度な推論能力で飛躍的な進歩を遂げる」と断言。GPT-4から5への進化の度合いを軽視し、旧態依然のビジネスモデルに固執していれば、次世代AIに”押しつぶされる”可能性があると警告しました。
【AGI実現に全力を注ぐ】
Altman氏はOpenAIの究極の目標は”人間を超える人工般化知能(AGI)”の構築にあり、十分な計算リソースが確保できれば、AGIの実現は必至と自信をみなぎらせています。最近では、7兆円を超える資金調達の噂も浮上する中で、同氏は世界的な”AIインフラ整備”にも熱心に取り組んでいます。
AIの発展スピードは加速する一方です。破壊的イノベーションに怯むことなく、果敢に挑戦し続けることが企業に求められます。AI最前線から目が離せません。
Grok-1の革新的アーキテクチャ
最新の大規模言語モデルGrok-1で採用されている、Mixture-of-Experts(MoE)アーキテクチャについて解説します。
【Grok-1の概要】
Grok-1は3,140億ものパラメータを持つ大規模モデルですが、MoEアーキテクチャにより実行時の計算コストを大幅に削減しています。
MoEでは、各層の完全連結層が複数の専門家ネットワーク(エキスパート)に置き換えられます。入力トークンごとに、ルーター機構によりエキスパートが選別され、選ばれたエキスパートのみが計算に使用されます。
【Grok-1の詳細】
Grok-1の各層にはMoE層が使われています
1つのMoE層内に8つのエキスパートがあります
入力トークンごとに、8つのエキスパートのうち上位2つだけが選択されます
選ばれた2つのエキスパートのみが計算に使用され、残り6つは無視されます
このように、全体では3,140億ものパラメータを持ちつつ、実際の計算量は総パラメータ数の25%に抑えられています
MoEにより、大規模なモデルの表現力を維持しながら、同時に現実的な計算資源で運用できるようになりました。今後のAI開発に大きなインパクトを与えるアーキテクチャと言えるでしょう。
革新的な動画生成AI「Vlogger」登場!
テクノロジー業界に新たな衝撃が走った。GoogleがAI技術「Vlogger」を発表しました。
Vloggerは、たった1枚の人物画像と音声ファイルから、リアルな話す人物の動画を生成できる機能を持ちます。
従来の技術とは一歩先を行き、特別な個人データの学習や面倒な前処理は一切不要です。上半身が見える動画や、様々な人物の個性が反映された動画も簡単に作成できます。
Vloggerの仕組みは2段階のディープラーニングモデルで構成される。
第1段階では、入力したオーディオ波形から体動のコントロール情報を生成する。第2段階では、その情報と入力画像を使って実際の動画フレームを生成します。
生成された動画はリアリスティックで多様な動きを実現できます。
Vloggerは、豊かな手のジェスチャーや、さまざまな人物、声、言語に対応し、多様な身体や手の動きを実現できます。
生成した動画の編集機能も備えている
動画の編集機能も兼ね備えています。例えば、テキストプロンプトを通じて人物の表情を変えたり、目を閉じさせたりすることが可能です。そして、AIが変更部分を巧みに塗り潰し、元の画像と自然に融合させるのです。
Googleによると、Vloggerは画質、時間的一貫性、個人識別の維持など、あらゆる面で既存の方法を凌駕しています。また、大規模データによる学習にも関わらず、多様性と公平性を保つことができる点も大きな強みです。
これにより、顔や身体の高度な表現を通じて、可変長の高品質な動画を簡単にコントロールできます。前作とは異なり、特定の人物ごとにトレーニングする必要がなく、顔検出や切り抜きに依存せず、完全な画像を生成し、さまざまなシナリオに適応できます。
まとめ
今回は、数ある生成AIの情報の中から、GPT-5、Grok-1、Vloggerについての内容を紹介しました。
生成AIの技術は日々進化しています。いつの間にか、現在の技術が過去の産物となる可能性もあります。
最新情報を収集しながら、ビジネスでどのように活かす事ができるかを発信していきます。