【2026年4月総括】ローカルLLM史上の豊作月。Hermes Agent、Qwen3.6長文運用、AMD新ハード、TwVPまで一気読み


2026年4月は、ローカルLLM界隈にとってまさに”激動の一ヶ月”でした。

自己改善型エージェントのAMA開催、Gemma vs Qwenのリアルタスク対決、AMD製ローカルAI専用ボックスの登場、RTX 3090一枚で20万トークン超えを達成した報告、DeepSeekの視覚推論フレームワーク発表——。Reddit r/LocalLLaMA や r/MachineLearning に毎日のように投稿される情報を追いかけていると、「ローカルでどこまでできるか」の定義が1ヶ月前と別物になっているのに気づきます。

本記事では、この4月に話題になったトピックを整理・解説します。

1. Nous Research AMA — Hermes Agentの今と未来

Reddit スレッド: AMA Announcement: Nous Research, The Opensource Lab Behind Hermes Agent
AMA 本編: AMA with Nous Research — Ask Us Anything!
コミュニティレポート: The State of Hermes Agent — April 2026

オープンソースのLLM開発ラボ Nous Research が、4月29日(水)8:00〜11:00 PSTにr/LocalLLaMAでAMA(Ask Me Anything)を開催しました。登壇したのは共同創業者兼CTO u/emozillaを含むチームで、自律型AIエージェント Hermes Agent に関する質疑が展開されました。

Hermes Agent の主な特徴:

  • 自己改善ループ:難しいタスクを解くたびにスキルドキュメントを自動生成し、次回同種タスクで活用。あるユーザーは「2〜3週間使い続けると明らかに”育っている”感覚がある」と報告。
  • モデル非依存:Nous Research独自モデルだけでなく、OpenRouterやvLLMエンドポイントへ即座に切り替え可能。
  • 永続メモリ:Honcho、Mem0、Supermemoryなど8種類の外部メモリプロバイダに対応。
  • コミュニティエコシステム:GitHubスター57,000超、17のコミュニティスキルライブラリが整備済み。

実践ポイント: AMAの中で「95〜99%の開発はHermes Agent自身を使って行っている」という発言が最も注目を集めました。自己改善の実用性を開発チーム自身が証明しているという点で、他のエージェントフレームワークと一線を画しています。

2. Qwen 3.6 27B vs Gemma 4 31B — パックマンゲームで見えた「ベンチ外の実力差」

Reddit スレッド: Qwen 3.6 27B vs Gemma 4 31B – making Packman game!

「Pac-Man(パックマン)ゲームをゼロから作らせる」というユニークなタスクで、2大オープンソースモデルが比較されました。

Qwen 3.6 27BGemma 4 31B
速度32 tok/s27 tok/s
生成時間18分04秒3分51秒
生成トークン数33,9466,209
ゲーム品質視覚的なこだわりは高いゲームロジック・壁衝突・パーティクルの完成度が高い

結論として「このタスクではGemma 4 31Bが圧勝」。Qwenは創造性と視覚的な凝り具合を見せた一方でトークン量が膨大になりすぎた。Gemmaは簡潔かつ論理的な構造で、完成品のゲームとしての完成度が高いという評価でした。

実践ポイント: コーディング系ベンチマークではQwen3.6-27Bが優位なデータも多い一方、「タスクの複雑さに応じた出力量の制御」という観点ではGemma 4が光ります。「ベンチ最強=自分のユースケース最適」ではないことを改めて示した好例です。

3. AMD Ryzen AI Max+ 395 ボックス型PC — ローカルAI向けハードの本命が現れた

Reddit スレッド: AMD in-house ryzen 395 box coming in June
AMD 公式技術ブログ: How to Run a One Trillion Parameter LLM Locally — AMD

AMD AI Dev Dayで、Ryzen AI Max+ 395(128GB) を搭載したボックス型PCが実機展示されました。エンジニアへの確認によると「395に128GBを積んだ標準構成で特別な改造はない」とのこと。発売は6月予定と言及されましたが、価格・正式名称は現時点で未公開です。

このプラットフォームのポテンシャルはすでに公式に実証されています。AMDの技術ブログでは、Framework Desktop(Ryzen AI Max+ 395 / 128GB)を4台クラスターにして、1兆パラメータクラスの Kimi K2.5 をローカル推論する事例が紹介されています。4ノードを5Gbpsイーサネットで接続し、llama.cpp RPCとROCmで動かすというセットアップです。

なぜ重要か:

  • UMA(統合メモリ)により、従来の「VRAM容量の壁」を実質的に撤廃
  • 1ノードでも最大96GBをVRAMとして割り当て可能
  • ROCmエコシステムの成熟とともに、NVIDIA一強への現実的な対抗馬へ

個人・スタートアップレベルでの大規模ローカルLLM運用が、現実の選択肢になりつつあります。

4. RTX 3090一枚で218Kコンテキスト+50〜66 TPS、PN12修正が変えたエージェントの現実解

Reddit スレッド: Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

24GB VRAMのRTX 3090一枚で、Qwen3.6-27Bを 218Kトークンコンテキスト/50〜66 TPS で安定動作させることに成功した実験報告です。

達成スペック:

  • テキスト:約218K context、50/66 TPS(text / narrative+code)
  • ビジョン併用:約198K context、51/68 TPS
  • ツールコール出力25K tokensでもOOM(メモリ不足)なし

PN12修正とは何か: GenesisパッチのPN12に起因するツールコール時のクラッシュ・OOM問題を修正したもの。長い中間推論を伴うツール使用を繰り返しても安定動作するようになりました。

主要な起動フラグ(抜粋):

text--gpu-memory-utilization 0.97
--enable-chunked-prefill
--enable-prefix-caching
--reasoning-parser qwen3
--tool-call-parser qwen3_coder

さらにMTP(Multi-Token Prediction)によるスペキュラティブデコード(3トークン先読み)も有効化されています。

実践ポイント: コンシューマーGPU1枚で「長文コンテキスト+安定したツール呼び出し+高速推論」を同時実現できるフロントラインが確実に引き上がっています。エージェント構築を検討しているエンジニアは必見の設定例です。

5. DeepSeek「Thinking-with-Visual-Primitives (TwVP)」視覚CoTの新しい形

Reddit スレッド: DeepSeek released ‘Thinking-with-Visual-Primitives’ framework
X(旧Twitter)解説: @teortaxesTex によるポスト

DeepSeekが北京大学・清華大学と共同で発表したマルチモーダル推論フレームワーク TwVP(Thinking with Visual Primitives) が、コミュニティで大きな注目を集めました。

核心のアイデア: 従来のマルチモーダルモデルは「画像の左にある赤いオブジェクト」のような曖昧な自然言語でCoT(思考の連鎖)を記述していました。TwVPでは、点座標やバウンディングボックスを”思考の最小単位(Visual Primitives)”として推論トークン列に直接埋め込むことで、空間認識精度を大幅に向上させています。

これにより得られる主な利点は2つ。「モデルが画像のどの位置を見ながら考えているか」が明示されることによる 推論の解釈性向上と、曖昧な言語表現に依存しないことによる アテンションドリフト(注意の拡散)の防止です。

期待されるユースケース: 複雑なグラフ・図表の読解、UI操作エージェント(スクリーンショットから座標を特定して操作)、ロボティクスの視覚フィードバック制御など、空間的な正確さが求められるタスク全般。

6. 学術界の構造問題:ICMLと中国系ネットワーク疑惑

Reddit(中国ネットワーク疑惑): Chinese nexus/network in A* conferences rejecting non chinese papers(r/MachineLearning)
Reddit(ICML高評価論文却下): Seems ICML is rejecting MANY unanimous positively rated papers
ICML公式ブログ: Announcing the ICML 2026 Workshops — ICML Blog

r/MachineLearningでは、AIカンファレンスの採択プロセスへの疑念が2つの角度から議論されています。

一つは「主要なA*ランクカンファレンスで、中国系研究者ネットワークが非中国系論文を不当に低評価している可能性がある」という議論。もう一つは「ICML 2026でレビュアー全員から満場一致の高評価を得た論文が多数却下されている」という報告です。

実際にICML 2026では、AIレビュー規約違反(相互レビューなど)を理由に497本がデスクリジェクトされたことが公式ブログで確認されています。

実践ポイント: 「論文採択=技術的価値の唯一の判断基準」ではないことをあらためて示しています。arXivへのプレプリント公開やGitHubでのコミュニティ形成が、技術の普及・評価において主役になりつつある流れとも読めます。

7. Variational Joint Embedding (VJE) — TMLR 2026採択の表現学習論文

arXiv 論文: Joint Embedding Variational Bayes(arXiv:2602.05639)
OpenReview(TMLR): Joint Embedding Variational Bayes — OpenReview

TMLR(Transactions on Machine Learning Research)2026に採択された Variational Joint Embedding(VJE) は、自己教師あり学習に変分ベイズを組み合わせた新しいフレームワークです。

従来の自己教師あり学習は、コントラスト損失や再構成誤差に依存するのが主流でした。VJEはこれらを使わず、潜在変数に確率的な不確実性を持たせることで、ノイズや欠損データに強い表現学習を実現します。ImageNet・CIFAR・STL-10での評価で既存の非コントラスト手法と同等の性能を示しつつ、異常検知タスクでは尤度ベース評価により既存手法を上回る結果を報告しています。

マルチモーダル・転移学習・出力の信頼度推定などへの応用が期待される、注目の理論的貢献です。

(※本論文の正式略称は VJE。「JEVB」という表記は一般には使われていないため注意)

まとめ

2026年4月のローカルLLM界隈を一言で表すなら「制約の突破が連続した月」です。

  • エージェントは自己改善し(Hermes Agent)
  • ハードウェアはVRAMの壁を実質的に取り払い(AMD Ryzen AI Max+ 395)
  • 単一GPUで長文コンテキスト+ツール呼び出しが安定動作し(RTX 3090 + Qwen3.6)
  • 視覚推論のアーキテクチャが次のフェーズに進んだ(TwVP)

「ローカルLLMはクラウドの劣化版」という認識は、2026年春の時点でもはや時代遅れです。次の1ヶ月で何が起きるか、引き続き追っていきます。

最新記事

人気の記事