MiniMaxのハイブリッド注意機構断念記事を再検討：DeepSeek V3.2とQwen3.5の長文脈注意機構が登場した今

名無しさん · 2025-11-19T01:27:17+09:00

Redditのr/LocalLLaMAで話題になったスレッド「Revisiting MiniMax's article on their decision to drop hybrid attention now that we have 2 OS models with efficient long context attention DeepSeek V3.2 and Qwen3.5-397B-A17B」の内容を紹介します。元記事はMiniMaxがハイブリッド注意機構をやめた理由についてですが、今やDeepSeek V3.2とQwen3.5-397B-A17Bという2つのオープンソースモデルが効率的な長文脈注意機構を実現しています。これにより、注意機構の設計選択が再評価されています。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rim2y2/revisiting_minimaxs_article_on_their_decision_to/

このトピックには21件の返信、7人の参加者があり、最後に名無しさんにより7ヶ月、 1週前に更新されました。

21件の返信を表示中（うち親返信7件）

投稿者

投稿
- 2025年11月19日 1:27 AM #68764 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで話題になったスレッド「Revisiting MiniMax’s article on their decision to drop hybrid attention now that we have 2 OS models with efficient long context attention DeepSeek V3.2 and Qwen3.5-397B-A17B」の内容を紹介します。元記事はMiniMaxがハイブリッド注意機構をやめた理由についてですが、今やDeepSeek V3.2とQwen3.5-397B-A17Bという2つのオープンソースモデルが効率的な長文脈注意機構を実現しています。これにより、注意機構の設計選択が再評価されています。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rim2y2/revisiting_minimaxs_article_on_their_decision_to/
- 2025年11月19日 1:28 AM #68765 返信
  
  名無しさん
  
  確かに、DeepSeek V3.2の長文脈性能はすごいね。でもMiniMaxの判断も当時は合理的だったのかも。
  - 2025年11月19日 1:36 AM #68767 返信
    
    名無しさん
    
    そうそう、当時はハイブリッド注意機構がオーバーヘッド大きかったって話だよね。今は手法が洗練された。
    - 2025年11月19日 1:43 AM #68768 返信
      
      名無しさん
      
      でもハイブリッド方式を完全に捨てるのは極端だったかも。今のモデルはまた違うアプローチだし。
- 2025年11月19日 1:31 AM #68766 返信
  
  名無しさん
  
  Qwen3.5の397Bパラメータはデカすぎてローカルで動かせないわ。実用性はDeepSeekの方が上じゃない？
- 2025年11月19日 1:45 AM #68769 返信
  
  名無しさん
  
  長文脈って実際どのくらい必要？普通のチャットなら8kトークンで十分じゃね？
  - 2025年11月19日 1:48 AM #68770 返信
    
    名無しさん
    
    コード生成とか論文読むときは128kとか欲しくなるよ。でもメモリ食うから現実的じゃない場合もある。
    - 2025年11月19日 1:54 AM #68771 返信
      
      名無しさん
      
      DeepSeek V3.2は128kでも効率的って言うけど、実際のベンチマークはどうなの？
      - 2025年11月19日 2:03 AM #68772 返信
        
        名無しさん
        
        RULERとかで結構いいスコア出てるよ。ただし計算コストはやっぱり高いみたい。
- 2025年11月19日 2:05 AM #68773 返信
  
  名無しさん
  
  MiniMaxの記事、読んだけど結構納得できる内容だった。でも今見ると技術の進歩早すぎて笑う。
  - 2025年11月19日 2:07 AM #68774 返信
    
    名無しさん
    
    あの記事で一番驚いたのは、訓練時の注意機構の選択が推論速度に与える影響の大きさだわ。
    - 2025年11月19日 2:11 AM #68775 返信
      
      名無しさん
      
      推論速度重視なら、今のDeepSeekの手法はかなりバランス取れてると思う。ただし量子化必須だけど。
- 2025年11月19日 2:18 AM #68776 返信
  
  名無しさん
  
  個人的にはQwen3.5の方が日本語性能高い気がするんだけど、どう思う？
  - 2025年11月19日 2:29 AM #68777 返信
    
    名無しさん
    
    日本語のベンチマークだと確かにQwenの方が上だけど、実際の会話ではDeepSeekも悪くないよ。
    - 2025年11月19日 2:31 AM #68778 返信
      
      名無しさん
      
      Qwen3.5のA17Bは37Bアクティブでしょ？それならローカルでもそこそこ動くんじゃない？
      - 2025年11月19日 2:34 AM #68779 返信
        
        名無しさん
        
        いや、MoEだからメモリは397B分いるんだよ。VRAM24GBじゃ無理。
- 2025年11月19日 2:39 AM #68780 返信
  
  名無しさん
  
  ハイブリッド注意機構をやめた理由として、スケーリングの限界って話もあったね。今のモデルはどう対処してるんだろ？
  - 2025年11月19日 2:46 AM #68781 返信
    
    名無しさん
    
    DeepSeekはmulti-head latent attentionってのを使ってるらしい。詳しくは知らんけど。
    - 2025年11月19日 2:48 AM #68782 返信
      
      名無しさん
      
      RoPEベースの拡張みたいなもんだよ。論文読んだら結構シンプルだった。
- 2025年11月19日 2:52 AM #68783 返信
  
  名無しさん
  
  結局、長文脈注意機構ってまだ発展途上だよね。MiniMaxの判断も間違いじゃなかったと思う。
  - 2025年11月19日 2:58 AM #68784 返信
    
    名無しさん
    
    でも今のモデル見てると、あの時点でハイブリッドを完全に捨てるのは早計だったかも。技術は変わるし。
    - 2025年11月19日 3:08 AM #68785 返信
      
      名無しさん
      
      今後のオープンソースモデルの進化が楽しみだね。特に10万トークン超えの実用的なモデルが出てくるかどうか。
投稿者

投稿

21件の返信を表示中（うち親返信7件）

返信先: MiniMaxのハイブリッド注意機構断念記事を再検討：DeepSeek V3.2とQwen3.5の長文脈注意機構が登場した今

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

関連するAIトピック