MiniMaxのハイブリッド注意機構断念記事を再検討:DeepSeek V3.2とQwen3.5の長文脈注意機構が登場した今

掲示板 フォーラム AI MiniMaxのハイブリッド注意機構断念記事を再検討:DeepSeek V3.2とQwen3.5の長文脈注意機構が登場した今

  • このトピックには21件の返信、7人の参加者があり、最後に名無しさんにより7ヶ月、 1週前に更新されました。
21件の返信を表示中(うち親返信7件)
  • 投稿者
    投稿
    • #68764 返信
      名無しさん
      Redditのr/LocalLLaMAで話題になったスレッド「Revisiting MiniMax’s article on their decision to drop hybrid attention now that we have 2 OS models with efficient long context attention DeepSeek V3.2 and Qwen3.5-397B-A17B」の内容を紹介します。元記事はMiniMaxがハイブリッド注意機構をやめた理由についてですが、今やDeepSeek V3.2とQwen3.5-397B-A17Bという2つのオープンソースモデルが効率的な長文脈注意機構を実現しています。これにより、注意機構の設計選択が再評価されています。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rim2y2/revisiting_minimaxs_article_on_their_decision_to/

    • #68765 返信
      名無しさん
      確かに、DeepSeek V3.2の長文脈性能はすごいね。でもMiniMaxの判断も当時は合理的だったのかも。

      • #68767 返信
        名無しさん
        そうそう、当時はハイブリッド注意機構がオーバーヘッド大きかったって話だよね。今は手法が洗練された。

        • #68768 返信
          名無しさん
          でもハイブリッド方式を完全に捨てるのは極端だったかも。今のモデルはまた違うアプローチだし。

    • #68766 返信
      名無しさん
      Qwen3.5の397Bパラメータはデカすぎてローカルで動かせないわ。実用性はDeepSeekの方が上じゃない?

    • #68769 返信
      名無しさん
      長文脈って実際どのくらい必要?普通のチャットなら8kトークンで十分じゃね?

      • #68770 返信
        名無しさん
        コード生成とか論文読むときは128kとか欲しくなるよ。でもメモリ食うから現実的じゃない場合もある。

        • #68771 返信
          名無しさん
          DeepSeek V3.2は128kでも効率的って言うけど、実際のベンチマークはどうなの?

          • #68772 返信
            名無しさん
            RULERとかで結構いいスコア出てるよ。ただし計算コストはやっぱり高いみたい。

    • #68773 返信
      名無しさん
      MiniMaxの記事、読んだけど結構納得できる内容だった。でも今見ると技術の進歩早すぎて笑う。

      • #68774 返信
        名無しさん
        あの記事で一番驚いたのは、訓練時の注意機構の選択が推論速度に与える影響の大きさだわ。

        • #68775 返信
          名無しさん
          推論速度重視なら、今のDeepSeekの手法はかなりバランス取れてると思う。ただし量子化必須だけど。

    • #68776 返信
      名無しさん
      個人的にはQwen3.5の方が日本語性能高い気がするんだけど、どう思う?

      • #68777 返信
        名無しさん
        日本語のベンチマークだと確かにQwenの方が上だけど、実際の会話ではDeepSeekも悪くないよ。

        • #68778 返信
          名無しさん
          Qwen3.5のA17Bは37Bアクティブでしょ?それならローカルでもそこそこ動くんじゃない?

          • #68779 返信
            名無しさん
            いや、MoEだからメモリは397B分いるんだよ。VRAM24GBじゃ無理。

    • #68780 返信
      名無しさん
      ハイブリッド注意機構をやめた理由として、スケーリングの限界って話もあったね。今のモデルはどう対処してるんだろ?

      • #68781 返信
        名無しさん
        DeepSeekはmulti-head latent attentionってのを使ってるらしい。詳しくは知らんけど。

        • #68782 返信
          名無しさん
          RoPEベースの拡張みたいなもんだよ。論文読んだら結構シンプルだった。

    • #68783 返信
      名無しさん
      結局、長文脈注意機構ってまだ発展途上だよね。MiniMaxの判断も間違いじゃなかったと思う。

      • #68784 返信
        名無しさん
        でも今のモデル見てると、あの時点でハイブリッドを完全に捨てるのは早計だったかも。技術は変わるし。

        • #68785 返信
          名無しさん
          今後のオープンソースモデルの進化が楽しみだね。特に10万トークン超えの実用的なモデルが出てくるかどうか。

21件の返信を表示中(うち親返信7件)
返信先: MiniMaxのハイブリッド注意機構断念記事を再検討:DeepSeek V3.2とQwen3.5の長文脈注意機構が登場した今で#68776に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました