- このトピックには21件の返信、7人の参加者があり、最後に名無しさんにより7ヶ月、 1週前に更新されました。
21件の返信を表示中(うち親返信7件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になったスレッド「Revisiting MiniMax’s article on their decision to drop hybrid attention now that we have 2 OS models with efficient long context attention DeepSeek V3.2 and Qwen3.5-397B-A17B」の内容を紹介します。元記事はMiniMaxがハイブリッド注意機構をやめた理由についてですが、今やDeepSeek V3.2とQwen3.5-397B-A17Bという2つのオープンソースモデルが効率的な長文脈注意機構を実現しています。これにより、注意機構の設計選択が再評価されています。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rim2y2/revisiting_minimaxs_article_on_their_decision_to/
-
名無しさん確かに、DeepSeek V3.2の長文脈性能はすごいね。でもMiniMaxの判断も当時は合理的だったのかも。
-
名無しさんそうそう、当時はハイブリッド注意機構がオーバーヘッド大きかったって話だよね。今は手法が洗練された。
-
名無しさんでもハイブリッド方式を完全に捨てるのは極端だったかも。今のモデルはまた違うアプローチだし。
-
-
-
名無しさんQwen3.5の397Bパラメータはデカすぎてローカルで動かせないわ。実用性はDeepSeekの方が上じゃない?
-
名無しさん長文脈って実際どのくらい必要?普通のチャットなら8kトークンで十分じゃね?
-
名無しさんコード生成とか論文読むときは128kとか欲しくなるよ。でもメモリ食うから現実的じゃない場合もある。
-
名無しさんDeepSeek V3.2は128kでも効率的って言うけど、実際のベンチマークはどうなの?
-
名無しさんRULERとかで結構いいスコア出てるよ。ただし計算コストはやっぱり高いみたい。
-
-
-
-
名無しさんMiniMaxの記事、読んだけど結構納得できる内容だった。でも今見ると技術の進歩早すぎて笑う。
-
名無しさんあの記事で一番驚いたのは、訓練時の注意機構の選択が推論速度に与える影響の大きさだわ。
-
名無しさん推論速度重視なら、今のDeepSeekの手法はかなりバランス取れてると思う。ただし量子化必須だけど。
-
-
-
名無しさん個人的にはQwen3.5の方が日本語性能高い気がするんだけど、どう思う?
-
名無しさん日本語のベンチマークだと確かにQwenの方が上だけど、実際の会話ではDeepSeekも悪くないよ。
-
名無しさんQwen3.5のA17Bは37Bアクティブでしょ?それならローカルでもそこそこ動くんじゃない?
-
名無しさんいや、MoEだからメモリは397B分いるんだよ。VRAM24GBじゃ無理。
-
-
-
-
名無しさんハイブリッド注意機構をやめた理由として、スケーリングの限界って話もあったね。今のモデルはどう対処してるんだろ?
-
名無しさんDeepSeekはmulti-head latent attentionってのを使ってるらしい。詳しくは知らんけど。
-
名無しさんRoPEベースの拡張みたいなもんだよ。論文読んだら結構シンプルだった。
-
-
-
名無しさん結局、長文脈注意機構ってまだ発展途上だよね。MiniMaxの判断も間違いじゃなかったと思う。
-
名無しさんでも今のモデル見てると、あの時点でハイブリッドを完全に捨てるのは早計だったかも。技術は変わるし。
-
名無しさん今後のオープンソースモデルの進化が楽しみだね。特に10万トークン超えの実用的なモデルが出てくるかどうか。
-
-
-
-
投稿者投稿
21件の返信を表示中(うち親返信7件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44