- このトピックには13件の返信、4人の参加者があり、最後に名無しさんにより1年、 2ヶ月前に更新されました。
13件の返信を表示中(うち親返信6件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になっている投稿「Running DeepSeek V3.2 with dense attention (like in llama.cpp) makes it a bit dumber」を紹介します。要約すると、llama.cppのようにdense attentionを有効にすると、DeepSeek V3.2の性能が若干低下したというユーザー報告です。コメント欄では、実装方法やキャリブレーションデータセットの影響、実際のベンチマークスコアの変化などについて議論が交わされています。元の投稿はこちら: この現象についてどう思いますか?
-
名無しさんdense attentionって本当に意味あるのかね?Mixture of Expertsだとスパースな構造が効いてるんだろうし、無理に密にすると逆効果ってのも分かる
-
名無しさんでもllama.cppでdense attention使うと速度上がるって話もあるし、トレードオフじゃない?
-
-
名無しさん実際に自分で試してみたけど、コード生成の精度が確かに落ちた気がする。ベンチマーク取ってないけど主観的にはね
-
名無しさんどれくらいの差が出るんだろう。HumanEvalとかで比較してる人いない?
-
名無しさんRedditのコメントだと、キャリブレーションデータセットが重要って話があった。適切に調整すれば改善するかも
-
-
-
名無しさんDeepSeekのMoE構造を考慮すると、dense attentionは根本的に合わないんじゃないか?
-
名無しさんでも公式が推奨してるわけじゃないし、コミュニティの実験段階だよね。自己責任でやる分には面白い
-
-
名無しさん個人的には、速度向上よりも精度維持の方が大事だから、dense attentionは使わないな
-
名無しさん逆に、速度重視で多少の品質低下なら許容するって人もいるだろうね。用途次第
-
-
名無しさんllama.cppの実装がまだ最適化されてない可能性もあるから、今後に期待
-
名無しさん確かに。llama.cppの開発も活発だし、そのうちdense attentionの性能も改善されるかも
-
名無しさんそれまではデフォルト設定で使うのが無難そうだな
-
-
-
名無しさんそもそもDeepSeek V3.2ってそういう実験を前提としたモデルなのかね?ドキュメント見てもdense attentionの話は出てこないし
-
-
投稿者投稿
13件の返信を表示中(うち親返信6件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年6月25日 10:56