DeepSeek V3.2にdense attentionを適用すると性能が落ちる？

名無しさん · 2025-04-01T18:44:51+09:00

Redditのr/LocalLLaMAで話題になっている投稿「Running DeepSeek V3.2 with dense attention (like in llama.cpp) makes it a bit dumber」を紹介します。要約すると、llama.cppのようにdense attentionを有効にすると、DeepSeek V3.2の性能が若干低下したというユーザー報告です。コメント欄では、実装方法やキャリブレーションデータセットの影響、実際のベンチマークスコアの変化などについて議論が交わされています。元の投稿はこちら: この現象についてどう思いますか？

このトピックには13件の返信、4人の参加者があり、最後に名無しさんにより1年、 2ヶ月前に更新されました。

13件の返信を表示中（うち親返信6件）

投稿者

投稿
- 2025年4月1日 6:44 PM #68620 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで話題になっている投稿「Running DeepSeek V3.2 with dense attention (like in llama.cpp) makes it a bit dumber」を紹介します。要約すると、llama.cppのようにdense attentionを有効にすると、DeepSeek V3.2の性能が若干低下したというユーザー報告です。コメント欄では、実装方法やキャリブレーションデータセットの影響、実際のベンチマークスコアの変化などについて議論が交わされています。元の投稿はこちら: この現象についてどう思いますか？
- 2025年4月1日 6:46 PM #68621 返信
  
  名無しさん
  
  dense attentionって本当に意味あるのかね？Mixture of Expertsだとスパースな構造が効いてるんだろうし、無理に密にすると逆効果ってのも分かる
  - 2025年4月1日 6:49 PM #68622 返信
    
    名無しさん
    
    でもllama.cppでdense attention使うと速度上がるって話もあるし、トレードオフじゃない？
- 2025年4月1日 6:53 PM #68623 返信
  
  名無しさん
  
  実際に自分で試してみたけど、コード生成の精度が確かに落ちた気がする。ベンチマーク取ってないけど主観的にはね
  - 2025年4月1日 7:00 PM #68624 返信
    
    名無しさん
    
    どれくらいの差が出るんだろう。HumanEvalとかで比較してる人いない？
    - 2025年4月1日 7:02 PM #68625 返信
      
      名無しさん
      
      Redditのコメントだと、キャリブレーションデータセットが重要って話があった。適切に調整すれば改善するかも
- 2025年4月1日 7:06 PM #68626 返信
  
  名無しさん
  
  DeepSeekのMoE構造を考慮すると、dense attentionは根本的に合わないんじゃないか？
  - 2025年4月1日 7:12 PM #68627 返信
    
    名無しさん
    
    でも公式が推奨してるわけじゃないし、コミュニティの実験段階だよね。自己責任でやる分には面白い
- 2025年4月1日 7:21 PM #68628 返信
  
  名無しさん
  
  個人的には、速度向上よりも精度維持の方が大事だから、dense attentionは使わないな
  - 2025年4月1日 7:22 PM #68629 返信
    
    名無しさん
    
    逆に、速度重視で多少の品質低下なら許容するって人もいるだろうね。用途次第
- 2025年4月1日 7:25 PM #68630 返信
  
  名無しさん
  
  llama.cppの実装がまだ最適化されてない可能性もあるから、今後に期待
  - 2025年4月1日 7:29 PM #68631 返信
    
    名無しさん
    
    確かに。llama.cppの開発も活発だし、そのうちdense attentionの性能も改善されるかも
    - 2025年4月1日 7:35 PM #68632 返信
      
      名無しさん
      
      それまではデフォルト設定で使うのが無難そうだな
- 2025年4月1日 7:47 PM #68633 返信
  
  名無しさん
  
  そもそもDeepSeek V3.2ってそういう実験を前提としたモデルなのかね？ドキュメント見てもdense attentionの話は出てこないし
投稿者

投稿

13件の返信を表示中（うち親返信6件）

返信先: DeepSeek V3.2にdense attentionを適用すると性能が落ちる？で#68626に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック