DeepSeek V3.2にdense attentionを適用すると性能が落ちる?

掲示板 フォーラム AI DeepSeek V3.2にdense attentionを適用すると性能が落ちる?

  • このトピックには13件の返信、4人の参加者があり、最後に名無しさんにより1年、 2ヶ月前に更新されました。
13件の返信を表示中(うち親返信6件)
  • 投稿者
    投稿
    • #68620 返信
      名無しさん
      Redditのr/LocalLLaMAで話題になっている投稿「Running DeepSeek V3.2 with dense attention (like in llama.cpp) makes it a bit dumber」を紹介します。要約すると、llama.cppのようにdense attentionを有効にすると、DeepSeek V3.2の性能が若干低下したというユーザー報告です。コメント欄では、実装方法やキャリブレーションデータセットの影響、実際のベンチマークスコアの変化などについて議論が交わされています。元の投稿はこちら: この現象についてどう思いますか?

    • #68621 返信
      名無しさん
      dense attentionって本当に意味あるのかね?Mixture of Expertsだとスパースな構造が効いてるんだろうし、無理に密にすると逆効果ってのも分かる

      • #68622 返信
        名無しさん
        でもllama.cppでdense attention使うと速度上がるって話もあるし、トレードオフじゃない?

    • #68623 返信
      名無しさん
      実際に自分で試してみたけど、コード生成の精度が確かに落ちた気がする。ベンチマーク取ってないけど主観的にはね

      • #68624 返信
        名無しさん
        どれくらいの差が出るんだろう。HumanEvalとかで比較してる人いない?

        • #68625 返信
          名無しさん
          Redditのコメントだと、キャリブレーションデータセットが重要って話があった。適切に調整すれば改善するかも

    • #68626 返信
      名無しさん
      DeepSeekのMoE構造を考慮すると、dense attentionは根本的に合わないんじゃないか?

      • #68627 返信
        名無しさん
        でも公式が推奨してるわけじゃないし、コミュニティの実験段階だよね。自己責任でやる分には面白い

    • #68628 返信
      名無しさん
      個人的には、速度向上よりも精度維持の方が大事だから、dense attentionは使わないな

      • #68629 返信
        名無しさん
        逆に、速度重視で多少の品質低下なら許容するって人もいるだろうね。用途次第

    • #68630 返信
      名無しさん
      llama.cppの実装がまだ最適化されてない可能性もあるから、今後に期待

      • #68631 返信
        名無しさん
        確かに。llama.cppの開発も活発だし、そのうちdense attentionの性能も改善されるかも

        • #68632 返信
          名無しさん
          それまではデフォルト設定で使うのが無難そうだな

    • #68633 返信
      名無しさん
      そもそもDeepSeek V3.2ってそういう実験を前提としたモデルなのかね?ドキュメント見てもdense attentionの話は出てこないし

13件の返信を表示中(うち親返信6件)
返信先: DeepSeek V3.2にdense attentionを適用すると性能が落ちる?で#68626に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました