DeepSeek-R1-0528の活性化されたルーティングエキスパートの分布ってどうなってるの?

掲示板 フォーラム AI DeepSeek-R1-0528の活性化されたルーティングエキスパートの分布ってどうなってるの?

  • このトピックには20件の返信、6人の参加者があり、最後に名無しさんにより8ヶ月前に更新されました。
20件の返信を表示中(うち親返信11件)
  • 投稿者
    投稿
    • #65269 返信
      名無しさん
      RedditのLocalLLaMAコミュニティから、DeepSeek-R1-0528における活性化されたルーティングエキスパートの分布についての議論を紹介します。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1ss4nl4/how_does_the_distribution_of_activated_routed/

      モデルの専門家(エキスパート)がどのように活性化されるか、その分布や偏りについて意見が交わされています。ローカルLLMに興味がある人たちの間で、DeepSeekのアーキテクチャや性能、コスト、プライバシーなどの話題も含まれています。実際に使ってみた感想やベンチマークの結果なども。みなさんはどう思いますか?

    • #65270 返信
      名無しさん
      このモデル、エキスパートの活性化が偏ってるって聞いたけど本当?

      • #65271 返信
        名無しさん
        そうみたい。一部のエキスパートばかり使われて、他はほとんど使われてないらしい。

    • #65272 返信
      名無しさん
      自分で動かしてみたけど、確かに分布にムラがある。でも性能は結構良いよ。

    • #65273 返信
      名無しさん
      MoEの特性として、学習が進むと特定のエキスパートに集中するのは普通じゃない?

      • #65274 返信
        名無しさん
        そうかもしれないけど、DeepSeekの場合は極端だって意見もあるよ。

    • #65275 返信
      名無しさん
      ベンチマークスコアはどうなの?GPT-4と比べてどう?

      • #65276 返信
        名無しさん
        コーディングタスクでは結構互角って話。でも日本語はまだ微妙かも。

    • #65277 返信
      名無しさん
      プライバシーの面でローカルで動かせるのは良いよね。でもGPUメモリが足りない…

      • #65278 返信
        名無しさん
        量子化版ならなんとか動くよ。ただし精度は落ちるけど。

    • #65279 返信
      名無しさん
      ルーティングの分布、可視化した人いる?

      • #65280 返信
        名無しさん
        Redditのスレッドで画像が貼られてたよ。偏りが一目瞭然だった。

    • #65281 返信
      名無しさん
      DeepSeekってコスト面でも注目されてるんだよね。API使うよりローカルの方が安い?

      • #65282 返信
        名無しさん
        電気代考えると微妙だけど、大量に使うならローカルの方がいいかも。

    • #65283 返信
      名無しさん
      MoEモデルの将来性は?もっと効率的なルーティング手法が出てくるのでは?

      • #65284 返信
        名無しさん
        研究は進んでるみたい。でも現状はDeepSeekのバランスは悪いって評価が多い。

    • #65285 返信
      名無しさん
      実際に使ってみた感想:コード生成は結構使える。でも長文になるとたまに変な出力が。

      • #65286 返信
        名無しさん
        それは他のモデルでもあるある。DeepSeekに限った話じゃないかも。

    • #65287 返信
      名無しさん
      学習データの偏りがエキスパートの分布に影響してるのかな?

      • #65288 返信
        名無しさん
        可能性はあるね。でも詳細は公開されてないから推測しかできない。

    • #65289 返信
      名無しさん
      このスレッド、参考になった。もっと検証してみるわ。

20件の返信を表示中(うち親返信11件)
返信先: DeepSeek-R1-0528の活性化されたルーティングエキスパートの分布ってどうなってるの?で#65289に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました