DeepSeek-R1-0528の活性化されたルーティングエキスパートの分布ってどうなってるの？

名無しさん · 2025-10-27T05:31:03+09:00

RedditのLocalLLaMAコミュニティから、DeepSeek-R1-0528における活性化されたルーティングエキスパートの分布についての議論を紹介します。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1ss4nl4/how_does_the_distribution_of_activated_routed/ モデルの専門家（エキスパート）がどのように活性化されるか、その分布や偏りについて意見が交わされています。ローカルLLMに興味がある人たちの間で、DeepSeekのアーキテクチャや性能、コスト、プライバシーなどの話題も含まれています。実際に使ってみた感想やベンチマークの結果なども。みなさんはどう思いますか？

このトピックには20件の返信、6人の参加者があり、最後に名無しさんにより8ヶ月前に更新されました。

20件の返信を表示中（うち親返信11件）

投稿者

投稿
- 2025年10月27日 5:31 AM #65269 返信
  
  名無しさん
  
  RedditのLocalLLaMAコミュニティから、DeepSeek-R1-0528における活性化されたルーティングエキスパートの分布についての議論を紹介します。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1ss4nl4/how_does_the_distribution_of_activated_routed/
  
  モデルの専門家（エキスパート）がどのように活性化されるか、その分布や偏りについて意見が交わされています。ローカルLLMに興味がある人たちの間で、DeepSeekのアーキテクチャや性能、コスト、プライバシーなどの話題も含まれています。実際に使ってみた感想やベンチマークの結果なども。みなさんはどう思いますか？
- 2025年10月27日 5:32 AM #65270 返信
  
  名無しさん
  
  このモデル、エキスパートの活性化が偏ってるって聞いたけど本当？
  - 2025年10月27日 5:35 AM #65271 返信
    
    名無しさん
    
    そうみたい。一部のエキスパートばかり使われて、他はほとんど使われてないらしい。
- 2025年10月27日 5:39 AM #65272 返信
  
  名無しさん
  
  自分で動かしてみたけど、確かに分布にムラがある。でも性能は結構良いよ。
- 2025年10月27日 5:46 AM #65273 返信
  
  名無しさん
  
  MoEの特性として、学習が進むと特定のエキスパートに集中するのは普通じゃない？
  - 2025年10月27日 5:48 AM #65274 返信
    
    名無しさん
    
    そうかもしれないけど、DeepSeekの場合は極端だって意見もあるよ。
- 2025年10月27日 5:52 AM #65275 返信
  
  名無しさん
  
  ベンチマークスコアはどうなの？GPT-4と比べてどう？
  - 2025年10月27日 5:58 AM #65276 返信
    
    名無しさん
    
    コーディングタスクでは結構互角って話。でも日本語はまだ微妙かも。
- 2025年10月27日 6:07 AM #65277 返信
  
  名無しさん
  
  プライバシーの面でローカルで動かせるのは良いよね。でもGPUメモリが足りない…
  - 2025年10月27日 6:08 AM #65278 返信
    
    名無しさん
    
    量子化版ならなんとか動くよ。ただし精度は落ちるけど。
- 2025年10月27日 6:11 AM #65279 返信
  
  名無しさん
  
  ルーティングの分布、可視化した人いる？
  - 2025年10月27日 6:15 AM #65280 返信
    
    名無しさん
    
    Redditのスレッドで画像が貼られてたよ。偏りが一目瞭然だった。
- 2025年10月27日 6:21 AM #65281 返信
  
  名無しさん
  
  DeepSeekってコスト面でも注目されてるんだよね。API使うよりローカルの方が安い？
  - 2025年10月27日 6:33 AM #65282 返信
    
    名無しさん
    
    電気代考えると微妙だけど、大量に使うならローカルの方がいいかも。
- 2025年10月27日 6:35 AM #65283 返信
  
  名無しさん
  
  MoEモデルの将来性は？もっと効率的なルーティング手法が出てくるのでは？
  - 2025年10月27日 6:38 AM #65284 返信
    
    名無しさん
    
    研究は進んでるみたい。でも現状はDeepSeekのバランスは悪いって評価が多い。
- 2025年10月27日 6:42 AM #65285 返信
  
  名無しさん
  
  実際に使ってみた感想：コード生成は結構使える。でも長文になるとたまに変な出力が。
  - 2025年10月27日 6:50 AM #65286 返信
    
    名無しさん
    
    それは他のモデルでもあるある。DeepSeekに限った話じゃないかも。
- 2025年10月27日 6:52 AM #65287 返信
  
  名無しさん
  
  学習データの偏りがエキスパートの分布に影響してるのかな？
  - 2025年10月27日 6:56 AM #65288 返信
    
    名無しさん
    
    可能性はあるね。でも詳細は公開されてないから推測しかできない。
- 2025年10月27日 7:01 AM #65289 返信
  
  名無しさん
  
  このスレッド、参考になった。もっと検証してみるわ。
投稿者

投稿

20件の返信を表示中（うち親返信11件）

返信先: DeepSeek-R1-0528の活性化されたルーティングエキスパートの分布ってどうなってるの？で#65272に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック