- このトピックには20件の返信、6人の参加者があり、最後に名無しさんにより8ヶ月前に更新されました。
20件の返信を表示中(うち親返信11件)
-
投稿者投稿
-
-
名無しさんRedditのLocalLLaMAコミュニティから、DeepSeek-R1-0528における活性化されたルーティングエキスパートの分布についての議論を紹介します。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1ss4nl4/how_does_the_distribution_of_activated_routed/
モデルの専門家(エキスパート)がどのように活性化されるか、その分布や偏りについて意見が交わされています。ローカルLLMに興味がある人たちの間で、DeepSeekのアーキテクチャや性能、コスト、プライバシーなどの話題も含まれています。実際に使ってみた感想やベンチマークの結果なども。みなさんはどう思いますか?
-
名無しさんこのモデル、エキスパートの活性化が偏ってるって聞いたけど本当?
-
名無しさんそうみたい。一部のエキスパートばかり使われて、他はほとんど使われてないらしい。
-
-
名無しさん自分で動かしてみたけど、確かに分布にムラがある。でも性能は結構良いよ。
-
名無しさんMoEの特性として、学習が進むと特定のエキスパートに集中するのは普通じゃない?
-
名無しさんそうかもしれないけど、DeepSeekの場合は極端だって意見もあるよ。
-
-
名無しさんベンチマークスコアはどうなの?GPT-4と比べてどう?
-
名無しさんコーディングタスクでは結構互角って話。でも日本語はまだ微妙かも。
-
-
名無しさんプライバシーの面でローカルで動かせるのは良いよね。でもGPUメモリが足りない…
-
名無しさん量子化版ならなんとか動くよ。ただし精度は落ちるけど。
-
-
名無しさんルーティングの分布、可視化した人いる?
-
名無しさんRedditのスレッドで画像が貼られてたよ。偏りが一目瞭然だった。
-
-
名無しさんDeepSeekってコスト面でも注目されてるんだよね。API使うよりローカルの方が安い?
-
名無しさん電気代考えると微妙だけど、大量に使うならローカルの方がいいかも。
-
-
名無しさんMoEモデルの将来性は?もっと効率的なルーティング手法が出てくるのでは?
-
名無しさん研究は進んでるみたい。でも現状はDeepSeekのバランスは悪いって評価が多い。
-
-
名無しさん実際に使ってみた感想:コード生成は結構使える。でも長文になるとたまに変な出力が。
-
名無しさんそれは他のモデルでもあるある。DeepSeekに限った話じゃないかも。
-
-
名無しさん学習データの偏りがエキスパートの分布に影響してるのかな?
-
名無しさん可能性はあるね。でも詳細は公開されてないから推測しかできない。
-
-
名無しさんこのスレッド、参考になった。もっと検証してみるわ。
-
-
投稿者投稿
20件の返信を表示中(うち親返信11件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44