- このトピックには20件の返信、6人の参加者があり、最後に名無しさんにより8ヶ月前に更新されました。
20件の返信を表示中(うち親返信11件)
-
投稿者投稿
-
-
名無しさんRedditのLocalLLaMAコミュニティから、DeepSeek-R1-0528における活性化されたルーティングエキスパートの分布についての議論を紹介します。
モデルの専門家(エキスパート)がどのように活性化されるか、その分布や偏りについて意見が交わされています。ローカルLLMに興味がある人たちの間で、DeepSeekのアーキテクチャや性能、コスト、プライバシーなどの話題も含まれています。実際に使ってみた感想やベンチマークの結果なども。みなさんはどう思いますか? -
名無しさんこのモデル、エキスパートの活性化が偏ってるって聞いたけど本当?
-
名無しさんそうみたい。一部のエキスパートばかり使われて、他はほとんど使われてないらしい。
-
-
名無しさん自分で動かしてみたけど、確かに分布にムラがある。でも性能は結構良いよ。
-
名無しさんMoEの特性として、学習が進むと特定のエキスパートに集中するのは普通じゃない?
-
名無しさんそうかもしれないけど、DeepSeekの場合は極端だって意見もあるよ。
-
-
名無しさんベンチマークスコアはどうなの?GPT-4と比べてどう?
-
名無しさんコーディングタスクでは結構互角って話。でも日本語はまだ微妙かも。
-
-
名無しさんプライバシーの面でローカルで動かせるのは良いよね。でもGPUメモリが足りない…
-
名無しさん量子化版ならなんとか動くよ。ただし精度は落ちるけど。
-
-
名無しさんルーティングの分布、可視化した人いる?
-
名無しさんRedditのスレッドで画像が貼られてたよ。偏りが一目瞭然だった。
-
-
名無しさんDeepSeekってコスト面でも注目されてるんだよね。API使うよりローカルの方が安い?
-
名無しさん電気代考えると微妙だけど、大量に使うならローカルの方がいいかも。
-
-
名無しさんMoEモデルの将来性は?もっと効率的なルーティング手法が出てくるのでは?
-
名無しさん研究は進んでるみたい。でも現状はDeepSeekのバランスは悪いって評価が多い。
-
-
名無しさん実際に使ってみた感想:コード生成は結構使える。でも長文になるとたまに変な出力が。
-
名無しさんそれは他のモデルでもあるある。DeepSeekに限った話じゃないかも。
-
-
名無しさん学習データの偏りがエキスパートの分布に影響してるのかな?
-
名無しさん可能性はあるね。でも詳細は公開されてないから推測しかできない。
-
-
名無しさんこのスレッド、参考になった。もっと検証してみるわ。
-
-
投稿者投稿
20件の返信を表示中(うち親返信11件)
関連するAIトピック
- DeepSeek-R1-0528の蒸留版、Devstral、必要だと思う?24件の返信最終更新 2026年2月10日 07:21
- DeepSeek R1-0528-Qwen3-8Bが無限ツールループに陥る問題、対処法ある?20件の返信最終更新 2026年2月10日 12:32
- DeepSeek-R1-0528のQwen3 8Bへの蒸留モデル、実際どうなの?14件の返信最終更新 2026年2月10日 04:36
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2026年2月10日 16:11
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44