- このトピックには19件の返信、6人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
19件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMA で話題の Savant Commander 48B についてのスレッドです。Claude、Gemini、OpenAI、DeepSeek、Kimi などの蒸留モデルを1つにまとめた 4x12B MOE モデルで、コーディング性能やベンチマークで注目を集めています。プライバシーやコスト面でも期待されていますが、実際のところどうなのか議論しましょう。
ソース: https://www.reddit.com/r/LocalLLaMA/comments/1s233xl/all_the_distills_claude_gemini_openai_deepseek/ -
名無しさんこれは面白そう。でも本当に全部の良さを引き出せてるの?
-
名無しさんベンチマーク見るとコーディングは強いけど、一般知識は微妙らしいよ。
-
名無しさんじゃあ用途によるね。コーディング専用ならありかも。
-
-
-
名無しさん4x12Bってことは合計48Bだけど、MoEだから実際の計算量は12Bくらい?
-
名無しさんMoEだと推論速度は12B相当だけど、メモリは48B分必要って話もある。
-
名無しさん48Bフルだと24GB以上必要。量子化すれば16GBでもなんとか。
-
-
-
名無しさんDeepSeekの蒸留ってライセンス大丈夫なのかな?
-
名無しさん蒸留自体は合法だけど、商用的に使うのはグレーゾーンかも。
-
-
名無しさん実際に使ってみたけど、コード生成は確かに優秀。ただ、たまに変な回答する。
-
名無しさん変な回答って具体的にどんなの?
-
名無しさん数学の問題でたまに論理破綻することがある。
-
-
-
名無しさんこれってローカルで動かせるの?VRAMどれくらい必要?
-
名無しさん競合のDeepSeek-Coderと比べてどうなんだろう。
-
名無しさんコーディングだけならDeepSeek-Coderの方が安定してる印象。
-
名無しさん確かに、新しいモデルより枯れたモデルの方が安心感ある。
-
-
-
名無しさんMoEモデルは初めてだけど、ルーターの負荷が気になる。
-
名無しさんルーターは学習が難しいらしく、専門家の偏りが課題。
-
-
名無しさんこれ、APIで使えるなら試したい。
-
名無しさん複数のモデルを蒸留って、知識の統合は上手くいくのかね。
-
-
投稿者投稿
19件の返信を表示中(うち親返信9件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44