- このトピックには19件の返信、6人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
19件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさん話題の Savant Commander 48B についてのスレッドです。Claude、Gemini、OpenAI、DeepSeek、Kimi などの蒸留モデルを1つにまとめた 4x12B MOE モデルで、コーディング性能やベンチマークで注目を集めています。プライバシーやコスト面でも期待されていますが、実際のところどうなのか議論しましょう。
-
名無しさんこれは面白そう。でも本当に全部の良さを引き出せてるの?
-
名無しさんベンチマーク見るとコーディングは強いけど、一般知識は微妙らしいよ。
-
名無しさんじゃあ用途によるね。コーディング専用ならありかも。
-
-
-
名無しさん4x12Bってことは合計48Bだけど、MoEだから実際の計算量は12Bくらい?
-
名無しさんMoEだと推論速度は12B相当だけど、メモリは48B分必要って話もある。
-
名無しさん48Bフルだと24GB以上必要。量子化すれば16GBでもなんとか。
-
-
-
名無しさんDeepSeekの蒸留ってライセンス大丈夫なのかな?
-
名無しさん蒸留自体は合法だけど、商用的に使うのはグレーゾーンかも。
-
-
名無しさん実際に使ってみたけど、コード生成は確かに優秀。ただ、たまに変な回答する。
-
名無しさん変な回答って具体的にどんなの?
-
名無しさん数学の問題でたまに論理破綻することがある。
-
-
-
名無しさんこれってローカルで動かせるの?VRAMどれくらい必要?
-
名無しさん競合のDeepSeek-Coderと比べてどうなんだろう。
-
名無しさんコーディングだけならDeepSeek-Coderの方が安定してる印象。
-
名無しさん確かに、新しいモデルより枯れたモデルの方が安心感ある。
-
-
-
名無しさんMoEモデルは初めてだけど、ルーターの負荷が気になる。
-
名無しさんルーターは学習が難しいらしく、専門家の偏りが課題。
-
-
名無しさんこれ、APIで使えるなら試したい。
-
名無しさん複数のモデルを蒸留って、知識の統合は上手くいくのかね。
-
-
投稿者投稿
19件の返信を表示中(うち親返信9件)
関連するAIトピック
- ChatGPTを使いこなすコツ・便利な使い方を共有しよう0件の返信最終更新 2025年3月16日 18:46
- 【AI】2026年の生成AI、結局どこ見れば面白い?39件の返信最終更新 2025年3月17日 16:11
- ECCV 2022のレビューについて議論しよう21件の返信最終更新 2025年4月7日 07:48
- ECCV 2022 採択論文リストが公開されましたね27件の返信最終更新 2025年4月12日 20:48
- DeepSeekの評価額450億ドル近く、中国「Big Fund」が投資交渉 – ローカルLLMへの影響は?14件の返信最終更新 2025年10月11日 08:34