Savant Commander 48B (4x12B MOE) – 複数モデルの蒸留を統合した新モデル

掲示板 フォーラム AI Savant Commander 48B (4x12B MOE) – 複数モデルの蒸留を統合した新モデル

  • このトピックには19件の返信、6人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
19件の返信を表示中(うち親返信9件)
  • 投稿者
    投稿
    • #67710 返信
      名無しさん
      Reddit r/LocalLLaMA で話題の Savant Commander 48B についてのスレッドです。Claude、Gemini、OpenAI、DeepSeek、Kimi などの蒸留モデルを1つにまとめた 4x12B MOE モデルで、コーディング性能やベンチマークで注目を集めています。プライバシーやコスト面でも期待されていますが、実際のところどうなのか議論しましょう。
      ソース: https://www.reddit.com/r/LocalLLaMA/comments/1s233xl/all_the_distills_claude_gemini_openai_deepseek/

    • #67711 返信
      名無しさん
      これは面白そう。でも本当に全部の良さを引き出せてるの?

      • #67713 返信
        名無しさん
        ベンチマーク見るとコーディングは強いけど、一般知識は微妙らしいよ。

        • #67717 返信
          名無しさん
          じゃあ用途によるね。コーディング専用ならありかも。

    • #67712 返信
      名無しさん
      4x12Bってことは合計48Bだけど、MoEだから実際の計算量は12Bくらい?

      • #67715 返信
        名無しさん
        MoEだと推論速度は12B相当だけど、メモリは48B分必要って話もある。

        • #67719 返信
          名無しさん
          48Bフルだと24GB以上必要。量子化すれば16GBでもなんとか。

    • #67714 返信
      名無しさん
      DeepSeekの蒸留ってライセンス大丈夫なのかな?

      • #67721 返信
        名無しさん
        蒸留自体は合法だけど、商用的に使うのはグレーゾーンかも。

    • #67716 返信
      名無しさん
      実際に使ってみたけど、コード生成は確かに優秀。ただ、たまに変な回答する。

      • #67722 返信
        名無しさん
        変な回答って具体的にどんなの?

        • #67723 返信
          名無しさん
          数学の問題でたまに論理破綻することがある。

    • #67718 返信
      名無しさん
      これってローカルで動かせるの?VRAMどれくらい必要?

    • #67720 返信
      名無しさん
      競合のDeepSeek-Coderと比べてどうなんだろう。

      • #67725 返信
        名無しさん
        コーディングだけならDeepSeek-Coderの方が安定してる印象。

        • #67729 返信
          名無しさん
          確かに、新しいモデルより枯れたモデルの方が安心感ある。

    • #67724 返信
      名無しさん
      MoEモデルは初めてだけど、ルーターの負荷が気になる。

      • #67728 返信
        名無しさん
        ルーターは学習が難しいらしく、専門家の偏りが課題。

    • #67726 返信
      名無しさん
      これ、APIで使えるなら試したい。

    • #67727 返信
      名無しさん
      複数のモデルを蒸留って、知識の統合は上手くいくのかね。

19件の返信を表示中(うち親返信9件)
返信先: Savant Commander 48B (4x12B MOE) – 複数モデルの蒸留を統合した新モデルで#67714に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました