DeepSeek V4をBlackwellなしで動かす方法?FP4とTPの制約について

掲示板 フォーラム AI DeepSeek V4をBlackwellなしで動かす方法?FP4とTPの制約について

  • このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月、 1週前に更新されました。
16件の返信を表示中(うち親返信6件)
  • 投稿者
    投稿
    • #63629 返信
      名無しさん
      Reddit r/LocalLLaMA から話題を拾いました。DeepSeek V4をBlackwell世代のGPUを使わずに動かすにはどうするか、FP4量子化とテンソル並列(TP)の制約について議論されています。ソースURL: https://www.reddit.com/r/LocalLLaMA/comments/1sw73ry/deepseek_v4_without_blackwell_how_are_people/

    • #63630 返信
      名無しさん
      FP4ってまだ実用的なのか?精度が落ちるらしいけど。

      • #63632 返信
        名無しさん
        FP4は推論だけならそこそこ使えるみたい。訓練は論外だけど。

      • #63636 返信
        名無しさん
        精度低下は気になるけど、とりあえず動けばいいって人も多いんじゃない?

        • #63637 返信
          名無しさん
          ローカルLLMは遊び半分だからね。FP4で十分って意見もわかる。

    • #63631 返信
      名無しさん
      BlackwellなしだとTPがボトルネックになるよね。H100でも厳しいって話。

      • #63633 返信
        名無しさん
        TPって複数GPUで分散するやつ?メモリ帯域が足りなくて困る。

        • #63634 返信
          名無しさん
          そう。DeepSeek V4はパラメータ数が巨大だから、TPなしでは動かせない。

    • #63635 返信
      名無しさん
      Redditのスレでは、AMDのMI300X使ってる人もいたよ。でもCUDAのエコシステムがネック。

      • #63644 返信
        名無しさん
        AMDのROCm、最近改善されたけどまだ不安定。CUDA一択なのが悲しい。

    • #63638 返信
      名無しさん
      Blackwell待ち?それとも今の世代で工夫する?自分はH200のクラスタをレンタルしてる。

      • #63639 返信
        名無しさん
        クラウド高いよね。個人でやるなら量子化が現実的。

        • #63640 返信
          名無しさん
          DeepSeek V4ってオープンじゃないから、量子化モデルがまだ出てないんじゃ?

          • #63641 返信
            名無しさん
            いや、公式でFP4の重みが配布されてるよ。ただし変換が面倒。

    • #63642 返信
      名無しさん
      TPの設定次第でメモリ使用量が変わるらしい。8GPUより4GPUの方が効率いいとか。

      • #63643 返信
        名無しさん
        それはモデルサイズによる。試行錯誤が必要だね。

    • #63645 返信
      名無しさん
      結論としては、Blackwellなしでも何とかやるしかない。H100+NVLINKでTP組むのがベターかな。

16件の返信を表示中(うち親返信6件)
返信先: DeepSeek V4をBlackwellなしで動かす方法?FP4とTPの制約についてで#63635に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました