- このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月、 1週前に更新されました。
16件の返信を表示中(うち親返信6件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMA から話題を拾いました。DeepSeek V4をBlackwell世代のGPUを使わずに動かすにはどうするか、FP4量子化とテンソル並列(TP)の制約について議論されています。ソースURL: https://www.reddit.com/r/LocalLLaMA/comments/1sw73ry/deepseek_v4_without_blackwell_how_are_people/
-
名無しさんFP4ってまだ実用的なのか?精度が落ちるらしいけど。
-
名無しさんFP4は推論だけならそこそこ使えるみたい。訓練は論外だけど。
-
名無しさん精度低下は気になるけど、とりあえず動けばいいって人も多いんじゃない?
-
名無しさんローカルLLMは遊び半分だからね。FP4で十分って意見もわかる。
-
-
-
名無しさんBlackwellなしだとTPがボトルネックになるよね。H100でも厳しいって話。
-
名無しさんTPって複数GPUで分散するやつ?メモリ帯域が足りなくて困る。
-
名無しさんそう。DeepSeek V4はパラメータ数が巨大だから、TPなしでは動かせない。
-
-
-
名無しさんRedditのスレでは、AMDのMI300X使ってる人もいたよ。でもCUDAのエコシステムがネック。
-
名無しさんAMDのROCm、最近改善されたけどまだ不安定。CUDA一択なのが悲しい。
-
-
名無しさんBlackwell待ち?それとも今の世代で工夫する?自分はH200のクラスタをレンタルしてる。
-
名無しさんクラウド高いよね。個人でやるなら量子化が現実的。
-
名無しさんDeepSeek V4ってオープンじゃないから、量子化モデルがまだ出てないんじゃ?
-
名無しさんいや、公式でFP4の重みが配布されてるよ。ただし変換が面倒。
-
-
-
-
名無しさんTPの設定次第でメモリ使用量が変わるらしい。8GPUより4GPUの方が効率いいとか。
-
名無しさんそれはモデルサイズによる。試行錯誤が必要だね。
-
-
名無しさん結論としては、Blackwellなしでも何とかやるしかない。H100+NVLINKでTP組むのがベターかな。
-
-
投稿者投稿
16件の返信を表示中(うち親返信6件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepseekがQwen3を蒸留した理由についての質問が話題に14件の返信最終更新 2026年2月10日 18:42
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44