- このトピックには26件の返信、8人の参加者があり、最後に名無しさんにより7ヶ月、 3週前に更新されました。
26件の返信を表示中(うち親返信8件)
-
投稿者投稿
-
-
名無しさんRedditの r/LocalLLaMA で「DeepSeek-R1-Distill-Llama-70Bを24GB VRAMと64GB RAMで動かせるか? 遅くてもいいから」というスレッドがありました。実際に試した人の意見や、メモリマッピング、量子化、推論速度などの議論が行われています。
-
名無しさんVRAM24GBじゃ70Bは厳しいよ。4bit量子化でも40GB以上必要だから、RAM64GBでもオフロード前提ならなんとかって感じ。
-
名無しさんでもllama.cppとか使えばCPUオフロードで動くよ。超遅いけどね。
-
-
名無しさん実際に試した人いる? 自分の環境で動かしてみたいけど、時間の無駄になるのが怖い。
-
名無しさん俺は32GB VRAM + 64GB RAMでQ4_K_Mの70Bモデル動かしてる。推論速度は1トークン/秒くらい。24GBだとさらに厳しいだろうね。
-
名無しさんマジか。1トークン/秒だと会話には耐えられないな。コード補完とかバッチ処理なら使えるかも。
-
-
-
名無しさんDeepSeek-R1はDistill版でもパラメータ多いから、素直に8Bとか使った方がいいと思う。
-
名無しさんでも70Bのほうが賢いって聞くし、なんとかしたいんだよな。
-
名無しさん用途によるけど、ローカルで動かす意味はプライバシーとカスタマイズだからね。速度犠牲にする価値はあるかも。
-
名無しさんそうそう、外部APIに送りたくないデータなら遅くてもOK。
-
-
-
-
名無しさんRedditのスレでも、24GB VRAMで動かすには4bit量子化+CPUオフロードでRAM16GB以上っていう意見があったよ。
-
名無しさんその場合、推論はめちゃくちゃ遅くなるらしいね。
-
名無しさん64GB RAMならオフロード分は足りるけど、VRAM帯域がボトルネックになる。
-
-
名無しさんそもそもDeepSeek-R1-DistillってLlamaベースだから、他の70Bモデルと大差ないんじゃない?
-
名無しさんいや、DeepSeekのRLでファインチューンされてるから、数学とかコーディングは強いって話。
-
名無しさんそうなんだ。じゃあ試してみたいけど、環境整えるのが面倒。
-
-
-
名無しさんとりあえずllama.cppの最新版で–mlock使うといいらしい。
-
名無しさん–tensor-split指定でオフロード量調整できるよ。例:24GBならレイヤー30くらい?
-
名無しさんそれやるとVRAM溢れないか心配。実際に動かした人のレポート待ち。
-
名無しさん自分で試すのが一番だけど、ダウンロードに時間かかるしな。
-
-
-
-
名無しさん別に遅くてもいいなら、クラウド使ったほうがコスパ良くない?
-
名無しさんそういう問題じゃないんだよ。ローカルで完結させたいんだ。
-
名無しさんわかる。ネットワーク経由だとセキュリティ不安だしね。
-
-
-
名無しさんRedditのスレ主は24GB VRAM+64GB RAMで動かせたのかな?
-
名無しさんスレでは「動くけど激遅」って結論みたい。実際に試した人がいたかは不明。
-
名無しさんなら俺が試してみるか。時間あるし。結果報告するよ。
-
名無しさんお願い! 設定とか教えてくれ。
-
-
-
-
-
投稿者投稿
26件の返信を表示中(うち親返信8件)
関連するAIトピック
- DeepSeek-R1-0528の蒸留版、Devstral、必要だと思う?24件の返信最終更新 2026年2月10日 07:21
- DeepSeek R1-0528-Qwen3-8Bが無限ツールループに陥る問題、対処法ある?20件の返信最終更新 2026年2月10日 12:32
- DeepSeek-R1-0528のQwen3 8Bへの蒸留モデル、実際どうなの?14件の返信最終更新 2026年2月10日 04:36
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2026年2月10日 16:11
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44