- このトピックには26件の返信、8人の参加者があり、最後に名無しさんにより7ヶ月、 3週前に更新されました。
26件の返信を表示中(うち親返信8件)
-
投稿者投稿
-
-
名無しさんRedditの 「DeepSeek-R1-Distill-Llama-70Bを24GB VRAMと64GB RAMで動かせるか? 遅くてもいいから」というスレッドがありました。実際に試した人の意見や、メモリマッピング、量子化、推論速度などの議論が行われています。
-
名無しさんVRAM24GBじゃ70Bは厳しいよ。4bit量子化でも40GB以上必要だから、RAM64GBでもオフロード前提ならなんとかって感じ。
-
名無しさんでもllama.cppとか使えばCPUオフロードで動くよ。超遅いけどね。
-
-
名無しさん実際に試した人いる? 自分の環境で動かしてみたいけど、時間の無駄になるのが怖い。
-
名無しさん俺は32GB VRAM + 64GB RAMでQ4_K_Mの70Bモデル動かしてる。推論速度は1トークン/秒くらい。24GBだとさらに厳しいだろうね。
-
名無しさんマジか。1トークン/秒だと会話には耐えられないな。コード補完とかバッチ処理なら使えるかも。
-
-
-
名無しさんDeepSeek-R1はDistill版でもパラメータ多いから、素直に8Bとか使った方がいいと思う。
-
名無しさんでも70Bのほうが賢いって聞くし、なんとかしたいんだよな。
-
名無しさん用途によるけど、ローカルで動かす意味はプライバシーとカスタマイズだからね。速度犠牲にする価値はあるかも。
-
名無しさんそうそう、外部APIに送りたくないデータなら遅くてもOK。
-
-
-
-
名無しさんRedditのスレでも、24GB VRAMで動かすには4bit量子化+CPUオフロードでRAM16GB以上っていう意見があったよ。
-
名無しさんその場合、推論はめちゃくちゃ遅くなるらしいね。
-
名無しさん64GB RAMならオフロード分は足りるけど、VRAM帯域がボトルネックになる。
-
-
名無しさんそもそもDeepSeek-R1-DistillってLlamaベースだから、他の70Bモデルと大差ないんじゃない?
-
名無しさんいや、DeepSeekのRLでファインチューンされてるから、数学とかコーディングは強いって話。
-
名無しさんそうなんだ。じゃあ試してみたいけど、環境整えるのが面倒。
-
-
-
名無しさんとりあえずllama.cppの最新版で–mlock使うといいらしい。
-
名無しさん–tensor-split指定でオフロード量調整できるよ。例:24GBならレイヤー30くらい?
-
名無しさんそれやるとVRAM溢れないか心配。実際に動かした人のレポート待ち。
-
名無しさん自分で試すのが一番だけど、ダウンロードに時間かかるしな。
-
-
-
-
名無しさん別に遅くてもいいなら、クラウド使ったほうがコスパ良くない?
-
名無しさんそういう問題じゃないんだよ。ローカルで完結させたいんだ。
-
名無しさんわかる。ネットワーク経由だとセキュリティ不安だしね。
-
-
-
名無しさんRedditのスレ主は24GB VRAM+64GB RAMで動かせたのかな?
-
名無しさんスレでは「動くけど激遅」って結論みたい。実際に試した人がいたかは不明。
-
名無しさんなら俺が試してみるか。時間あるし。結果報告するよ。
-
名無しさんお願い! 設定とか教えてくれ。
-
-
-
-
-
投稿者投稿
26件の返信を表示中(うち親返信8件)
関連するAIトピック
- ChatGPTを使いこなすコツ・便利な使い方を共有しよう0件の返信最終更新 2025年3月16日 18:46
- 【AI】2026年の生成AI、結局どこ見れば面白い?39件の返信最終更新 2025年3月17日 16:11
- ECCV 2022のレビューについて議論しよう21件の返信最終更新 2025年4月7日 07:48
- ECCV 2022 採択論文リストが公開されましたね27件の返信最終更新 2025年4月12日 20:48
- DeepSeekの評価額450億ドル近く、中国「Big Fund」が投資交渉 – ローカルLLMへの影響は?14件の返信最終更新 2025年10月11日 08:34