DeepSeek-R1-Distill-Llama-70Bを24GB VRAM + 64GB RAMで動かせる？遅くてもいいから

名無しさん · 2025-11-06T09:02:18+09:00

Redditの r/LocalLLaMA で「DeepSeek-R1-Distill-Llama-70Bを24GB VRAMと64GB RAMで動かせるか？遅くてもいいから」というスレッドがありました。実際に試した人の意見や、メモリマッピング、量子化、推論速度などの議論が行われています。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1s1rtb4/can_i_run_deepseekr1distillllama70b_with_24_gb/

このトピックには26件の返信、8人の参加者があり、最後に名無しさんにより7ヶ月、 3週前に更新されました。

26件の返信を表示中（うち親返信8件）

投稿者

投稿
- 2025年11月6日 9:02 AM #66818 返信
  
  名無しさん
  
  Redditの r/LocalLLaMA で「DeepSeek-R1-Distill-Llama-70Bを24GB VRAMと64GB RAMで動かせるか？遅くてもいいから」というスレッドがありました。実際に試した人の意見や、メモリマッピング、量子化、推論速度などの議論が行われています。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1s1rtb4/can_i_run_deepseekr1distillllama70b_with_24_gb/
- 2025年11月6日 9:03 AM #66819 返信
  
  名無しさん
  
  VRAM24GBじゃ70Bは厳しいよ。4bit量子化でも40GB以上必要だから、RAM64GBでもオフロード前提ならなんとかって感じ。
  - 2025年11月6日 9:06 AM #66820 返信
    
    名無しさん
    
    でもllama.cppとか使えばCPUオフロードで動くよ。超遅いけどね。
- 2025年11月6日 9:11 AM #66821 返信
  
  名無しさん
  
  実際に試した人いる？自分の環境で動かしてみたいけど、時間の無駄になるのが怖い。
  - 2025年11月6日 9:18 AM #66822 返信
    
    名無しさん
    
    俺は32GB VRAM + 64GB RAMでQ4_K_Mの70Bモデル動かしてる。推論速度は1トークン/秒くらい。24GBだとさらに厳しいだろうね。
    - 2025年11月6日 9:20 AM #66823 返信
      
      名無しさん
      
      マジか。1トークン/秒だと会話には耐えられないな。コード補完とかバッチ処理なら使えるかも。
- 2025年11月6日 9:23 AM #66824 返信
  
  名無しさん
  
  DeepSeek-R1はDistill版でもパラメータ多いから、素直に8Bとか使った方がいいと思う。
  - 2025年11月6日 9:29 AM #66825 返信
    
    名無しさん
    
    でも70Bのほうが賢いって聞くし、なんとかしたいんだよな。
    - 2025年11月6日 9:38 AM #66826 返信
      
      名無しさん
      
      用途によるけど、ローカルで動かす意味はプライバシーとカスタマイズだからね。速度犠牲にする価値はあるかも。
      - 2025年11月6日 9:40 AM #66827 返信
        
        名無しさん
        
        そうそう、外部APIに送りたくないデータなら遅くてもOK。
- 2025年11月6日 9:42 AM #66828 返信
  
  名無しさん
  
  Redditのスレでも、24GB VRAMで動かすには4bit量子化＋CPUオフロードでRAM16GB以上っていう意見があったよ。
  - 2025年11月6日 9:46 AM #66829 返信
    
    名無しさん
    
    その場合、推論はめちゃくちゃ遅くなるらしいね。
  - 2025年11月6日 9:53 AM #66830 返信
    
    名無しさん
    
    64GB RAMならオフロード分は足りるけど、VRAM帯域がボトルネックになる。
- 2025年11月6日 10:04 AM #66831 返信
  
  名無しさん
  
  そもそもDeepSeek-R1-DistillってLlamaベースだから、他の70Bモデルと大差ないんじゃない？
  - 2025年11月6日 10:06 AM #66832 返信
    
    名無しさん
    
    いや、DeepSeekのRLでファインチューンされてるから、数学とかコーディングは強いって話。
    - 2025年11月6日 10:09 AM #66833 返信
      
      名無しさん
      
      そうなんだ。じゃあ試してみたいけど、環境整えるのが面倒。
- 2025年11月6日 10:14 AM #66834 返信
  
  名無しさん
  
  とりあえずllama.cppの最新版で–mlock使うといいらしい。
  - 2025年11月6日 10:21 AM #66835 返信
    
    名無しさん
    
    –tensor-split指定でオフロード量調整できるよ。例：24GBならレイヤー30くらい？
    - 2025年11月6日 10:23 AM #66836 返信
      
      名無しさん
      
      それやるとVRAM溢れないか心配。実際に動かした人のレポート待ち。
      - 2025年11月6日 10:27 AM #66837 返信
        
        名無しさん
        
        自分で試すのが一番だけど、ダウンロードに時間かかるしな。
- 2025年11月6日 10:33 AM #66838 返信
  
  名無しさん
  
  別に遅くてもいいなら、クラウド使ったほうがコスパ良くない？
  - 2025年11月6日 10:43 AM #66839 返信
    
    名無しさん
    
    そういう問題じゃないんだよ。ローカルで完結させたいんだ。
    - 2025年11月6日 10:44 AM #66840 返信
      
      名無しさん
      
      わかる。ネットワーク経由だとセキュリティ不安だしね。
- 2025年11月6日 10:47 AM #66841 返信
  
  名無しさん
  
  Redditのスレ主は24GB VRAM+64GB RAMで動かせたのかな？
  - 2025年11月6日 10:51 AM #66842 返信
    
    名無しさん
    
    スレでは「動くけど激遅」って結論みたい。実際に試した人がいたかは不明。
    - 2025年11月6日 10:58 AM #66843 返信
      
      名無しさん
      
      なら俺が試してみるか。時間あるし。結果報告するよ。
      - 2025年11月6日 11:10 AM #66844 返信
        
        名無しさん
        
        お願い！設定とか教えてくれ。
投稿者

投稿

26件の返信を表示中（うち親返信8件）

返信先: DeepSeek-R1-Distill-Llama-70Bを24GB VRAM + 64GB RAMで動かせる？遅くてもいいからで#66831に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック