DeepSeek-V4 (284B MoE)を1.25GBのVRAMで動かす手法

名無しさん · 2025-10-04T14:52:20+09:00

RedditのLocalLLaMAサブレで、DeepSeek-V4（284BパラメータのMoEモデル）をわずか1.25GBのVRAMで動作させる手法が話題になっていました。レイヤーストリーミングという技術を使い、モデルを段階的にロードすることでメモリ使用量を大幅に削減するそうです。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1ttmy9k/running_deepseekv4_284b_moe_under_125_gb_vram/ 実際に試した人はいる？処理速度は実用的なレベルなのか、それともデモ程度なのか気になります。コストやプライバシーの面でローカルLLMは魅力的ですが、この手法の実用性について皆さんの意見を聞かせてください。

このトピックには15件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。

15件の返信を表示中（うち親返信7件）

投稿者

投稿
- 2025年10月4日 2:52 PM #61810 返信
  
  名無しさん
  
  RedditのLocalLLaMAサブレで、DeepSeek-V4（284BパラメータのMoEモデル）をわずか1.25GBのVRAMで動作させる手法が話題になっていました。レイヤーストリーミングという技術を使い、モデルを段階的にロードすることでメモリ使用量を大幅に削減するそうです。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1ttmy9k/running_deepseekv4_284b_moe_under_125_gb_vram/
  
  実際に試した人はいる？処理速度は実用的なレベルなのか、それともデモ程度なのか気になります。コストやプライバシーの面でローカルLLMは魅力的ですが、この手法の実用性について皆さんの意見を聞かせてください。
- 2025年10月4日 2:53 PM #61811 返信
  
  名無しさん
  
  1.25GBで動くってすごいな。でも速度はどうなんだろう？実用になるレベルなのかな。
  - 2025年10月4日 2:56 PM #61812 返信
    
    名無しさん
    
    試したけど、とにかく遅い。一秒に一トークンも出ない感じ。デモ用だと思う。
- 2025年10月4日 3:01 PM #61813 返信
  
  名無しさん
  
  DeepSeekって中国のモデルだよね？プライバシー面でローカルで動かせるのは良いけど、品質はどうなんだろう。
  - 2025年10月4日 3:08 PM #61814 返信
    
    名無しさん
    
    品質は悪くないよ。特に数学やコーディングは得意らしい。でもこの手法だと量子化も必要で、精度は落ちるかも。
- 2025年10月4日 3:10 PM #61815 返信
  
  名無しさん
  
  レイヤーストリーミングって具体的にどういう仕組みなんだ？誰か解説してくれないか。
  - 2025年10月4日 3:13 PM #61816 返信
    
    名無しさん
    
    簡単に言うと、モデルを全部VRAMに載せるんじゃなくて、必要なレイヤーだけ都度ロードしながら推論する方式。動作は遅いけどメモリは節約できる。
- 2025年10月4日 3:19 PM #61817 返信
  
  名無しさん
  
  これ、8GBくらいの普通のグラボでも使えるの？それとも専用のソフトが必要？
  - 2025年10月4日 3:28 PM #61818 返信
    
    名無しさん
    
    手順を見る限り、ソフトは公開されてる。たぶん普通のグラボでも動くけど、速度は期待しないほうがいい。
- 2025年10月4日 3:30 PM #61819 返信
  
  名無しさん
  
  284B MoEって、実際はアクティブなパラメータがもっと少ないんでしょ？それでも1.25GBは驚異的だけど。
  - 2025年10月4日 3:32 PM #61820 返信
    
    名無しさん
    
    そう、MoEだから推論時は一部しか使わない。でもそれでも通常なら数十GB必要。ストリーミングで削ってるのがポイント。
- 2025年10月4日 3:36 PM #61821 返信
  
  名無しさん
  
  こういう技術が出てくると、ローカルLLMの敷居が下がっていいね。でもまだ実用には遠いか。
  - 2025年10月4日 3:43 PM #61822 返信
    
    名無しさん
    
    そうそう。でも研究としては面白い。将来の最適化につながるかも。
- 2025年10月4日 3:54 PM #61823 返信
  
  名無しさん
  
  こういうのって結局、クラウドAPIの方がコスパいいんじゃないの？電気代考えたら。
  - 2025年10月4日 3:56 PM #61824 返信
    
    名無しさん
    
    プライバシー重視ならローカルに価値がある。でも性能とコストのバランスは難しいね。
    - 2025年10月4日 3:59 PM #61825 返信
      
      名無しさん
      
      同意。用途次第。簡単なチャットなら十分かもしれない。俺は試してみる価値あると思う。
投稿者

投稿

15件の返信を表示中（うち親返信7件）

返信先: DeepSeek-V4 (284B MoE)を1.25GBのVRAMで動かす手法

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

関連するAIトピック