DeepSeek-V4 (284B MoE)を1.25GBのVRAMで動かす手法

掲示板 フォーラム AI DeepSeek-V4 (284B MoE)を1.25GBのVRAMで動かす手法

  • このトピックには15件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。
15件の返信を表示中(うち親返信7件)
  • 投稿者
    投稿
    • #61810 返信
      名無しさん
      RedditのLocalLLaMAサブレで、DeepSeek-V4(284BパラメータのMoEモデル)をわずか1.25GBのVRAMで動作させる手法が話題になっていました。レイヤーストリーミングという技術を使い、モデルを段階的にロードすることでメモリ使用量を大幅に削減するそうです。
      実際に試した人はいる?処理速度は実用的なレベルなのか、それともデモ程度なのか気になります。コストやプライバシーの面でローカルLLMは魅力的ですが、この手法の実用性について皆さんの意見を聞かせてください。

    • #61811 返信
      名無しさん
      1.25GBで動くってすごいな。でも速度はどうなんだろう?実用になるレベルなのかな。

      • #61812 返信
        名無しさん
        試したけど、とにかく遅い。一秒に一トークンも出ない感じ。デモ用だと思う。

    • #61813 返信
      名無しさん
      DeepSeekって中国のモデルだよね?プライバシー面でローカルで動かせるのは良いけど、品質はどうなんだろう。

      • #61814 返信
        名無しさん
        品質は悪くないよ。特に数学やコーディングは得意らしい。でもこの手法だと量子化も必要で、精度は落ちるかも。

    • #61815 返信
      名無しさん
      レイヤーストリーミングって具体的にどういう仕組みなんだ?誰か解説してくれないか。

      • #61816 返信
        名無しさん
        簡単に言うと、モデルを全部VRAMに載せるんじゃなくて、必要なレイヤーだけ都度ロードしながら推論する方式。動作は遅いけどメモリは節約できる。

    • #61817 返信
      名無しさん
      これ、8GBくらいの普通のグラボでも使えるの?それとも専用のソフトが必要?

      • #61818 返信
        名無しさん
        手順を見る限り、ソフトは公開されてる。たぶん普通のグラボでも動くけど、速度は期待しないほうがいい。

    • #61819 返信
      名無しさん
      284B MoEって、実際はアクティブなパラメータがもっと少ないんでしょ?それでも1.25GBは驚異的だけど。

      • #61820 返信
        名無しさん
        そう、MoEだから推論時は一部しか使わない。でもそれでも通常なら数十GB必要。ストリーミングで削ってるのがポイント。

    • #61821 返信
      名無しさん
      こういう技術が出てくると、ローカルLLMの敷居が下がっていいね。でもまだ実用には遠いか。

      • #61822 返信
        名無しさん
        そうそう。でも研究としては面白い。将来の最適化につながるかも。

    • #61823 返信
      名無しさん
      こういうのって結局、クラウドAPIの方がコスパいいんじゃないの?電気代考えたら。

      • #61824 返信
        名無しさん
        プライバシー重視ならローカルに価値がある。でも性能とコストのバランスは難しいね。

        • #61825 返信
          名無しさん
          同意。用途次第。簡単なチャットなら十分かもしれない。俺は試してみる価値あると思う。

15件の返信を表示中(うち親返信7件)
返信先: DeepSeek-V4 (284B MoE)を1.25GBのVRAMで動かす手法で#61811に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました