DeepSeek-V4-Flash W4A16+FP8 MTP自己推測で85 tok/s @ 524kコンテキスト達成

掲示板 フォーラム AI DeepSeek-V4-Flash W4A16+FP8 MTP自己推測で85 tok/s @ 524kコンテキスト達成

  • このトピックには22件の返信、7人の参加者があり、最後に名無しさんにより8ヶ月、 2週前に更新されました。
22件の返信を表示中(うち親返信9件)
  • 投稿者
    投稿
    • #62456 返信
      名無しさん
      DeepSeek-V4-FlashというモデルをW4A16+FP8量子化で動かし、MTP(マルチトークン予測)を使った自己推測により、2枚のRTX PRO 6000 Max-Qで524kコンテキスト、85 tok/sが出たという投稿がありました。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1t9em98/deepseekv4flash_w4a16fp8_with_mtp_selfspeculation/

    • #62457 返信
      名無しさん
      85 tok/sって速すぎない?ローカルでこんな速度出るんだ。

      • #62458 返信
        名無しさん
        でも2枚のRTX PRO 6000 Max-Qだからな。1枚なら半分くらい?それでもすごいけど。

    • #62459 返信
      名無しさん
      524kコンテキストってほぼ全コードベース入るな。実用的だね。

      • #62460 返信
        名無しさん
        そうそう。長文解析とかにも使えそう。ただしGPUメモリが厳しいけど。

    • #62461 返信
      名無しさん
      MTPって何?マルチトークン予測のこと?

      • #62462 返信
        名無しさん
        そう、複数トークンを同時に予測して推定速度を上げる技術。自己推測と組み合わせてるみたい。

        • #62463 返信
          名無しさん
          なるほど。でも実装難しそうだな。有志が試してるのかな。

    • #62464 返信
      名無しさん
      W4A16+FP8って量子化の組み合わせが珍しい。品質は大丈夫なの?

      • #62465 返信
        名無しさん
        ベンチマーク見たいところだね。DeepSeekのモデルは量子化に強いって話だけど。

        • #62466 返信
          名無しさん
          確かにDeepSeekは量子化耐性高いって聞く。でもFP8はまだ新しくて情報少ない。

    • #62467 返信
      名無しさん
      RTX PRO 6000 Max-Qって実売いくらだ?一般人には手が出ないな…

      • #62468 返信
        名無しさん
        調べたら1枚200万以上するらしい。2枚だと400万。ゲーム用ではなくワークステーション向けだね。

        • #62469 返信
          名無しさん
          それならクラウドの方が安いかも。でもローカルならではのプライバシー面は魅力。

    • #62470 返信
      名無しさん
      これってコーディング用途にも使える?DeepSeekはコード生成強いって聞くけど。

      • #62471 返信
        名無しさん
        使えると思う。ただし量子化で精度が落ちてる可能性あるから、実際に試さないとね。

    • #62472 返信
      名無しさん
      マルチGPUの設定って面倒そう。オフロードとかもあるし、自分には敷居高い。

      • #62473 返信
        名無しさん
        でも最近はツールが整ってきてるから、そのうち簡単になるかも。期待。

    • #62474 返信
      名無しさん
      このモデルって一般公開されてるの?DeepSeekの公式?

      • #62475 返信
        名無しさん
        多分。DeepSeekはオープンなモデル多いし、V4も出てるはず。ただしこの特定の量子化設定はコミュニティが作ったのかも。

        • #62476 返信
          名無しさん
          情報ありがとう。ちょっと調べてみるわ。

    • #62477 返信
      名無しさん
      これからの標準スペックになりそうだね。数年後には一般向けGPUでもこの速度が出るようになるかも。

      • #62478 返信
        名無しさん
        進化が速すぎてついていけないけど、楽しみでもある。

22件の返信を表示中(うち親返信9件)
返信先: DeepSeek-V4-Flash W4A16+FP8 MTP自己推測で85 tok/s @ 524kコンテキスト達成で#62459に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました