DeepSeek-V4-Flash W4A16+FP8 MTP自己推測で85 tok/s @ 524kコンテキスト達成

名無しさん · 2025-10-09T01:28:20+09:00

DeepSeek-V4-FlashというモデルをW4A16+FP8量子化で動かし、MTP（マルチトークン予測）を使った自己推測により、2枚のRTX PRO 6000 Max-Qで524kコンテキスト、85 tok/sが出たという投稿がありました。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1t9em98/deepseekv4flash_w4a16fp8_with_mtp_selfspeculation/

このトピックには22件の返信、7人の参加者があり、最後に名無しさんにより8ヶ月、 2週前に更新されました。

22件の返信を表示中（うち親返信9件）

投稿者

投稿
- 2025年10月9日 1:28 AM #62456 返信
  
  名無しさん
  
  DeepSeek-V4-FlashというモデルをW4A16+FP8量子化で動かし、MTP（マルチトークン予測）を使った自己推測により、2枚のRTX PRO 6000 Max-Qで524kコンテキスト、85 tok/sが出たという投稿がありました。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1t9em98/deepseekv4flash_w4a16fp8_with_mtp_selfspeculation/
- 2025年10月9日 1:29 AM #62457 返信
  
  名無しさん
  
  85 tok/sって速すぎない？ローカルでこんな速度出るんだ。
  - 2025年10月9日 1:32 AM #62458 返信
    
    名無しさん
    
    でも2枚のRTX PRO 6000 Max-Qだからな。1枚なら半分くらい？それでもすごいけど。
- 2025年10月9日 1:37 AM #62459 返信
  
  名無しさん
  
  524kコンテキストってほぼ全コードベース入るな。実用的だね。
  - 2025年10月9日 1:44 AM #62460 返信
    
    名無しさん
    
    そうそう。長文解析とかにも使えそう。ただしGPUメモリが厳しいけど。
- 2025年10月9日 1:46 AM #62461 返信
  
  名無しさん
  
  MTPって何？マルチトークン予測のこと？
  - 2025年10月9日 1:49 AM #62462 返信
    
    名無しさん
    
    そう、複数トークンを同時に予測して推定速度を上げる技術。自己推測と組み合わせてるみたい。
    - 2025年10月9日 1:55 AM #62463 返信
      
      名無しさん
      
      なるほど。でも実装難しそうだな。有志が試してるのかな。
- 2025年10月9日 2:04 AM #62464 返信
  
  名無しさん
  
  W4A16+FP8って量子化の組み合わせが珍しい。品質は大丈夫なの？
  - 2025年10月9日 2:06 AM #62465 返信
    
    名無しさん
    
    ベンチマーク見たいところだね。DeepSeekのモデルは量子化に強いって話だけど。
    - 2025年10月9日 2:08 AM #62466 返信
      
      名無しさん
      
      確かにDeepSeekは量子化耐性高いって聞く。でもFP8はまだ新しくて情報少ない。
- 2025年10月9日 2:12 AM #62467 返信
  
  名無しさん
  
  RTX PRO 6000 Max-Qって実売いくらだ？一般人には手が出ないな…
  - 2025年10月9日 2:19 AM #62468 返信
    
    名無しさん
    
    調べたら1枚200万以上するらしい。2枚だと400万。ゲーム用ではなくワークステーション向けだね。
    - 2025年10月9日 2:30 AM #62469 返信
      
      名無しさん
      
      それならクラウドの方が安いかも。でもローカルならではのプライバシー面は魅力。
- 2025年10月9日 2:32 AM #62470 返信
  
  名無しさん
  
  これってコーディング用途にも使える？DeepSeekはコード生成強いって聞くけど。
  - 2025年10月9日 2:35 AM #62471 返信
    
    名無しさん
    
    使えると思う。ただし量子化で精度が落ちてる可能性あるから、実際に試さないとね。
- 2025年10月9日 2:40 AM #62472 返信
  
  名無しさん
  
  マルチGPUの設定って面倒そう。オフロードとかもあるし、自分には敷居高い。
  - 2025年10月9日 2:47 AM #62473 返信
    
    名無しさん
    
    でも最近はツールが整ってきてるから、そのうち簡単になるかも。期待。
- 2025年10月9日 2:49 AM #62474 返信
  
  名無しさん
  
  このモデルって一般公開されてるの？DeepSeekの公式？
  - 2025年10月9日 2:53 AM #62475 返信
    
    名無しさん
    
    多分。DeepSeekはオープンなモデル多いし、V4も出てるはず。ただしこの特定の量子化設定はコミュニティが作ったのかも。
    - 2025年10月9日 2:59 AM #62476 返信
      
      名無しさん
      
      情報ありがとう。ちょっと調べてみるわ。
- 2025年10月9日 3:09 AM #62477 返信
  
  名無しさん
  
  これからの標準スペックになりそうだね。数年後には一般向けGPUでもこの速度が出るようになるかも。
  - 2025年10月9日 3:10 AM #62478 返信
    
    名無しさん
    
    進化が速すぎてついていけないけど、楽しみでもある。
投稿者

投稿

22件の返信を表示中（うち親返信9件）

返信先: DeepSeek-V4-Flash W4A16+FP8 MTP自己推測で85 tok/s @ 524kコンテキスト達成で#62459に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック