DeepSeek-V4-Flash W4A16+FP8 MTP自己推測で85 tok/s @ 524kコンテキスト達成

名無しさん · 2025-02-20T22:06:49+09:00

DeepSeek-V4-FlashというモデルをW4A16+FP8量子化で動かし、MTP（マルチトークン予測）を使った自己推測により、2枚のRTX PRO 6000 Max-Qで524kコンテキスト、85 tok/sが出たという投稿がありました。

このトピックには22件の返信、7人の参加者があり、最後に名無しさんにより1年、 4ヶ月前に更新されました。

22件の返信を表示中（うち親返信9件）

投稿者

投稿
- 2025年2月20日 10:06 PM #62456 返信
  
  名無しさん
  
  DeepSeek-V4-FlashというモデルをW4A16+FP8量子化で動かし、MTP（マルチトークン予測）を使った自己推測により、2枚のRTX PRO 6000 Max-Qで524kコンテキスト、85 tok/sが出たという投稿がありました。
- 2025年2月20日 10:08 PM #62457 返信
  
  名無しさん
  
  85 tok/sって速すぎない？ローカルでこんな速度出るんだ。
  - 2025年2月20日 10:11 PM #62458 返信
    
    名無しさん
    
    でも2枚のRTX PRO 6000 Max-Qだからな。1枚なら半分くらい？それでもすごいけど。
- 2025年2月20日 10:15 PM #62459 返信
  
  名無しさん
  
  524kコンテキストってほぼ全コードベース入るな。実用的だね。
  - 2025年2月20日 10:22 PM #62460 返信
    
    名無しさん
    
    そうそう。長文解析とかにも使えそう。ただしGPUメモリが厳しいけど。
- 2025年2月20日 10:24 PM #62461 返信
  
  名無しさん
  
  MTPって何？マルチトークン予測のこと？
  - 2025年2月20日 10:28 PM #62462 返信
    
    名無しさん
    
    そう、複数トークンを同時に予測して推定速度を上げる技術。自己推測と組み合わせてるみたい。
    - 2025年2月20日 10:34 PM #62463 返信
      
      名無しさん
      
      なるほど。でも実装難しそうだな。有志が試してるのかな。
- 2025年2月20日 10:43 PM #62464 返信
  
  名無しさん
  
  W4A16+FP8って量子化の組み合わせが珍しい。品質は大丈夫なの？
  - 2025年2月20日 10:44 PM #62465 返信
    
    名無しさん
    
    ベンチマーク見たいところだね。DeepSeekのモデルは量子化に強いって話だけど。
    - 2025年2月20日 10:47 PM #62466 返信
      
      名無しさん
      
      確かにDeepSeekは量子化耐性高いって聞く。でもFP8はまだ新しくて情報少ない。
- 2025年2月20日 10:51 PM #62467 返信
  
  名無しさん
  
  RTX PRO 6000 Max-Qって実売いくらだ？一般人には手が出ないな…
  - 2025年2月20日 10:57 PM #62468 返信
    
    名無しさん
    
    調べたら1枚200万以上するらしい。2枚だと400万。ゲーム用ではなくワークステーション向けだね。
    - 2025年2月20日 11:09 PM #62469 返信
      
      名無しさん
      
      それならクラウドの方が安いかも。でもローカルならではのプライバシー面は魅力。
- 2025年2月20日 11:10 PM #62470 返信
  
  名無しさん
  
  これってコーディング用途にも使える？DeepSeekはコード生成強いって聞くけど。
  - 2025年2月20日 11:13 PM #62471 返信
    
    名無しさん
    
    使えると思う。ただし量子化で精度が落ちてる可能性あるから、実際に試さないとね。
- 2025年2月20日 11:18 PM #62472 返信
  
  名無しさん
  
  マルチGPUの設定って面倒そう。オフロードとかもあるし、自分には敷居高い。
  - 2025年2月20日 11:26 PM #62473 返信
    
    名無しさん
    
    でも最近はツールが整ってきてるから、そのうち簡単になるかも。期待。
- 2025年2月20日 11:28 PM #62474 返信
  
  名無しさん
  
  このモデルって一般公開されてるの？DeepSeekの公式？
  - 2025年2月20日 11:32 PM #62475 返信
    
    名無しさん
    
    多分。DeepSeekはオープンなモデル多いし、V4も出てるはず。ただしこの特定の量子化設定はコミュニティが作ったのかも。
    - 2025年2月20日 11:37 PM #62476 返信
      
      名無しさん
      
      情報ありがとう。ちょっと調べてみるわ。
- 2025年2月20日 11:47 PM #62477 返信
  
  名無しさん
  
  これからの標準スペックになりそうだね。数年後には一般向けGPUでもこの速度が出るようになるかも。
  - 2025年2月20日 11:49 PM #62478 返信
    
    名無しさん
    
    進化が速すぎてついていけないけど、楽しみでもある。
投稿者

投稿

22件の返信を表示中（うち親返信9件）

返信先: DeepSeek-V4-Flash W4A16+FP8 MTP自己推測で85 tok/s @ 524kコンテキスト達成で#62467に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック