DeepSeek v4 FlashでHopper上で200 tok/s近く出すコツ

名無しさん · 2025-06-17T11:45:26+09:00

Redditのr/LocalLLaMAで話題になっていたスレ「Here are some tips on hitting nearly 200 tok/s for DeepSeek v4 Flash on Hopper」をまとめました。DeepSeek v4 FlashをHopperアーキテクチャで高速動作させるテクニックが議論されているようです。実際のところ、本当に200 tok/s出るのか？環境や設定の工夫について、皆さんの経験や意見を聞かせてください。

このトピックには21件の返信、7人の参加者があり、最後に名無しさんにより1年前に更新されました。

21件の返信を表示中（うち親返信12件）

投稿者

投稿
- 2025年6月17日 11:45 AM #61549 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで話題になっていたスレ「Here are some tips on hitting nearly 200 tok/s for DeepSeek v4 Flash on Hopper」をまとめました。DeepSeek v4 FlashをHopperアーキテクチャで高速動作させるテクニックが議論されているようです。実際のところ、本当に200 tok/s出るのか？環境や設定の工夫について、皆さんの経験や意見を聞かせてください。
- 2025年6月17日 11:47 AM #61550 返信
  
  名無しさん
  
  200 tok/sってマジ？うちのH100じゃとても出ないわ。何か特殊な量子化でも使ってるのかな。
  - 2025年6月17日 11:54 AM #61552 返信
    
    名無しさん
    
    H100でもバッチサイズやプロンプト長を調整すれば近づけるらしいよ。試してみる価値あり。
- 2025年6月17日 11:50 AM #61551 返信
  
  名無しさん
  
  やっぱりHopper専用の最適化が必要みたいね。FP8とか蒸留とか。
- 2025年6月17日 12:01 PM #61553 返信
  
  名無しさん
  
  DeepSeek v4 Flashって、API経由でもそんなに出るの？ローカルじゃないと無理かな。
  - 2025年6月17日 12:03 PM #61554 返信
    
    名無しさん
    
    APIだとレイテンシがあるから無理だと思う。やっぱりローカルで専用ハードがあってこそ。
- 2025年6月17日 12:06 PM #61555 返信
  
  名無しさん
  
  この手の最適化テクニックって、結局はメモリバンド幅が肝心なんだよな。
  - 2025年6月17日 12:12 PM #61556 返信
    
    名無しさん
    
    そうそう。HopperのHBM3が効いてるらしい。A100では同じ設定でも出ない。
- 2025年6月17日 12:21 PM #61557 返信
  
  名無しさん
  
  でも200 tok/sって実用的なのか？そんなにスループット必要か？
  - 2025年6月17日 12:23 PM #61558 返信
    
    名無しさん
    
    チャットボットのバッチ処理とかには役立つかも。個人利用ならオーバースペック。
- 2025年6月17日 12:25 PM #61559 返信
  
  名無しさん
  
  スレ、まだコメント少ないね。でも技術的には面白い話題。
- 2025年6月17日 12:29 PM #61560 返信
  
  名無しさん
  
  DeepSeekって中国のモデルだけど、ちゃんと使えるの？セキュリティ面とか。
  - 2025年6月17日 12:36 PM #61561 返信
    
    名無しさん
    
    ローカルで動かす分には問題ないと思う。オープンだし。
- 2025年6月17日 12:47 PM #61562 返信
  
  名無しさん
  
  このスレの著者、具体的なコードとか公開してくれないかな。再現性知りたい。
- 2025年6月17日 12:49 PM #61563 返信
  
  名無しさん
  
  vLLMとか使ってるのかな？それとも独自実装？
  - 2025年6月17日 12:52 PM #61564 返信
    
    名無しさん
    
    おそらくFlashAttentionとかをフル活用してるんだろうね。
- 2025年6月17日 12:57 PM #61565 返信
  
  名無しさん
  
  電力消費や発熱は大丈夫なのか？そこも気になる。
  - 2025年6月17日 1:04 PM #61566 返信
    
    名無しさん
    
    Hopperは電力効率いいらしいけど、200 tok/sだとさすがに熱くなるでしょ。
- 2025年6月17日 1:07 PM #61567 返信
  
  名無しさん
  
  比較として、Llama 3 70Bだとどのくらい出るんだろ？
  - 2025年6月17日 1:10 PM #61568 返信
    
    名無しさん
    
    モデルサイズ次第だけど、同じHopperでもDeepSeekの方が最適化進んでる感じ。
- 2025年6月17日 1:16 PM #61569 返信
  
  名無しさん
  
  自分はまだA100だから、アップグレードするか悩む。
  - 2025年6月17日 1:26 PM #61570 返信
    
    名無しさん
    
    A100でも工夫次第で結構出るよ。メモリ帯域がネックだけどね。
投稿者

投稿

21件の返信を表示中（うち親返信12件）

返信先: DeepSeek v4 FlashでHopper上で200 tok/s近く出すコツで#61552に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック