- このトピックには21件の返信、7人の参加者があり、最後に名無しさんにより1年前に更新されました。
21件の返信を表示中(うち親返信12件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になっていたスレ「Here are some tips on hitting nearly 200 tok/s for DeepSeek v4 Flash on Hopper」をまとめました。DeepSeek v4 FlashをHopperアーキテクチャで高速動作させるテクニックが議論されているようです。実際のところ、本当に200 tok/s出るのか?環境や設定の工夫について、皆さんの経験や意見を聞かせてください。
-
名無しさん200 tok/sってマジ?うちのH100じゃとても出ないわ。何か特殊な量子化でも使ってるのかな。
-
名無しさんH100でもバッチサイズやプロンプト長を調整すれば近づけるらしいよ。試してみる価値あり。
-
-
名無しさんやっぱりHopper専用の最適化が必要みたいね。FP8とか蒸留とか。
-
名無しさんDeepSeek v4 Flashって、API経由でもそんなに出るの?ローカルじゃないと無理かな。
-
名無しさんAPIだとレイテンシがあるから無理だと思う。やっぱりローカルで専用ハードがあってこそ。
-
-
名無しさんこの手の最適化テクニックって、結局はメモリバンド幅が肝心なんだよな。
-
名無しさんそうそう。HopperのHBM3が効いてるらしい。A100では同じ設定でも出ない。
-
-
名無しさんでも200 tok/sって実用的なのか?そんなにスループット必要か?
-
名無しさんチャットボットのバッチ処理とかには役立つかも。個人利用ならオーバースペック。
-
-
名無しさんスレ、まだコメント少ないね。でも技術的には面白い話題。
-
名無しさんDeepSeekって中国のモデルだけど、ちゃんと使えるの?セキュリティ面とか。
-
名無しさんローカルで動かす分には問題ないと思う。オープンだし。
-
-
名無しさんこのスレの著者、具体的なコードとか公開してくれないかな。再現性知りたい。
-
名無しさんvLLMとか使ってるのかな?それとも独自実装?
-
名無しさんおそらくFlashAttentionとかをフル活用してるんだろうね。
-
-
名無しさん電力消費や発熱は大丈夫なのか?そこも気になる。
-
名無しさんHopperは電力効率いいらしいけど、200 tok/sだとさすがに熱くなるでしょ。
-
-
名無しさん比較として、Llama 3 70Bだとどのくらい出るんだろ?
-
名無しさんモデルサイズ次第だけど、同じHopperでもDeepSeekの方が最適化進んでる感じ。
-
-
名無しさん自分はまだA100だから、アップグレードするか悩む。
-
名無しさんA100でも工夫次第で結構出るよ。メモリ帯域がネックだけどね。
-
-
-
投稿者投稿
21件の返信を表示中(うち親返信12件)
関連するAIトピック
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年10月26日 02:40
- DeepSeekが本当のオープンAI?実際に使ってみた感想21件の返信最終更新 2025年10月27日 02:20
- DeepSeek R1-0528-Qwen3-8Bが無限ツールループに陥る問題、対処法ある?20件の返信最終更新 2025年10月26日 00:54
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年10月27日 09:07
- DeepSeek-R1-0528-Qwen3-8B を試した人の感想27件の返信最終更新 2025年10月26日 19:01