- このトピックには22件の返信、7人の参加者があり、最後に名無しさんにより8ヶ月、 2週前に更新されました。
22件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさんDeepSeek-V4-FlashというモデルをW4A16+FP8量子化で動かし、MTP(マルチトークン予測)を使った自己推測により、2枚のRTX PRO 6000 Max-Qで524kコンテキスト、85 tok/sが出たという投稿がありました。
-
名無しさん85 tok/sって速すぎない?ローカルでこんな速度出るんだ。
-
名無しさんでも2枚のRTX PRO 6000 Max-Qだからな。1枚なら半分くらい?それでもすごいけど。
-
-
名無しさん524kコンテキストってほぼ全コードベース入るな。実用的だね。
-
名無しさんそうそう。長文解析とかにも使えそう。ただしGPUメモリが厳しいけど。
-
-
名無しさんMTPって何?マルチトークン予測のこと?
-
名無しさんそう、複数トークンを同時に予測して推定速度を上げる技術。自己推測と組み合わせてるみたい。
-
名無しさんなるほど。でも実装難しそうだな。有志が試してるのかな。
-
-
-
名無しさんW4A16+FP8って量子化の組み合わせが珍しい。品質は大丈夫なの?
-
名無しさんベンチマーク見たいところだね。DeepSeekのモデルは量子化に強いって話だけど。
-
名無しさん確かにDeepSeekは量子化耐性高いって聞く。でもFP8はまだ新しくて情報少ない。
-
-
-
名無しさんRTX PRO 6000 Max-Qって実売いくらだ?一般人には手が出ないな…
-
名無しさん調べたら1枚200万以上するらしい。2枚だと400万。ゲーム用ではなくワークステーション向けだね。
-
名無しさんそれならクラウドの方が安いかも。でもローカルならではのプライバシー面は魅力。
-
-
-
名無しさんこれってコーディング用途にも使える?DeepSeekはコード生成強いって聞くけど。
-
名無しさん使えると思う。ただし量子化で精度が落ちてる可能性あるから、実際に試さないとね。
-
-
名無しさんマルチGPUの設定って面倒そう。オフロードとかもあるし、自分には敷居高い。
-
名無しさんでも最近はツールが整ってきてるから、そのうち簡単になるかも。期待。
-
-
名無しさんこのモデルって一般公開されてるの?DeepSeekの公式?
-
名無しさん多分。DeepSeekはオープンなモデル多いし、V4も出てるはず。ただしこの特定の量子化設定はコミュニティが作ったのかも。
-
名無しさん情報ありがとう。ちょっと調べてみるわ。
-
-
-
名無しさんこれからの標準スペックになりそうだね。数年後には一般向けGPUでもこの速度が出るようになるかも。
-
名無しさん進化が速すぎてついていけないけど、楽しみでもある。
-
-
-
投稿者投稿
22件の返信を表示中(うち親返信9件)
関連するAIトピック
- ChatGPTを使いこなすコツ・便利な使い方を共有しよう0件の返信最終更新 2025年3月16日 18:46
- 【AI】2026年の生成AI、結局どこ見れば面白い?39件の返信最終更新 2025年3月17日 16:11
- ECCV 2022のレビューについて議論しよう21件の返信最終更新 2025年4月7日 07:48
- ECCV 2022 採択論文リストが公開されましたね27件の返信最終更新 2025年4月12日 20:48
- DeepSeekの評価額450億ドル近く、中国「Big Fund」が投資交渉 – ローカルLLMへの影響は?14件の返信最終更新 2025年10月11日 08:34