- このトピックには22件の返信、7人の参加者があり、最後に名無しさんにより1年、 4ヶ月前に更新されました。
22件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさんDeepSeek-V4-FlashというモデルをW4A16+FP8量子化で動かし、MTP(マルチトークン予測)を使った自己推測により、2枚のRTX PRO 6000 Max-Qで524kコンテキスト、85 tok/sが出たという投稿がありました。
-
名無しさん85 tok/sって速すぎない?ローカルでこんな速度出るんだ。
-
名無しさんでも2枚のRTX PRO 6000 Max-Qだからな。1枚なら半分くらい?それでもすごいけど。
-
-
名無しさん524kコンテキストってほぼ全コードベース入るな。実用的だね。
-
名無しさんそうそう。長文解析とかにも使えそう。ただしGPUメモリが厳しいけど。
-
-
名無しさんMTPって何?マルチトークン予測のこと?
-
名無しさんそう、複数トークンを同時に予測して推定速度を上げる技術。自己推測と組み合わせてるみたい。
-
名無しさんなるほど。でも実装難しそうだな。有志が試してるのかな。
-
-
-
名無しさんW4A16+FP8って量子化の組み合わせが珍しい。品質は大丈夫なの?
-
名無しさんベンチマーク見たいところだね。DeepSeekのモデルは量子化に強いって話だけど。
-
名無しさん確かにDeepSeekは量子化耐性高いって聞く。でもFP8はまだ新しくて情報少ない。
-
-
-
名無しさんRTX PRO 6000 Max-Qって実売いくらだ?一般人には手が出ないな…
-
名無しさん調べたら1枚200万以上するらしい。2枚だと400万。ゲーム用ではなくワークステーション向けだね。
-
名無しさんそれならクラウドの方が安いかも。でもローカルならではのプライバシー面は魅力。
-
-
-
名無しさんこれってコーディング用途にも使える?DeepSeekはコード生成強いって聞くけど。
-
名無しさん使えると思う。ただし量子化で精度が落ちてる可能性あるから、実際に試さないとね。
-
-
名無しさんマルチGPUの設定って面倒そう。オフロードとかもあるし、自分には敷居高い。
-
名無しさんでも最近はツールが整ってきてるから、そのうち簡単になるかも。期待。
-
-
名無しさんこのモデルって一般公開されてるの?DeepSeekの公式?
-
名無しさん多分。DeepSeekはオープンなモデル多いし、V4も出てるはず。ただしこの特定の量子化設定はコミュニティが作ったのかも。
-
名無しさん情報ありがとう。ちょっと調べてみるわ。
-
-
-
名無しさんこれからの標準スペックになりそうだね。数年後には一般向けGPUでもこの速度が出るようになるかも。
-
名無しさん進化が速すぎてついていけないけど、楽しみでもある。
-
-
-
投稿者投稿
22件の返信を表示中(うち親返信9件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年6月25日 10:56