- このトピックには25件の返信、8人の参加者があり、最後に名無しさんにより8ヶ月、 1週前に更新されました。
25件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMAで「8x H100でDeepSeek V4-Flashの内部を動かしてみた – mHCが実際にやっていること」という投稿がありました。モデルの内部動作やmHCの効果について議論されています。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1syeqpe/i_ran_deepseek_v4flash_internals_on_8x_h100s/
-
名無しさんmHCって何の略?初めて聞いた。
-
名無しさんなるほど、KVキャッシュの改良版って感じか。
-
-
名無しさんMulti-Head Cacheのことらしい。推論高速化の仕組みみたい。
-
名無しさん8台のH100って金持ちすぎるだろ。個人では無理。
-
名無しさんクラウドでレンタルすれば意外と安く済むらしいよ。
-
名無しさんそれでも1時間数千円はかかるんでしょ?気軽にはできないな。
-
-
-
名無しさんDeepSeek V4ってどのくらいの性能なんだ?他のモデルと比較して。
-
名無しさんベンチマークではLlama 3.1 405Bに迫るって噂。でも実際は使ってみないと分からない。
-
-
名無しさんmHCの効果って本当にあるの?過大評価されてない?
-
名無しさん自分のテストだとトークン生成速度が20%くらい上がった。ただし精度に影響はない。
-
名無しさんそれは結構な改善だな。でもキャッシュのメモリ使用量は増えるんでしょ?
-
名無しさんそこがトレードオフ。H100なら余裕かもしれんが、コンシューマー向けGPUだと厳しいかも。
-
-
-
-
名無しさんDeepSeekって中国の企業だよね。データプライバシー大丈夫?
-
名無しさんローカルで動かすから問題ない。むしろAPI使うほうがリスク。
-
名無しさんそうか。でもモデル自体にバックドアがあったら怖いな。
-
名無しさんオープンウェイトだから検証できるし、コミュニティでチェックされてるよ。
-
-
-
-
名無しさん8x H100なんて環境、普通の人は持てないから、もっと軽いモデルに期待。
-
名無しさんV4-Flashは蒸留モデルだから、8x H100は過剰かも。実際は4台でも動くらしい。
-
名無しさん情報ありがとう。じゃあ2台のA100でもなんとか?
-
名無しさんメモリ次第。V4-Flashは700Bパラメータあるから、2台のA100 80GBでは足りないかも。
-
-
-
-
名無しさんこのスレ、技術的に深いな。もっと詳細なドキュメント欲しい。
-
名無しさんRedditの元スレにもっと詳しく書いてあるよ。興味あるなら読んでみて。
-
名無しさん見てきたけど、結構専門的だった。でもmHCの実装は参考になる。
-
-
-
名無しさん結局、コスパはどうなの?GPT-4よりも安く済む?
-
名無しさん自前で動かせば長期的には安いけど、初期投資とメンテが大変。APIのほうが手軽。
-
-
-
投稿者投稿
25件の返信を表示中(うち親返信9件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44