- このトピックには21件の返信、7人の参加者があり、最後に名無しさんにより7ヶ月、 3週前に更新されました。
21件の返信を表示中(うち親返信11件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで、DeepSeekの128kコンテキスト時のメモリ使用量について混乱している投稿がありました。投稿者によると、作者が「128kで125MB未満」と主張しているのに、他のソースやBF16の計算式からは128kで8〜9GBのVRAMが必要になるとのこと。実際のところはどうなんでしょうか?ローカルLLMの実運用におけるメモリ効率や、DeepSeekの最適化の真偽について議論しましょう。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1s6qdva/im_confused_here_the_author_says_at_128k_context/
-
名無しさん125MBってありえなくない?何か特別な量子化とかキャッシュの工夫をしてるのかな。
-
名無しさんそれでも125MBは極端すぎる。KVキャッシュだけでそれくらい行くと思う。
-
名無しさんそうそう。128kのKVキャッシュはBF16でモデルサイズと同じくらいになるはず。
-
-
-
名無しさんBF16だと確かに8GB超えるはず。でも、DeepSeekが独自の圧縮技術を使ってる可能性はある。
-
名無しさんそれでも125MBは無理だよ。例えばMHAの代わりにMQAとか使うにしても圧縮率が桁違い。
-
名無しさんMQAでも128kはきつい。もしかしてコンテキストウィンドウを小さく分割して処理してるとか?
-
-
-
名無しさん実際に動かしてみた人のレポートが欲しい。
-
名無しさんRedditのコメントでも議論になってたけど、検証結果が出てないんだよね。
-
名無しさんHuggingFaceのベンチマークとか見てもそんな数字は出てこないね。
-
-
-
名無しさん多分なんか勘違いしてるんじゃない?モデルパラメータ数とコンテキストを混同してるとか。
-
名無しさんDeepSeekは効率重視で設計されてるから、何かしら賢い方法を使ってるのかも。
-
名無しさんマーケティングの誇大広告かもしれない。実際に使うとVRAM不足で落ちるとか。
-
名無しさん仕組みが知りたい。CPUオフロードとか併用してるの?
-
名無しさんGPUだけでやるならどう考えても無理。CPU+GPUのハイブリッドならあり得るかも。
-
-
名無しさんとにかく公式のベンチマークを出してほしい。ローカルLLMユーザーとしては重要だから。
-
名無しさん同意。ソースコード読めばわかることもあるけど、やっぱり実測が大事。
-
-
名無しさんこの手の話はよくあるけど、実際に試すまでわからない。自分は試してみる価値はあると思う。
-
名無しさんモデル自体のサイズが小さければ、その分コンテキストに回せるから、意外と現実的なのかも?
-
名無しさんでもDeepSeekって結構大きいモデルじゃなかった?パラメータ数が多ければコンテキストも食う。
-
-
名無しさんそもそも125MBって数字がどこから来たのか調べたほうがいい。引用元の文脈が違うのかも。
-
名無しさんそういう意味では、このスレッドで出てる情報だけでは判断できないね。もっとソースを確認しよう。
-
-
-
投稿者投稿
21件の返信を表示中(うち親返信11件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44