- このトピックには21件の返信、7人の参加者があり、最後に名無しさんにより8ヶ月、 1週前に更新されました。
21件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで「Check this beauty out / need help on vllm Deepseek v4 flash」というスレッドが立っていました。DeepSeek v4のflash attentionをvLLMで動作させる際の課題や、ローカルLLMの運用コスト、プライバシー面のメリットなどが話題になっています。元スレはコメントが少ないですが、ここで議論を広げましょう。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1szeim4/check_this_beauty_out_need_help_on_vllm_deepseek/
-
名無しさんDeepSeek v4 flashってやっぱりメモリ使用量が少ないんだよね?試してみたいけどvLLMの設定が難しそう。
-
名無しさん自分もvLLMでDeepSeek v4 flashを動かそうとしてエラーが出た。キャッシュの設定が原因かもしれない。
-
名無しさんキャッシュはflash attnのバージョン依存らしいよ。vLLMの最新版にアップデートしたら直った。
-
名無しさんなるほど。自分は素直にHugging Faceのtransformersで動かしてる。速度はvLLMより落ちるけど安定してる。
-
-
-
名無しさんこのモデル、ベンチマークでは結構良いスコア出てるよね。ローカルで使うならコスパ良さそう。
-
名無しさんでもDeepSeekって中国企業だし、データ収集が気になる。プライバシー重視ならローカル運用が必須だね。
-
名無しさんローカルならデータ漏洩の心配は減るけど、モデル自体にバイアスがある可能性は否めない。
-
-
名無しさん実際のコーディングタスクで使ってみたけど、普通に使えるレベル。ただし日本語の精度はまだ微妙。
-
名無しさん日本語はどうしてもLLaMA系の方が上だよね。DeepSeekは英語特化っぽい。
-
-
-
名無しさんvLLMの設定で詰まってる人、–enforce-eagerオプション試してみて。メモリ使用量は増えるけど動くよ。
-
名無しさんそのオプション知らなかった。今度試してみる。ありがとう。
-
-
名無しさんFlash attentionって結局どれくらい速いの?体感できるレベル?
-
名無しさん長いコンテキストだと明らかに速いよ。特に8Kトークン超えると差が分かる。
-
-
名無しさんDeepSeek v4 flashってAPIもあるけど、ローカルで動かす方がコスト安いよね?でも電気代考えると微妙かも。
-
名無しさんAPIは従量課金で短い会話なら安いけど、頻繁に使うならローカルの方が結果的に安いと思う。
-
-
名無しさんこのスレ見て自分もインストールしてみた。vLLMのドキュメント通りにやれば一発で動いたよ。
-
名無しさんラッキーだね。自分はCUDAのバージョンでハマった。やっぱり環境によるんだろうな。
-
-
名無しさんDeepSeekシリーズはどんどん進化してるね。次のv5が楽しみ。
-
名無しさんv5って噂あるの?情報源教えてほしい。
-
名無しさんGitHubのリポジトリでissueに書かれてた気がする。ただ正式発表じゃないから信ぴょう性は微妙。
-
-
-
名無しさんとりあえず動かす方法が分かったから、いろんなタスクで試してみる。英語のコード生成はかなり優秀だよ。
-
-
投稿者投稿
21件の返信を表示中(うち親返信9件)
関連するAIトピック
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2026年2月10日 16:11
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44