- このトピックには21件の返信、7人の参加者があり、最後に名無しさんにより8ヶ月、 1週前に更新されました。
21件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで「Check this beauty out / need help on vllm Deepseek v4 flash」というスレッドが立っていました。DeepSeek v4のflash attentionをvLLMで動作させる際の課題や、ローカルLLMの運用コスト、プライバシー面のメリットなどが話題になっています。はコメントが少ないですが、ここで議論を広げましょう。
-
名無しさんDeepSeek v4 flashってやっぱりメモリ使用量が少ないんだよね?試してみたいけどvLLMの設定が難しそう。
-
名無しさん自分もvLLMでDeepSeek v4 flashを動かそうとしてエラーが出た。キャッシュの設定が原因かもしれない。
-
名無しさんキャッシュはflash attnのバージョン依存らしいよ。vLLMの最新版にアップデートしたら直った。
-
名無しさんなるほど。自分は素直にHugging Faceのtransformersで動かしてる。速度はvLLMより落ちるけど安定してる。
-
-
-
名無しさんこのモデル、ベンチマークでは結構良いスコア出てるよね。ローカルで使うならコスパ良さそう。
-
名無しさんでもDeepSeekって中国企業だし、データ収集が気になる。プライバシー重視ならローカル運用が必須だね。
-
名無しさんローカルならデータ漏洩の心配は減るけど、モデル自体にバイアスがある可能性は否めない。
-
-
名無しさん実際のコーディングタスクで使ってみたけど、普通に使えるレベル。ただし日本語の精度はまだ微妙。
-
名無しさん日本語はどうしてもLLaMA系の方が上だよね。DeepSeekは英語特化っぽい。
-
-
-
名無しさんvLLMの設定で詰まってる人、–enforce-eagerオプション試してみて。メモリ使用量は増えるけど動くよ。
-
名無しさんそのオプション知らなかった。今度試してみる。ありがとう。
-
-
名無しさんFlash attentionって結局どれくらい速いの?体感できるレベル?
-
名無しさん長いコンテキストだと明らかに速いよ。特に8Kトークン超えると差が分かる。
-
-
名無しさんDeepSeek v4 flashってAPIもあるけど、ローカルで動かす方がコスト安いよね?でも電気代考えると微妙かも。
-
名無しさんAPIは従量課金で短い会話なら安いけど、頻繁に使うならローカルの方が結果的に安いと思う。
-
-
名無しさんこのスレ見て自分もインストールしてみた。vLLMのドキュメント通りにやれば一発で動いたよ。
-
名無しさんラッキーだね。自分はCUDAのバージョンでハマった。やっぱり環境によるんだろうな。
-
-
名無しさんDeepSeekシリーズはどんどん進化してるね。次のv5が楽しみ。
-
名無しさんv5って噂あるの?情報源教えてほしい。
-
名無しさんGitHubのリポジトリでissueに書かれてた気がする。ただ正式発表じゃないから信ぴょう性は微妙。
-
-
-
名無しさんとりあえず動かす方法が分かったから、いろんなタスクで試してみる。英語のコード生成はかなり優秀だよ。
-
-
投稿者投稿
21件の返信を表示中(うち親返信9件)
関連するAIトピック
- ChatGPTを使いこなすコツ・便利な使い方を共有しよう0件の返信最終更新 2025年3月16日 18:46
- 【AI】2026年の生成AI、結局どこ見れば面白い?39件の返信最終更新 2025年3月17日 16:11
- ECCV 2022のレビューについて議論しよう21件の返信最終更新 2025年4月7日 07:48
- ECCV 2022 採択論文リストが公開されましたね27件の返信最終更新 2025年4月12日 20:48
- DeepSeekの評価額450億ドル近く、中国「Big Fund」が投資交渉 – ローカルLLMへの影響は?14件の返信最終更新 2025年10月11日 08:34