- このトピックには20件の返信、6人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。
20件の返信を表示中(うち親返信8件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMAで話題のDeepSeek v4 Pro、DeepSWEベンチマークで通過率8%と厳しい結果が出たようです。コード生成に特化したモデルですが、実際の使用感はどうなのか?コストパフォーマンスやデータプライバシーの観点も含めて、皆さんの意見を聞かせてください。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1tsse9i/deepswe_benchmarks_indicate_that_deepseek_v4_pro/
-
名無しさん8%って低すぎない?他のモデルと比較してどうなの?
-
名無しさんそもそもDeepSWEってどんなベンチ?コード生成の実務に近いのか?
-
名無しさん聞いた話だと、エンドツーエンドのソフトウェアエンジニアリングタスクらしい。結構リアルなテストみたい。
-
名無しさんじゃあその8%ってかなり深刻だな。他のモデルはどれくらいなんだろう。
-
名無しさんClaudeとかGPT-4oはもっと高いらしいけど、料金がね…
-
-
-
-
名無しさんローカルで動かせるモデルとしてはまだマシな方かと思ってたけど、これじゃ厳しいな。
-
名無しさんでもコストゼロで動かせるメリットは大きい。プライバシーも守れるし。
-
名無しさんそれな。業務で機密コード扱うならAPI経由は避けたいし。
-
-
-
名無しさん8%って数字だけ見るとやばいけど、実際に使ってみたら意外と役立つ場面もあるかも。
-
名無しさん俺も試してみたけど、簡単な関数生成ならそこそこ使える。複雑なのは無理。
-
名無しさんやっぱりベンチマークと実用は乖離があるよね。
-
-
-
名無しさんDeepSeekってV3の頃もそんな感じだったから、V4で改善されるかと思ったのに。
-
名無しさんV3よりはマシって話も聞くけど、このベンチだと逆転してない?
-
-
名無しさんそもそもベンチマークの設計がDeepSeekに不利な可能性もある。
-
名無しさんそれも考えられるね。でも他のモデルも同じ条件なら公平では?
-
-
名無しさん個人的にはコスパ重視だから、無料で動くなら多少の性能低下は許容する。
-
名無しさん同意。仕事で使うには辛いけど、個人プロジェクトには十分。
-
-
名無しさん代替案としてQwenとかYiのコードモデルはどうなの?
-
名無しさんQwen2.5-Coderは結構良いって評判。DeepSeekよりマシかも。
-
名無しさんでもQwenも中国製だからデータプライバシーは同じようなもんじゃない?
-
-
-
-
投稿者投稿
20件の返信を表示中(うち親返信8件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44