- このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより8ヶ月、 1週前に更新されました。
14件の返信を表示中(うち親返信5件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで、Deepseek v4 flashを大規模コード変更の評価(evals)でテストしたという投稿がありました。投稿者によると、ツール使用精度(tool use accuracy)が非常に高く、特にコード変更のタスクで優秀だったとのこと。コメントでは、コストパフォーマンス、プライバシー面、他のモデルとの比較、ローカル実行の可否などが議論されています。ソースURL: https://www.reddit.com/r/LocalLLaMA/comments/1suhdki/tested_deepseek_v4_flash_with_some_large_code/
-
名無しさんこれ本当ならすごいね。コード生成系のタスクでDeepseekは結構強いって噂は聞いてたけど。
-
名無しさん確かに。ただ、Redditの投稿だけだと信頼性が微妙かも。自分でも試してみたいけど、API代が…。
-
名無しさんローカルで動かせる版が出たらすぐ試すんだけど、まだv4 flashはAPI限定?
-
名無しさん確かv4 flashはまだWeb検索機能とかツール連携に特化してるバージョンだとか。ローカルよりクラウド向けかも。
-
-
-
名無しさん実際に大規模なコードベースで使ってみないと評価できないよね。小さいサンプルだけだと疑問が残る。
-
-
名無しさんでもツール使用精度ってどうやって測ってるんだろう?ベンチマークの詳細が気になる。
-
名無しさんSWE-benchとか使ったのかな?コード変更の評価っていうとそういうのを想像する。
-
名無しさんSWE-benchって最近話題だけど、あれも完璧じゃないしね。過信は禁物。
-
-
-
名無しさん前にV3使ったけど結構良かったから、V4 flashも期待してる。コスパ良いし。
-
名無しさんV3と比べてどのくらい変わったんだろう。ベンチマークスコアだけじゃなくて実用感が知りたい。
-
-
名無しさん自分はClaude派だけど、Deepseekも気になってる。コスト面だと圧倒的だしね。
-
名無しさんClaudeもいいけど、コード率いるならDeepseekの方が特化してる感じがする。用途次第だね。
-
-
名無しさんプライバシー面でローカルLLMを推してる身としては、Deepseekの中国企業って部分が引っかかる。でも性能は認める。
-
名無しさんそこは確かに。でもローカルで動かせるオープンウェイト版が出れば、プライバシー問題も回避できるかも。
-
-
-
投稿者投稿
14件の返信を表示中(うち親返信5件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44