Deepseek v4 flash を大規模コード変更評価でテスト、精度がすごいらしい

名無しさん · 2025-10-20T21:58:14+09:00

Redditのr/LocalLLaMAで、Deepseek v4 flashを大規模コード変更の評価（evals）でテストしたという投稿がありました。投稿者によると、ツール使用精度（tool use accuracy）が非常に高く、特にコード変更のタスクで優秀だったとのこと。コメントでは、コストパフォーマンス、プライバシー面、他のモデルとの比較、ローカル実行の可否などが議論されています。ソースURL: https://www.reddit.com/r/LocalLLaMA/comments/1suhdki/tested_deepseek_v4_flash_with_some_large_code/

このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより8ヶ月、 1週前に更新されました。

14件の返信を表示中（うち親返信5件）

投稿者

投稿
- 2025年10月20日 9:58 PM #64284 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで、Deepseek v4 flashを大規模コード変更の評価（evals）でテストしたという投稿がありました。投稿者によると、ツール使用精度（tool use accuracy）が非常に高く、特にコード変更のタスクで優秀だったとのこと。コメントでは、コストパフォーマンス、プライバシー面、他のモデルとの比較、ローカル実行の可否などが議論されています。ソースURL: https://www.reddit.com/r/LocalLLaMA/comments/1suhdki/tested_deepseek_v4_flash_with_some_large_code/
- 2025年10月20日 9:59 PM #64285 返信
  
  名無しさん
  
  これ本当ならすごいね。コード生成系のタスクでDeepseekは結構強いって噂は聞いてたけど。
  - 2025年10月20日 10:07 PM #64287 返信
    
    名無しさん
    
    確かに。ただ、Redditの投稿だけだと信頼性が微妙かも。自分でも試してみたいけど、API代が…。
    - 2025年10月20日 10:19 PM #64290 返信
      
      名無しさん
      
      ローカルで動かせる版が出たらすぐ試すんだけど、まだv4 flashはAPI限定？
      - 2025年10月20日 10:36 PM #64293 返信
        
        名無しさん
        
        確かv4 flashはまだWeb検索機能とかツール連携に特化してるバージョンだとか。ローカルよりクラウド向けかも。
  - 2025年10月20日 10:38 PM #64294 返信
    
    名無しさん
    
    実際に大規模なコードベースで使ってみないと評価できないよね。小さいサンプルだけだと疑問が残る。
- 2025年10月20日 10:02 PM #64286 返信
  
  名無しさん
  
  でもツール使用精度ってどうやって測ってるんだろう？ベンチマークの詳細が気になる。
  - 2025年10月20日 10:16 PM #64289 返信
    
    名無しさん
    
    SWE-benchとか使ったのかな？コード変更の評価っていうとそういうのを想像する。
    - 2025年10月20日 10:42 PM #64295 返信
      
      名無しさん
      
      SWE-benchって最近話題だけど、あれも完璧じゃないしね。過信は禁物。
- 2025年10月20日 10:14 PM #64288 返信
  
  名無しさん
  
  前にV3使ったけど結構良かったから、V4 flashも期待してる。コスパ良いし。
  - 2025年10月20日 10:25 PM #64291 返信
    
    名無しさん
    
    V3と比べてどのくらい変わったんだろう。ベンチマークスコアだけじゃなくて実用感が知りたい。
- 2025年10月20日 10:34 PM #64292 返信
  
  名無しさん
  
  自分はClaude派だけど、Deepseekも気になってる。コスト面だと圧倒的だしね。
  - 2025年10月20日 11:00 PM #64297 返信
    
    名無しさん
    
    Claudeもいいけど、コード率いるならDeepseekの方が特化してる感じがする。用途次第だね。
- 2025年10月20日 10:49 PM #64296 返信
  
  名無しさん
  
  プライバシー面でローカルLLMを推してる身としては、Deepseekの中国企業って部分が引っかかる。でも性能は認める。
  - 2025年10月20日 11:02 PM #64298 返信
    
    名無しさん
    
    そこは確かに。でもローカルで動かせるオープンウェイト版が出れば、プライバシー問題も回避できるかも。
投稿者

投稿

14件の返信を表示中（うち親返信5件）

返信先: Deepseek v4 flash を大規模コード変更評価でテスト、精度がすごいらしい

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

関連するAIトピック