DeepSeek v4 Proのベンチマークわずか8%通過ってマジ？性能やコスパを語るスレ

名無しさん · 2025-10-05T01:16:45+09:00

Reddit r/LocalLLaMAで話題のDeepSeek v4 Pro、DeepSWEベンチマークで通過率8%と厳しい結果が出たようです。コード生成に特化したモデルですが、実際の使用感はどうなのか？コストパフォーマンスやデータプライバシーの観点も含めて、皆さんの意見を聞かせてください。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1tsse9i/deepswe_benchmarks_indicate_that_deepseek_v4_pro/

このトピックには20件の返信、6人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。

20件の返信を表示中（うち親返信8件）

投稿者

投稿
- 2025年10月5日 1:16 AM #61900 返信
  
  名無しさん
  
  Reddit r/LocalLLaMAで話題のDeepSeek v4 Pro、DeepSWEベンチマークで通過率8%と厳しい結果が出たようです。コード生成に特化したモデルですが、実際の使用感はどうなのか？コストパフォーマンスやデータプライバシーの観点も含めて、皆さんの意見を聞かせてください。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1tsse9i/deepswe_benchmarks_indicate_that_deepseek_v4_pro/
- 2025年10月5日 1:18 AM #61901 返信
  
  名無しさん
  
  8%って低すぎない？他のモデルと比較してどうなの？
- 2025年10月5日 1:21 AM #61902 返信
  
  名無しさん
  
  そもそもDeepSWEってどんなベンチ？コード生成の実務に近いのか？
  - 2025年10月5日 1:25 AM #61903 返信
    
    名無しさん
    
    聞いた話だと、エンドツーエンドのソフトウェアエンジニアリングタスクらしい。結構リアルなテストみたい。
    - 2025年10月5日 1:32 AM #61904 返信
      
      名無しさん
      
      じゃあその8%ってかなり深刻だな。他のモデルはどれくらいなんだろう。
      - 2025年10月5日 1:34 AM #61905 返信
        
        名無しさん
        
        ClaudeとかGPT-4oはもっと高いらしいけど、料金がね…
- 2025年10月5日 1:38 AM #61906 返信
  
  名無しさん
  
  ローカルで動かせるモデルとしてはまだマシな方かと思ってたけど、これじゃ厳しいな。
  - 2025年10月5日 1:44 AM #61907 返信
    
    名無しさん
    
    でもコストゼロで動かせるメリットは大きい。プライバシーも守れるし。
    - 2025年10月5日 1:53 AM #61908 返信
      
      名無しさん
      
      それな。業務で機密コード扱うならAPI経由は避けたいし。
- 2025年10月5日 1:54 AM #61909 返信
  
  名無しさん
  
  8%って数字だけ見るとやばいけど、実際に使ってみたら意外と役立つ場面もあるかも。
  - 2025年10月5日 1:57 AM #61910 返信
    
    名無しさん
    
    俺も試してみたけど、簡単な関数生成ならそこそこ使える。複雑なのは無理。
    - 2025年10月5日 2:01 AM #61911 返信
      
      名無しさん
      
      やっぱりベンチマークと実用は乖離があるよね。
- 2025年10月5日 2:07 AM #61912 返信
  
  名無しさん
  
  DeepSeekってV3の頃もそんな感じだったから、V4で改善されるかと思ったのに。
  - 2025年10月5日 2:19 AM #61913 返信
    
    名無しさん
    
    V3よりはマシって話も聞くけど、このベンチだと逆転してない？
- 2025年10月5日 2:20 AM #61914 返信
  
  名無しさん
  
  そもそもベンチマークの設計がDeepSeekに不利な可能性もある。
  - 2025年10月5日 2:23 AM #61915 返信
    
    名無しさん
    
    それも考えられるね。でも他のモデルも同じ条件なら公平では？
- 2025年10月5日 2:28 AM #61916 返信
  
  名無しさん
  
  個人的にはコスパ重視だから、無料で動くなら多少の性能低下は許容する。
  - 2025年10月5日 2:36 AM #61917 返信
    
    名無しさん
    
    同意。仕事で使うには辛いけど、個人プロジェクトには十分。
- 2025年10月5日 2:38 AM #61918 返信
  
  名無しさん
  
  代替案としてQwenとかYiのコードモデルはどうなの？
  - 2025年10月5日 2:42 AM #61919 返信
    
    名無しさん
    
    Qwen2.5-Coderは結構良いって評判。DeepSeekよりマシかも。
    - 2025年10月5日 2:47 AM #61920 返信
      
      名無しさん
      
      でもQwenも中国製だからデータプライバシーは同じようなもんじゃない？
投稿者

投稿

20件の返信を表示中（うち親返信8件）

返信先: DeepSeek v4 Proのベンチマークわずか8%通過ってマジ？性能やコスパを語るスレで#61904に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック