DeepSeek v4 Proのベンチマークわずか8%通過ってマジ？性能やコスパを語るスレ

このトピックには20件の返信、6人の参加者があり、最後に名無しさんにより1年前に更新されました。

20件の返信を表示中（うち親返信8件）

投稿者

投稿
- 2025年6月19日 1:39 PM #61900 返信
  
  名無しさん
  
  話題のDeepSeek v4 Pro、DeepSWEベンチマークで通過率8%と厳しい結果が出たようです。コード生成に特化したモデルですが、実際の使用感はどうなのか？コストパフォーマンスやデータプライバシーの観点も含めて、皆さんの意見を聞かせてください。
- 2025年6月19日 1:40 PM #61901 返信
  
  名無しさん
  
  8%って低すぎない？他のモデルと比較してどうなの？
- 2025年6月19日 1:43 PM #61902 返信
  
  名無しさん
  
  そもそもDeepSWEってどんなベンチ？コード生成の実務に近いのか？
  - 2025年6月19日 1:48 PM #61903 返信
    
    名無しさん
    
    聞いた話だと、エンドツーエンドのソフトウェアエンジニアリングタスクらしい。結構リアルなテストみたい。
    - 2025年6月19日 1:55 PM #61904 返信
      
      名無しさん
      
      じゃあその8%ってかなり深刻だな。他のモデルはどれくらいなんだろう。
      - 2025年6月19日 1:57 PM #61905 返信
        
        名無しさん
        
        ClaudeとかGPT-4oはもっと高いらしいけど、料金がね…
- 2025年6月19日 2:00 PM #61906 返信
  
  名無しさん
  
  ローカルで動かせるモデルとしてはまだマシな方かと思ってたけど、これじゃ厳しいな。
  - 2025年6月19日 2:06 PM #61907 返信
    
    名無しさん
    
    でもコストゼロで動かせるメリットは大きい。プライバシーも守れるし。
    - 2025年6月19日 2:15 PM #61908 返信
      
      名無しさん
      
      それな。業務で機密コード扱うならAPI経由は避けたいし。
- 2025年6月19日 2:16 PM #61909 返信
  
  名無しさん
  
  8%って数字だけ見るとやばいけど、実際に使ってみたら意外と役立つ場面もあるかも。
  - 2025年6月19日 2:19 PM #61910 返信
    
    名無しさん
    
    俺も試してみたけど、簡単な関数生成ならそこそこ使える。複雑なのは無理。
    - 2025年6月19日 2:23 PM #61911 返信
      
      名無しさん
      
      やっぱりベンチマークと実用は乖離があるよね。
- 2025年6月19日 2:29 PM #61912 返信
  
  名無しさん
  
  DeepSeekってV3の頃もそんな感じだったから、V4で改善されるかと思ったのに。
  - 2025年6月19日 2:41 PM #61913 返信
    
    名無しさん
    
    V3よりはマシって話も聞くけど、このベンチだと逆転してない？
- 2025年6月19日 2:43 PM #61914 返信
  
  名無しさん
  
  そもそもベンチマークの設計がDeepSeekに不利な可能性もある。
  - 2025年6月19日 2:46 PM #61915 返信
    
    名無しさん
    
    それも考えられるね。でも他のモデルも同じ条件なら公平では？
- 2025年6月19日 2:50 PM #61916 返信
  
  名無しさん
  
  個人的にはコスパ重視だから、無料で動くなら多少の性能低下は許容する。
  - 2025年6月19日 2:58 PM #61917 返信
    
    名無しさん
    
    同意。仕事で使うには辛いけど、個人プロジェクトには十分。
- 2025年6月19日 3:00 PM #61918 返信
  
  名無しさん
  
  代替案としてQwenとかYiのコードモデルはどうなの？
  - 2025年6月19日 3:04 PM #61919 返信
    
    名無しさん
    
    Qwen2.5-Coderは結構良いって評判。DeepSeekよりマシかも。
    - 2025年6月19日 3:09 PM #61920 返信
      
      名無しさん
      
      でもQwenも中国製だからデータプライバシーは同じようなもんじゃない？
投稿者

投稿

20件の返信を表示中（うち親返信8件）

返信先: DeepSeek v4 Proのベンチマークわずか8%通過ってマジ？性能やコスパを語るスレで#61911に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック