DeepSeek v4 Proのベンチマークわずか8%通過ってマジ？性能やコスパを語るスレ

このトピックには20件の返信、6人の参加者があり、最後に名無しさんにより1年、 4ヶ月前に更新されました。

20件の返信を表示中（うち親返信8件）

投稿者

投稿
- 2025年2月16日 9:55 PM #61900 返信
  
  名無しさん
  
  話題のDeepSeek v4 Pro、DeepSWEベンチマークで通過率8%と厳しい結果が出たようです。コード生成に特化したモデルですが、実際の使用感はどうなのか？コストパフォーマンスやデータプライバシーの観点も含めて、皆さんの意見を聞かせてください。
- 2025年2月16日 9:56 PM #61901 返信
  
  名無しさん
  
  8%って低すぎない？他のモデルと比較してどうなの？
- 2025年2月16日 9:59 PM #61902 返信
  
  名無しさん
  
  そもそもDeepSWEってどんなベンチ？コード生成の実務に近いのか？
  - 2025年2月16日 10:04 PM #61903 返信
    
    名無しさん
    
    聞いた話だと、エンドツーエンドのソフトウェアエンジニアリングタスクらしい。結構リアルなテストみたい。
    - 2025年2月16日 10:11 PM #61904 返信
      
      名無しさん
      
      じゃあその8%ってかなり深刻だな。他のモデルはどれくらいなんだろう。
      - 2025年2月16日 10:13 PM #61905 返信
        
        名無しさん
        
        ClaudeとかGPT-4oはもっと高いらしいけど、料金がね…
- 2025年2月16日 10:16 PM #61906 返信
  
  名無しさん
  
  ローカルで動かせるモデルとしてはまだマシな方かと思ってたけど、これじゃ厳しいな。
  - 2025年2月16日 10:22 PM #61907 返信
    
    名無しさん
    
    でもコストゼロで動かせるメリットは大きい。プライバシーも守れるし。
    - 2025年2月16日 10:31 PM #61908 返信
      
      名無しさん
      
      それな。業務で機密コード扱うならAPI経由は避けたいし。
- 2025年2月16日 10:33 PM #61909 返信
  
  名無しさん
  
  8%って数字だけ見るとやばいけど、実際に使ってみたら意外と役立つ場面もあるかも。
  - 2025年2月16日 10:35 PM #61910 返信
    
    名無しさん
    
    俺も試してみたけど、簡単な関数生成ならそこそこ使える。複雑なのは無理。
    - 2025年2月16日 10:39 PM #61911 返信
      
      名無しさん
      
      やっぱりベンチマークと実用は乖離があるよね。
- 2025年2月16日 10:46 PM #61912 返信
  
  名無しさん
  
  DeepSeekってV3の頃もそんな感じだったから、V4で改善されるかと思ったのに。
  - 2025年2月16日 10:57 PM #61913 返信
    
    名無しさん
    
    V3よりはマシって話も聞くけど、このベンチだと逆転してない？
- 2025年2月16日 10:59 PM #61914 返信
  
  名無しさん
  
  そもそもベンチマークの設計がDeepSeekに不利な可能性もある。
  - 2025年2月16日 11:02 PM #61915 返信
    
    名無しさん
    
    それも考えられるね。でも他のモデルも同じ条件なら公平では？
- 2025年2月16日 11:07 PM #61916 返信
  
  名無しさん
  
  個人的にはコスパ重視だから、無料で動くなら多少の性能低下は許容する。
  - 2025年2月16日 11:14 PM #61917 返信
    
    名無しさん
    
    同意。仕事で使うには辛いけど、個人プロジェクトには十分。
- 2025年2月16日 11:16 PM #61918 返信
  
  名無しさん
  
  代替案としてQwenとかYiのコードモデルはどうなの？
  - 2025年2月16日 11:20 PM #61919 返信
    
    名無しさん
    
    Qwen2.5-Coderは結構良いって評判。DeepSeekよりマシかも。
    - 2025年2月16日 11:26 PM #61920 返信
      
      名無しさん
      
      でもQwenも中国製だからデータプライバシーは同じようなもんじゃない？
投稿者

投稿

20件の返信を表示中（うち親返信8件）

返信先: DeepSeek v4 Proのベンチマークわずか8%通過ってマジ？性能やコスパを語るスレで#61908に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック