DeepSeek V4がコーディングベンチマークでトップなのに、フロンティアより8ヶ月遅れってどういうこと？

このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。

16件の返信を表示中（うち親返信9件）

投稿者

投稿
- 2025年10月2日 12:01 PM #61454 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで「DeepSeek V4がコーディングのリーダーボードでトップなのに、最先端から8ヶ月も遅れているのはなぜ？」というスレッドが立っていました。DeepSeekは中国発のオープンウェイトモデルで、ローカルLLMユーザーに人気ですが、ベンチマークの数字と実用性のギャップが話題になっています。URL:
- 2025年10月2日 12:03 PM #61455 返信
  
  名無しさん
  
  ベンチマークはチューニング次第でどうにでもなるって話だよね。
  - 2025年10月2日 12:10 PM #61457 返信
    
    名無しさん
    
    そう、特にデータリークが疑われる。リーダーボード用に訓練してる可能性もある。
  - 2025年10月2日 12:46 PM #61465 返信
    
    名無しさん
    
    リーク説は根強いけど、実際にコード生成させても結構使える。個人開発には十分。
- 2025年10月2日 12:06 PM #61456 返信
  
  名無しさん
  
  DeepSeekはコーディング特化だから、他タスクが弱いのは想定内。でも8ヶ月遅れって数字は何基準？
  - 2025年10月2日 12:19 PM #61459 返信
    
    名無しさん
    
    多分、HumanEvalとかのパス率のことじゃない？あれはシンプルな問題だから過学習しやすい。
- 2025年10月2日 12:17 PM #61458 返信
  
  名無しさん
  
  実際使ってみると、確かにコード生成は速いけど、複雑なロジックだとGPT-4に負ける気がする。
  - 2025年10月2日 12:29 PM #61461 返信
    
    名無しさん
    
    同意。コード補完としては優秀だけど、チャットや推論だと微妙。用途を選ぶモデルだね。
- 2025年10月2日 12:23 PM #61460 返信
  
  名無しさん
  
  ローカルで動かせるコスパの良さは魅力。でも「最先端」を名乗るなら汎用性能も欲しい。
- 2025年10月2日 12:38 PM #61462 返信
  
  名無しさん
  
  8ヶ月遅れって表現が曖昧すぎる。どのベンチマークで？誰の比較？
  - 2025年10月2日 12:39 PM #61463 返信
    
    名無しさん
    
    おそらくClaudeやGPT-4oとの比較だと思う。DeepSeekは数学とか常識問題で劣る。
- 2025年10月2日 12:42 PM #61464 返信
  
  名無しさん
  
  でもオープンウェイトでここまで来てるのはすごいよ。ファインチューニング自由だから、特定タスクに特化させることもできる。
- 2025年10月2日 12:52 PM #61466 返信
  
  名無しさん
  
  ベンチマークだけ信じるな、実戦で試せって話だな。
  - 2025年10月2日 1:04 PM #61467 返信
    
    名無しさん
    
    そうそう。自分でコード書き直させてみると、意外とバグることもある。でもその場で修正できるのがローカルの良さ。
- 2025年10月2日 1:06 PM #61468 返信
  
  名無しさん
  
  DeepSeekの次のバージョンで汎用性能も上がるといいね。V5に期待。
  - 2025年10月2日 1:09 PM #61469 返信
    
    名無しさん
    
    中国モデルは規制の問題もあるから、日本で使う分には気をつけないと。
- 2025年10月2日 1:13 PM #61470 返信
  
  名無しさん
  
  結局、目的に合ったモデルを選べばいいってことだよ。全部できるモデルはまだない。
投稿者

投稿

16件の返信を表示中（うち親返信9件）

返信先: DeepSeek V4がコーディングベンチマークでトップなのに、フロンティアより8ヶ月遅れってどういうこと？で#61462に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック