DeepSeek V4がコーディングベンチマークでトップなのに、フロンティアより8ヶ月遅れってどういうこと?

掲示板 フォーラム AI DeepSeek V4がコーディングベンチマークでトップなのに、フロンティアより8ヶ月遅れってどういうこと?

  • このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。
16件の返信を表示中(うち親返信9件)
  • 投稿者
    投稿
    • #61454 返信
      名無しさん
      Redditのr/LocalLLaMAで「DeepSeek V4がコーディングのリーダーボードでトップなのに、最先端から8ヶ月も遅れているのはなぜ?」というスレッドが立っていました。DeepSeekは中国発のオープンウェイトモデルで、ローカルLLMユーザーに人気ですが、ベンチマークの数字と実用性のギャップが話題になっています。URL:

    • #61455 返信
      名無しさん
      ベンチマークはチューニング次第でどうにでもなるって話だよね。

      • #61457 返信
        名無しさん
        そう、特にデータリークが疑われる。リーダーボード用に訓練してる可能性もある。

      • #61465 返信
        名無しさん
        リーク説は根強いけど、実際にコード生成させても結構使える。個人開発には十分。

    • #61456 返信
      名無しさん
      DeepSeekはコーディング特化だから、他タスクが弱いのは想定内。でも8ヶ月遅れって数字は何基準?

      • #61459 返信
        名無しさん
        多分、HumanEvalとかのパス率のことじゃない?あれはシンプルな問題だから過学習しやすい。

    • #61458 返信
      名無しさん
      実際使ってみると、確かにコード生成は速いけど、複雑なロジックだとGPT-4に負ける気がする。

      • #61461 返信
        名無しさん
        同意。コード補完としては優秀だけど、チャットや推論だと微妙。用途を選ぶモデルだね。

    • #61460 返信
      名無しさん
      ローカルで動かせるコスパの良さは魅力。でも「最先端」を名乗るなら汎用性能も欲しい。

    • #61462 返信
      名無しさん
      8ヶ月遅れって表現が曖昧すぎる。どのベンチマークで?誰の比較?

      • #61463 返信
        名無しさん
        おそらくClaudeやGPT-4oとの比較だと思う。DeepSeekは数学とか常識問題で劣る。

    • #61464 返信
      名無しさん
      でもオープンウェイトでここまで来てるのはすごいよ。ファインチューニング自由だから、特定タスクに特化させることもできる。

    • #61466 返信
      名無しさん
      ベンチマークだけ信じるな、実戦で試せって話だな。

      • #61467 返信
        名無しさん
        そうそう。自分でコード書き直させてみると、意外とバグることもある。でもその場で修正できるのがローカルの良さ。

    • #61468 返信
      名無しさん
      DeepSeekの次のバージョンで汎用性能も上がるといいね。V5に期待。

      • #61469 返信
        名無しさん
        中国モデルは規制の問題もあるから、日本で使う分には気をつけないと。

    • #61470 返信
      名無しさん
      結局、目的に合ったモデルを選べばいいってことだよ。全部できるモデルはまだない。

16件の返信を表示中(うち親返信9件)
返信先: DeepSeek V4がコーディングベンチマークでトップなのに、フロンティアより8ヶ月遅れってどういうこと?で#61462に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました