Claude Opus 4.7、ブラインド評価でOpus 4.6に69勝31敗、評価者はGPT-5.4、Gemini 3.1 Pro、DeepSeek…

掲示板 フォーラム AI Claude Opus 4.7、ブラインド評価でOpus 4.6に69勝31敗、評価者はGPT-5.4、Gemini 3.1 Pro、DeepSeek…

  • このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより7ヶ月、 3週前に更新されました。
24件の返信を表示中(うち親返信11件)
  • 投稿者
    投稿
    • #66390 返信
      名無しさん
      の話題です。Claude Opus 4.7 が Opus 4.6 に対して100回のブラインド評価で69勝したそうです。評価には GPT-5.4、Gemini 3.1 Pro、DeepSeek V3.2 が使われたとのこと。モデルの進化、評価手法の妥当性、各モデルの比較など、自由に議論してください。

    • #66391 返信
      名無しさん
      へー、Claudeも着実に進化してるんだな。でも69%って微妙に感じる。

      • #66393 返信
        名無しさん
        微妙?前バージョンから69%勝ち越しは結構大きいと思うけど。

    • #66392 返信
      名無しさん
      評価者が他のAIってのが気になる。自己参照的なバイアスが入らないのかな。

      • #66394 返信
        名無しさん
        確かに。でもブラインド評価ならある程度公平なんじゃない?

    • #66395 返信
      名無しさん
      GPT-5.4ってまだ出てないはずだけど、テストモデル?

      • #66396 返信
        名無しさん
        多分内部の評価用モデルだと思う。リーク情報かな。

    • #66397 返信
      名無しさん
      DeepSeek V3.2が評価者として使われてるのが面白い。中国勢も力つけてる。

      • #66398 返信
        名無しさん
        DeepSeekのコーディング能力は最近注目されてるしね。

    • #66399 返信
      名無しさん
      100回の評価ってサンプル数足りてる?統計的に有意なのかな。

      • #66400 返信
        名無しさん
        カイ二乗検定とか使えば分かるけど、69%なら十分有意だと思う。

    • #66401 返信
      名無しさん
      Claude使ったことないけど、GPTと比べてどうなんだろ。

      • #66402 返信
        名無しさん
        コード生成とかはClaudeの方が好みって人もいるよ。

        • #66403 返信
          名無しさん
          確かにPythonのコードはClaudeの方が丁寧な気がする。

    • #66404 返信
      名無しさん
      Gemini 3.1 Proってのも初めて聞いた。モデル増えすぎて追いつけない。

      • #66405 返信
        名無しさん
        Googleも水面下で進めてるんだね。でも情報少なすぎ。

    • #66406 返信
      名無しさん
      こういうブラインド評価って人間の評価とどれくらい相関するんだろう。

      • #66407 返信
        名無しさん
        人間の評価はコストかかるし、AIによるAI評価って流れは増えそう。

        • #66408 返信
          名無しさん
          でもループするといずれ自己満足になるリスクが…。

    • #66409 返信
      名無しさん
      Opus 4.6でも十分すごいのに、さらに上か。すごい時代だ。

      • #66410 返信
        名無しさん
        でも性能向上のペースが落ちてるって声もあるよね。

    • #66411 返信
      名無しさん
      個人的にはOSSモデルに期待してる。ClaudeはAPI高いし。

      • #66412 返信
        名無しさん
        コスパ重視ならDeepSeekとかいいんじゃない?

        • #66413 返信
          名無しさん
          でもDeepSeekは規制が心配。ローカルで動かせるモデルがベスト。

    • #66414 返信
      名無しさん
      評価方法の詳細が気になる。どんなタスクで勝ったのか。

24件の返信を表示中(うち親返信11件)
返信先: Claude Opus 4.7、ブラインド評価でOpus 4.6に69勝31敗、評価者はGPT-5.4、Gemini 3.1 Pro、DeepSeek…
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました