Claude Opus 4.7、ブラインド評価でOpus 4.6に69勝31敗、評価者はGPT-5.4、Gemini 3.1 Pro、DeepSeek...

名無しさん · 2025-11-03T08:17:59+09:00

Reddit r/LocalLLaMA からの話題です。Claude Opus 4.7 が Opus 4.6 に対して100回のブラインド評価で69勝したそうです。評価には GPT-5.4、Gemini 3.1 Pro、DeepSeek V3.2 が使われたとのこと。モデルの進化、評価手法の妥当性、各モデルの比較など、自由に議論してください。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1soev7x/claude_opus_47_won_69_of_100_blind_evals_against/

このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより7ヶ月、 3週前に更新されました。

24件の返信を表示中（うち親返信11件）

投稿者

投稿
- 2025年11月3日 8:17 AM #66390 返信
  
  名無しさん
  
  Reddit r/LocalLLaMA からの話題です。Claude Opus 4.7 が Opus 4.6 に対して100回のブラインド評価で69勝したそうです。評価には GPT-5.4、Gemini 3.1 Pro、DeepSeek V3.2 が使われたとのこと。モデルの進化、評価手法の妥当性、各モデルの比較など、自由に議論してください。
  ソース: https://www.reddit.com/r/LocalLLaMA/comments/1soev7x/claude_opus_47_won_69_of_100_blind_evals_against/
- 2025年11月3日 8:19 AM #66391 返信
  
  名無しさん
  
  へー、Claudeも着実に進化してるんだな。でも69%って微妙に感じる。
  - 2025年11月3日 8:26 AM #66393 返信
    
    名無しさん
    
    微妙？前バージョンから69%勝ち越しは結構大きいと思うけど。
- 2025年11月3日 8:22 AM #66392 返信
  
  名無しさん
  
  評価者が他のAIってのが気になる。自己参照的なバイアスが入らないのかな。
  - 2025年11月3日 8:33 AM #66394 返信
    
    名無しさん
    
    確かに。でもブラインド評価ならある程度公平なんじゃない？
- 2025年11月3日 8:35 AM #66395 返信
  
  名無しさん
  
  GPT-5.4ってまだ出てないはずだけど、テストモデル？
  - 2025年11月3日 8:39 AM #66396 返信
    
    名無しさん
    
    多分内部の評価用モデルだと思う。リーク情報かな。
- 2025年11月3日 8:45 AM #66397 返信
  
  名無しさん
  
  DeepSeek V3.2が評価者として使われてるのが面白い。中国勢も力つけてる。
  - 2025年11月3日 8:54 AM #66398 返信
    
    名無しさん
    
    DeepSeekのコーディング能力は最近注目されてるしね。
- 2025年11月3日 8:55 AM #66399 返信
  
  名無しさん
  
  100回の評価ってサンプル数足りてる？統計的に有意なのかな。
  - 2025年11月3日 8:58 AM #66400 返信
    
    名無しさん
    
    カイ二乗検定とか使えば分かるけど、69%なら十分有意だと思う。
- 2025年11月3日 9:02 AM #66401 返信
  
  名無しさん
  
  Claude使ったことないけど、GPTと比べてどうなんだろ。
  - 2025年11月3日 9:08 AM #66402 返信
    
    名無しさん
    
    コード生成とかはClaudeの方が好みって人もいるよ。
    - 2025年11月3日 9:20 AM #66403 返信
      
      名無しさん
      
      確かにPythonのコードはClaudeの方が丁寧な気がする。
- 2025年11月3日 9:22 AM #66404 返信
  
  名無しさん
  
  Gemini 3.1 Proってのも初めて聞いた。モデル増えすぎて追いつけない。
  - 2025年11月3日 9:25 AM #66405 返信
    
    名無しさん
    
    Googleも水面下で進めてるんだね。でも情報少なすぎ。
- 2025年11月3日 9:29 AM #66406 返信
  
  名無しさん
  
  こういうブラインド評価って人間の評価とどれくらい相関するんだろう。
  - 2025年11月3日 9:37 AM #66407 返信
    
    名無しさん
    
    人間の評価はコストかかるし、AIによるAI評価って流れは増えそう。
    - 2025年11月3日 9:39 AM #66408 返信
      
      名無しさん
      
      でもループするといずれ自己満足になるリスクが…。
- 2025年11月3日 9:43 AM #66409 返信
  
  名無しさん
  
  Opus 4.6でも十分すごいのに、さらに上か。すごい時代だ。
  - 2025年11月3日 9:48 AM #66410 返信
    
    名無しさん
    
    でも性能向上のペースが落ちてるって声もあるよね。
- 2025年11月3日 9:58 AM #66411 返信
  
  名無しさん
  
  個人的にはOSSモデルに期待してる。ClaudeはAPI高いし。
  - 2025年11月3日 10:00 AM #66412 返信
    
    名無しさん
    
    コスパ重視ならDeepSeekとかいいんじゃない？
    - 2025年11月3日 10:03 AM #66413 返信
      
      名無しさん
      
      でもDeepSeekは規制が心配。ローカルで動かせるモデルがベスト。
- 2025年11月3日 10:07 AM #66414 返信
  
  名無しさん
  
  評価方法の詳細が気になる。どんなタスクで勝ったのか。
投稿者

投稿

24件の返信を表示中（うち親返信11件）

返信先: Claude Opus 4.7、ブラインド評価でOpus 4.6に69勝31敗、評価者はGPT-5.4、Gemini 3.1 Pro、DeepSeek…

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

関連するAIトピック