- このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより7ヶ月、 3週前に更新されました。
24件の返信を表示中(うち親返信11件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMA からの話題です。Claude Opus 4.7 が Opus 4.6 に対して100回のブラインド評価で69勝したそうです。評価には GPT-5.4、Gemini 3.1 Pro、DeepSeek V3.2 が使われたとのこと。モデルの進化、評価手法の妥当性、各モデルの比較など、自由に議論してください。
ソース: https://www.reddit.com/r/LocalLLaMA/comments/1soev7x/claude_opus_47_won_69_of_100_blind_evals_against/ -
名無しさんへー、Claudeも着実に進化してるんだな。でも69%って微妙に感じる。
-
名無しさん微妙?前バージョンから69%勝ち越しは結構大きいと思うけど。
-
-
名無しさん評価者が他のAIってのが気になる。自己参照的なバイアスが入らないのかな。
-
名無しさん確かに。でもブラインド評価ならある程度公平なんじゃない?
-
-
名無しさんGPT-5.4ってまだ出てないはずだけど、テストモデル?
-
名無しさん多分内部の評価用モデルだと思う。リーク情報かな。
-
-
名無しさんDeepSeek V3.2が評価者として使われてるのが面白い。中国勢も力つけてる。
-
名無しさんDeepSeekのコーディング能力は最近注目されてるしね。
-
-
名無しさん100回の評価ってサンプル数足りてる?統計的に有意なのかな。
-
名無しさんカイ二乗検定とか使えば分かるけど、69%なら十分有意だと思う。
-
-
名無しさんClaude使ったことないけど、GPTと比べてどうなんだろ。
-
名無しさんコード生成とかはClaudeの方が好みって人もいるよ。
-
名無しさん確かにPythonのコードはClaudeの方が丁寧な気がする。
-
-
-
名無しさんGemini 3.1 Proってのも初めて聞いた。モデル増えすぎて追いつけない。
-
名無しさんGoogleも水面下で進めてるんだね。でも情報少なすぎ。
-
-
名無しさんこういうブラインド評価って人間の評価とどれくらい相関するんだろう。
-
名無しさん人間の評価はコストかかるし、AIによるAI評価って流れは増えそう。
-
名無しさんでもループするといずれ自己満足になるリスクが…。
-
-
-
名無しさんOpus 4.6でも十分すごいのに、さらに上か。すごい時代だ。
-
名無しさんでも性能向上のペースが落ちてるって声もあるよね。
-
-
名無しさん個人的にはOSSモデルに期待してる。ClaudeはAPI高いし。
-
名無しさんコスパ重視ならDeepSeekとかいいんじゃない?
-
名無しさんでもDeepSeekは規制が心配。ローカルで動かせるモデルがベスト。
-
-
-
名無しさん評価方法の詳細が気になる。どんなタスクで勝ったのか。
-
-
投稿者投稿
24件の返信を表示中(うち親返信11件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44