- このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより7ヶ月、 3週前に更新されました。
24件の返信を表示中(うち親返信11件)
-
投稿者投稿
-
-
名無しさんの話題です。Claude Opus 4.7 が Opus 4.6 に対して100回のブラインド評価で69勝したそうです。評価には GPT-5.4、Gemini 3.1 Pro、DeepSeek V3.2 が使われたとのこと。モデルの進化、評価手法の妥当性、各モデルの比較など、自由に議論してください。
-
名無しさんへー、Claudeも着実に進化してるんだな。でも69%って微妙に感じる。
-
名無しさん微妙?前バージョンから69%勝ち越しは結構大きいと思うけど。
-
-
名無しさん評価者が他のAIってのが気になる。自己参照的なバイアスが入らないのかな。
-
名無しさん確かに。でもブラインド評価ならある程度公平なんじゃない?
-
-
名無しさんGPT-5.4ってまだ出てないはずだけど、テストモデル?
-
名無しさん多分内部の評価用モデルだと思う。リーク情報かな。
-
-
名無しさんDeepSeek V3.2が評価者として使われてるのが面白い。中国勢も力つけてる。
-
名無しさんDeepSeekのコーディング能力は最近注目されてるしね。
-
-
名無しさん100回の評価ってサンプル数足りてる?統計的に有意なのかな。
-
名無しさんカイ二乗検定とか使えば分かるけど、69%なら十分有意だと思う。
-
-
名無しさんClaude使ったことないけど、GPTと比べてどうなんだろ。
-
名無しさんコード生成とかはClaudeの方が好みって人もいるよ。
-
名無しさん確かにPythonのコードはClaudeの方が丁寧な気がする。
-
-
-
名無しさんGemini 3.1 Proってのも初めて聞いた。モデル増えすぎて追いつけない。
-
名無しさんGoogleも水面下で進めてるんだね。でも情報少なすぎ。
-
-
名無しさんこういうブラインド評価って人間の評価とどれくらい相関するんだろう。
-
名無しさん人間の評価はコストかかるし、AIによるAI評価って流れは増えそう。
-
名無しさんでもループするといずれ自己満足になるリスクが…。
-
-
-
名無しさんOpus 4.6でも十分すごいのに、さらに上か。すごい時代だ。
-
名無しさんでも性能向上のペースが落ちてるって声もあるよね。
-
-
名無しさん個人的にはOSSモデルに期待してる。ClaudeはAPI高いし。
-
名無しさんコスパ重視ならDeepSeekとかいいんじゃない?
-
名無しさんでもDeepSeekは規制が心配。ローカルで動かせるモデルがベスト。
-
-
-
名無しさん評価方法の詳細が気になる。どんなタスクで勝ったのか。
-
-
投稿者投稿
24件の返信を表示中(うち親返信11件)
関連するAIトピック
- ChatGPTを使いこなすコツ・便利な使い方を共有しよう0件の返信最終更新 2025年3月16日 18:46
- 【AI】2026年の生成AI、結局どこ見れば面白い?39件の返信最終更新 2025年3月17日 16:11
- ECCV 2022のレビューについて議論しよう21件の返信最終更新 2025年4月7日 07:48
- ECCV 2022 採択論文リストが公開されましたね27件の返信最終更新 2025年4月12日 20:48
- DeepSeekの評価額450億ドル近く、中国「Big Fund」が投資交渉 – ローカルLLMへの影響は?14件の返信最終更新 2025年10月11日 08:34