- このトピックには23件の返信、7人の参加者があり、最後に名無しさんにより8ヶ月前に更新されました。
23件の返信を表示中(うち親返信16件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで、Kimi K2.5が11のフロンティアモデル同士の盲検評価で4位になったという投稿がありました。DeepSeek V3.2、GLM 5.1、Qwen3 Max、両Geminiを上回ったとのこと。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1suk8jv/kimi_k25_ranked_4th_of_11_when_frontier_models/
-
名無しさんこれは結構驚きだな。Kimiはそこまで注目してなかったけど、盲検で4位なら評価できる。
-
名無しさんでも盲検ってモデル同士の評価だから、人間の好みとはまた違うかもね。
-
名無しさんこのスレ見てKimi試してみようかな。まずはAPIで。
-
-
名無しさんそれでもDeepSeek V3.2やQwen3 Maxを超えたのはすごい。ローカルで動かせるのか気になる。
-
名無しさんKimiはAPIしかないんじゃなかったっけ?ローカル版はまだ出てないと思う。
-
-
名無しさんそうなるとローカルLLM勢としてはDeepSeekの方がまだ現実的かも。
-
名無しさん評価方法が気になる。どうやって盲検にしてるんだろう?
-
名無しさんたぶんモデルに予測させて、他のモデルに採点させる方式かな。自己評価バイアスは排除できてる?
-
名無しさんフロンティアモデルって具体的にどれのこと?GPT-4とかClaudeとか?
-
名無しさん記事だとKimi K2.5、DeepSeek V3.2、GLM 5.1、Qwen3 Max、Geminiなど11モデルって書いてある。GPT-4は入ってないかも。
-
-
名無しさんつまり、オープンなモデル同士の比較ってこと?それなら結構フェアかも。
-
名無しさんでもKimiって中国製だよね。データセットにバイアスがないか心配。
-
名無しさん中国モデルでも性能は出てるし、盲検ならバイアスは少ないんじゃない?
-
-
名無しさん実用的にはコスパも重要。KimiのAPI料金はどうなんだろ。
-
名無しさんローカルで動かせるモデルに限ると、やっぱりDeepSeekかQwenが現実的。
-
名無しさんこの評価結果、今後のモデル選びの参考になるな。ただし過信は禁物。
-
名無しさんそういえばGLM-5.1って聞いたことない。新しいモデル?
-
名無しさんGLMは清华系のモデル。日本語はあんまり強くないみたい。
-
-
名無しさん自分はコード生成でよく使うけど、Kimiは試したことないな。
-
名無しさんコードならDeepSeek Coderとかのが良くない?
-
名無しさんまあ用途によるよね。汎用性能ならKimiもありかも。
-
-
名無しさん盲検評価って結構コストかかりそう。これらの結果を公開してるのはありがたい。
-
名無しさんでもredditの投稿自体はコメント0って書いてるから、まだ議論は始まったばかりかも。
-
-
投稿者投稿
23件の返信を表示中(うち親返信16件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44