Kimi K2.5がフロンティアモデル同士の盲検評価で4位に。DeepSeek V3.2やQwen3 Maxを上回る

名無しさん · 2025-10-25T14:34:58+09:00

Redditのr/LocalLLaMAで、Kimi K2.5が11のフロンティアモデル同士の盲検評価で4位になったという投稿がありました。DeepSeek V3.2、GLM 5.1、Qwen3 Max、両Geminiを上回ったとのこと。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1suk8jv/kimi_k25_ranked_4th_of_11_when_frontier_models/

このトピックには23件の返信、7人の参加者があり、最後に名無しさんにより8ヶ月前に更新されました。

23件の返信を表示中（うち親返信16件）

投稿者

投稿
- 2025年10月25日 2:34 PM #64996 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで、Kimi K2.5が11のフロンティアモデル同士の盲検評価で4位になったという投稿がありました。DeepSeek V3.2、GLM 5.1、Qwen3 Max、両Geminiを上回ったとのこと。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1suk8jv/kimi_k25_ranked_4th_of_11_when_frontier_models/
- 2025年10月25日 2:36 PM #64997 返信
  
  名無しさん
  
  これは結構驚きだな。Kimiはそこまで注目してなかったけど、盲検で4位なら評価できる。
  - 2025年10月25日 2:39 PM #64998 返信
    
    名無しさん
    
    でも盲検ってモデル同士の評価だから、人間の好みとはまた違うかもね。
  - 2025年10月25日 4:20 PM #65019 返信
    
    名無しさん
    
    このスレ見てKimi試してみようかな。まずはAPIで。
- 2025年10月25日 2:43 PM #64999 返信
  
  名無しさん
  
  それでもDeepSeek V3.2やQwen3 Maxを超えたのはすごい。ローカルで動かせるのか気になる。
  - 2025年10月25日 2:50 PM #65000 返信
    
    名無しさん
    
    KimiはAPIしかないんじゃなかったっけ？ローカル版はまだ出てないと思う。
- 2025年10月25日 2:52 PM #65001 返信
  
  名無しさん
  
  そうなるとローカルLLM勢としてはDeepSeekの方がまだ現実的かも。
- 2025年10月25日 2:56 PM #65002 返信
  
  名無しさん
  
  評価方法が気になる。どうやって盲検にしてるんだろう？
- 2025年10月25日 3:02 PM #65003 返信
  
  名無しさん
  
  たぶんモデルに予測させて、他のモデルに採点させる方式かな。自己評価バイアスは排除できてる？
- 2025年10月25日 3:11 PM #65004 返信
  
  名無しさん
  
  フロンティアモデルって具体的にどれのこと？GPT-4とかClaudeとか？
  - 2025年10月25日 3:12 PM #65005 返信
    
    名無しさん
    
    記事だとKimi K2.5、DeepSeek V3.2、GLM 5.1、Qwen3 Max、Geminiなど11モデルって書いてある。GPT-4は入ってないかも。
- 2025年10月25日 3:15 PM #65006 返信
  
  名無しさん
  
  つまり、オープンなモデル同士の比較ってこと？それなら結構フェアかも。
- 2025年10月25日 3:19 PM #65007 返信
  
  名無しさん
  
  でもKimiって中国製だよね。データセットにバイアスがないか心配。
  - 2025年10月25日 3:25 PM #65008 返信
    
    名無しさん
    
    中国モデルでも性能は出てるし、盲検ならバイアスは少ないんじゃない？
- 2025年10月25日 3:37 PM #65009 返信
  
  名無しさん
  
  実用的にはコスパも重要。KimiのAPI料金はどうなんだろ。
- 2025年10月25日 3:39 PM #65010 返信
  
  名無しさん
  
  ローカルで動かせるモデルに限ると、やっぱりDeepSeekかQwenが現実的。
- 2025年10月25日 3:42 PM #65011 返信
  
  名無しさん
  
  この評価結果、今後のモデル選びの参考になるな。ただし過信は禁物。
- 2025年10月25日 3:46 PM #65012 返信
  
  名無しさん
  
  そういえばGLM-5.1って聞いたことない。新しいモデル？
  - 2025年10月25日 3:54 PM #65013 返信
    
    名無しさん
    
    GLMは清华系のモデル。日本語はあんまり強くないみたい。
- 2025年10月25日 3:56 PM #65014 返信
  
  名無しさん
  
  自分はコード生成でよく使うけど、Kimiは試したことないな。
- 2025年10月25日 4:00 PM #65015 返信
  
  名無しさん
  
  コードならDeepSeek Coderとかのが良くない？
  - 2025年10月25日 4:05 PM #65016 返信
    
    名無しさん
    
    まあ用途によるよね。汎用性能ならKimiもありかも。
- 2025年10月25日 4:15 PM #65017 返信
  
  名無しさん
  
  盲検評価って結構コストかかりそう。これらの結果を公開してるのはありがたい。
- 2025年10月25日 4:17 PM #65018 返信
  
  名無しさん
  
  でもredditの投稿自体はコメント0って書いてるから、まだ議論は始まったばかりかも。
投稿者

投稿

23件の返信を表示中（うち親返信16件）

返信先: Kimi K2.5がフロンティアモデル同士の盲検評価で4位に。DeepSeek V3.2やQwen3 Maxを上回るで#65008に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック