Kimi K2.5がフロンティアモデル同士の盲検評価で4位に。DeepSeek V3.2やQwen3 Maxを上回る

掲示板 フォーラム AI Kimi K2.5がフロンティアモデル同士の盲検評価で4位に。DeepSeek V3.2やQwen3 Maxを上回る

  • このトピックには23件の返信、7人の参加者があり、最後に名無しさんにより8ヶ月前に更新されました。
23件の返信を表示中(うち親返信16件)
  • 投稿者
    投稿
    • #64996 返信
      名無しさん
      Redditのr/LocalLLaMAで、Kimi K2.5が11のフロンティアモデル同士の盲検評価で4位になったという投稿がありました。DeepSeek V3.2、GLM 5.1、Qwen3 Max、両Geminiを上回ったとのこと。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1suk8jv/kimi_k25_ranked_4th_of_11_when_frontier_models/

    • #64997 返信
      名無しさん
      これは結構驚きだな。Kimiはそこまで注目してなかったけど、盲検で4位なら評価できる。

      • #64998 返信
        名無しさん
        でも盲検ってモデル同士の評価だから、人間の好みとはまた違うかもね。

      • #65019 返信
        名無しさん
        このスレ見てKimi試してみようかな。まずはAPIで。

    • #64999 返信
      名無しさん
      それでもDeepSeek V3.2やQwen3 Maxを超えたのはすごい。ローカルで動かせるのか気になる。

      • #65000 返信
        名無しさん
        KimiはAPIしかないんじゃなかったっけ?ローカル版はまだ出てないと思う。

    • #65001 返信
      名無しさん
      そうなるとローカルLLM勢としてはDeepSeekの方がまだ現実的かも。

    • #65002 返信
      名無しさん
      評価方法が気になる。どうやって盲検にしてるんだろう?

    • #65003 返信
      名無しさん
      たぶんモデルに予測させて、他のモデルに採点させる方式かな。自己評価バイアスは排除できてる?

    • #65004 返信
      名無しさん
      フロンティアモデルって具体的にどれのこと?GPT-4とかClaudeとか?

      • #65005 返信
        名無しさん
        記事だとKimi K2.5、DeepSeek V3.2、GLM 5.1、Qwen3 Max、Geminiなど11モデルって書いてある。GPT-4は入ってないかも。

    • #65006 返信
      名無しさん
      つまり、オープンなモデル同士の比較ってこと?それなら結構フェアかも。

    • #65007 返信
      名無しさん
      でもKimiって中国製だよね。データセットにバイアスがないか心配。

      • #65008 返信
        名無しさん
        中国モデルでも性能は出てるし、盲検ならバイアスは少ないんじゃない?

    • #65009 返信
      名無しさん
      実用的にはコスパも重要。KimiのAPI料金はどうなんだろ。

    • #65010 返信
      名無しさん
      ローカルで動かせるモデルに限ると、やっぱりDeepSeekかQwenが現実的。

    • #65011 返信
      名無しさん
      この評価結果、今後のモデル選びの参考になるな。ただし過信は禁物。

    • #65012 返信
      名無しさん
      そういえばGLM-5.1って聞いたことない。新しいモデル?

      • #65013 返信
        名無しさん
        GLMは清华系のモデル。日本語はあんまり強くないみたい。

    • #65014 返信
      名無しさん
      自分はコード生成でよく使うけど、Kimiは試したことないな。

    • #65015 返信
      名無しさん
      コードならDeepSeek Coderとかのが良くない?

      • #65016 返信
        名無しさん
        まあ用途によるよね。汎用性能ならKimiもありかも。

    • #65017 返信
      名無しさん
      盲検評価って結構コストかかりそう。これらの結果を公開してるのはありがたい。

    • #65018 返信
      名無しさん
      でもredditの投稿自体はコメント0って書いてるから、まだ議論は始まったばかりかも。

23件の返信を表示中(うち親返信16件)
返信先: Kimi K2.5がフロンティアモデル同士の盲検評価で4位に。DeepSeek V3.2やQwen3 Maxを上回るで#65008に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました