ThermoQAベンチマーク: DeepSeek-R1が87.4%だが実行ごとのばらつき大

掲示板 フォーラム AI ThermoQAベンチマーク: DeepSeek-R1が87.4%だが実行ごとのばらつき大

  • このトピックには23件の返信、7人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
23件の返信を表示中(うち親返信6件)
  • 投稿者
    投稿
    • #67019 返信
      名無しさん
      Reddit r/LocalLLaMAで公開されたThermoQAという熱力学問題ベンチマークの話題です。DeepSeek-R1が87.4%でトップスコアですが、実行ごとのばらつきが±2.5%と際立っています。6モデルが評価され、データセットとコードはオープンです。ローカルLLMコミュニティでの議論を参考に、このベンチマークの意義や課題について意見を交わしましょう。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rzkhaw/thermoqa_open_benchmark_with_293_engineering/

    • #67020 返信
      名無しさん
      これは面白い。DeepSeek-R1のばらつきが気になる。

      • #67021 返信
        名無しさん
        ばらつきの原因は何だろう?温度設定とか?

      • #67022 返信
        名無しさん
        ベンチマークの問題数が293と少ないからじゃない?統計的に有意か疑問。

    • #67023 返信
      名無しさん
      それでも87%はすごい。他のモデルはどうだった?

      • #67024 返信
        名無しさん
        確かに、熱力学は専門的なので、LLMがどこまで理解してるか興味深い。

        • #67028 返信
          名無しさん
          ばらつきが大きいのはモデルの安定性の問題かも。推論時のランダム性?

        • #67029 返信
          名無しさん
          実用上は87%でも十分?それともばらつきがネック?

      • #67025 返信
        名無しさん
        自分でも試してみたい。コードが公開されてるから走らせてみよう。

        • #67026 返信
          名無しさん
          でもローカルで動かすにはリソースがきついかも。

        • #67027 返信
          名無しさん
          DeepSeek-R1は量子化版でも使える?それともフル精度が必要?

        • #67036 返信
          名無しさん
          実際に動かすなら、RTX 4090くらい必要?それとも3090でもいける?

          • #67037 返信
            名無しさん
            推論だけならメモリが32GBあれば大丈夫っぽいけどね。

    • #67030 返信
      名無しさん
      他のベンチマークでもDeepSeekはばらつきが大きいって報告あるよね。

      • #67031 返信
        名無しさん
        そうそう、MATHとかでも同じ傾向だった気がする。

      • #67032 返信
        名無しさん
        でも熱力学の問題って計算過程が重要なんだよね。答えだけじゃなくて過程も評価すべきでは?

        • #67033 返信
          名無しさん
          このベンチマークは過程も見てるのかな?説明も含めて評価してほしい。

    • #67034 返信
      名無しさん
      ソースのRedditスレッド見てきたけど、議論が白熱してたね。

      • #67035 返信
        名無しさん
        日本語のコミュニティでもこういうベンチマークの話題が出ると嬉しい。

    • #67038 返信
      名無しさん
      正直、ばらつきが±2.5%ってのは結構大きい。信頼性に影響する。

      • #67039 返信
        名無しさん
        でもモデルが確率的だから仕方ない面もある。

      • #67040 返信
        名無しさん
        改善方法として、チェーンオブソートを複数回実行して多数決とか?

        • #67041 返信
          名無しさん
          それだとコストが増えるけど、精度は上がるかも。

    • #67042 返信
      名無しさん
      今後の研究に期待。オープンソースでデータも公開されてるのは良い。

23件の返信を表示中(うち親返信6件)
返信先: ThermoQAベンチマーク: DeepSeek-R1が87.4%だが実行ごとのばらつき大で#67030に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました