ThermoQAベンチマーク: DeepSeek-R1が87.4%だが実行ごとのばらつき大

名無しさん · 2025-11-07T16:38:53+09:00

Reddit r/LocalLLaMAで公開されたThermoQAという熱力学問題ベンチマークの話題です。DeepSeek-R1が87.4%でトップスコアですが、実行ごとのばらつきが±2.5%と際立っています。6モデルが評価され、データセットとコードはオープンです。ローカルLLMコミュニティでの議論を参考に、このベンチマークの意義や課題について意見を交わしましょう。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rzkhaw/thermoqa_open_benchmark_with_293_engineering/

このトピックには23件の返信、7人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。

23件の返信を表示中（うち親返信6件）

投稿者

投稿
- 2025年11月7日 4:38 PM #67019 返信
  
  名無しさん
  
  Reddit r/LocalLLaMAで公開されたThermoQAという熱力学問題ベンチマークの話題です。DeepSeek-R1が87.4%でトップスコアですが、実行ごとのばらつきが±2.5%と際立っています。6モデルが評価され、データセットとコードはオープンです。ローカルLLMコミュニティでの議論を参考に、このベンチマークの意義や課題について意見を交わしましょう。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rzkhaw/thermoqa_open_benchmark_with_293_engineering/
- 2025年11月7日 4:40 PM #67020 返信
  
  名無しさん
  
  これは面白い。DeepSeek-R1のばらつきが気になる。
  - 2025年11月7日 4:43 PM #67021 返信
    
    名無しさん
    
    ばらつきの原因は何だろう？温度設定とか？
  - 2025年11月7日 4:47 PM #67022 返信
    
    名無しさん
    
    ベンチマークの問題数が293と少ないからじゃない？統計的に有意か疑問。
- 2025年11月7日 4:54 PM #67023 返信
  
  名無しさん
  
  それでも87%はすごい。他のモデルはどうだった？
  - 2025年11月7日 4:56 PM #67024 返信
    
    名無しさん
    
    確かに、熱力学は専門的なので、LLMがどこまで理解してるか興味深い。
    - 2025年11月7日 5:16 PM #67028 返信
      
      名無しさん
      
      ばらつきが大きいのはモデルの安定性の問題かも。推論時のランダム性？
    - 2025年11月7日 5:19 PM #67029 返信
      
      名無しさん
      
      実用上は87%でも十分？それともばらつきがネック？
  - 2025年11月7日 5:00 PM #67025 返信
    
    名無しさん
    
    自分でも試してみたい。コードが公開されてるから走らせてみよう。
    - 2025年11月7日 5:06 PM #67026 返信
      
      名無しさん
      
      でもローカルで動かすにはリソースがきついかも。
    - 2025年11月7日 5:15 PM #67027 返信
      
      名無しさん
      
      DeepSeek-R1は量子化版でも使える？それともフル精度が必要？
    - 2025年11月7日 5:58 PM #67036 返信
      
      名無しさん
      
      実際に動かすなら、RTX 4090くらい必要？それとも3090でもいける？
      - 2025年11月7日 6:00 PM #67037 返信
        
        名無しさん
        
        推論だけならメモリが32GBあれば大丈夫っぽいけどね。
- 2025年11月7日 5:23 PM #67030 返信
  
  名無しさん
  
  他のベンチマークでもDeepSeekはばらつきが大きいって報告あるよね。
  - 2025年11月7日 5:29 PM #67031 返信
    
    名無しさん
    
    そうそう、MATHとかでも同じ傾向だった気がする。
  - 2025年11月7日 5:41 PM #67032 返信
    
    名無しさん
    
    でも熱力学の問題って計算過程が重要なんだよね。答えだけじゃなくて過程も評価すべきでは？
    - 2025年11月7日 5:43 PM #67033 返信
      
      名無しさん
      
      このベンチマークは過程も見てるのかな？説明も含めて評価してほしい。
- 2025年11月7日 5:45 PM #67034 返信
  
  名無しさん
  
  ソースのRedditスレッド見てきたけど、議論が白熱してたね。
  - 2025年11月7日 5:50 PM #67035 返信
    
    名無しさん
    
    日本語のコミュニティでもこういうベンチマークの話題が出ると嬉しい。
- 2025年11月7日 6:04 PM #67038 返信
  
  名無しさん
  
  正直、ばらつきが±2.5%ってのは結構大きい。信頼性に影響する。
  - 2025年11月7日 6:09 PM #67039 返信
    
    名無しさん
    
    でもモデルが確率的だから仕方ない面もある。
  - 2025年11月7日 6:19 PM #67040 返信
    
    名無しさん
    
    改善方法として、チェーンオブソートを複数回実行して多数決とか？
    - 2025年11月7日 6:21 PM #67041 返信
      
      名無しさん
      
      それだとコストが増えるけど、精度は上がるかも。
- 2025年11月7日 6:24 PM #67042 返信
  
  名無しさん
  
  今後の研究に期待。オープンソースでデータも公開されてるのは良い。
投稿者

投稿

23件の返信を表示中（うち親返信6件）

返信先: ThermoQAベンチマーク: DeepSeek-R1が87.4%だが実行ごとのばらつき大で#67030に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック