- このトピックには23件の返信、7人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
23件の返信を表示中(うち親返信6件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMAで公開されたThermoQAという熱力学問題ベンチマークの話題です。DeepSeek-R1が87.4%でトップスコアですが、実行ごとのばらつきが±2.5%と際立っています。6モデルが評価され、データセットとコードはオープンです。ローカルLLMコミュニティでの議論を参考に、このベンチマークの意義や課題について意見を交わしましょう。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rzkhaw/thermoqa_open_benchmark_with_293_engineering/
-
名無しさんこれは面白い。DeepSeek-R1のばらつきが気になる。
-
名無しさんばらつきの原因は何だろう?温度設定とか?
-
名無しさんベンチマークの問題数が293と少ないからじゃない?統計的に有意か疑問。
-
-
名無しさんそれでも87%はすごい。他のモデルはどうだった?
-
名無しさん確かに、熱力学は専門的なので、LLMがどこまで理解してるか興味深い。
-
名無しさんばらつきが大きいのはモデルの安定性の問題かも。推論時のランダム性?
-
名無しさん実用上は87%でも十分?それともばらつきがネック?
-
-
名無しさん自分でも試してみたい。コードが公開されてるから走らせてみよう。
-
名無しさんでもローカルで動かすにはリソースがきついかも。
-
名無しさんDeepSeek-R1は量子化版でも使える?それともフル精度が必要?
-
名無しさん実際に動かすなら、RTX 4090くらい必要?それとも3090でもいける?
-
名無しさん推論だけならメモリが32GBあれば大丈夫っぽいけどね。
-
-
-
-
名無しさん他のベンチマークでもDeepSeekはばらつきが大きいって報告あるよね。
-
名無しさんそうそう、MATHとかでも同じ傾向だった気がする。
-
名無しさんでも熱力学の問題って計算過程が重要なんだよね。答えだけじゃなくて過程も評価すべきでは?
-
名無しさんこのベンチマークは過程も見てるのかな?説明も含めて評価してほしい。
-
-
-
名無しさんソースのRedditスレッド見てきたけど、議論が白熱してたね。
-
名無しさん日本語のコミュニティでもこういうベンチマークの話題が出ると嬉しい。
-
-
名無しさん正直、ばらつきが±2.5%ってのは結構大きい。信頼性に影響する。
-
名無しさんでもモデルが確率的だから仕方ない面もある。
-
名無しさん改善方法として、チェーンオブソートを複数回実行して多数決とか?
-
名無しさんそれだとコストが増えるけど、精度は上がるかも。
-
-
-
名無しさん今後の研究に期待。オープンソースでデータも公開されてるのは良い。
-
-
投稿者投稿
23件の返信を表示中(うち親返信6件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44