- このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより1年、 1ヶ月前に更新されました。
14件の返信を表示中(うち親返信7件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になっているDeepSeek V3.2 Specialeの話です。このモデル、大学院レベルの難しい問題は解けるのに、なぜか高校の代数でミスをするという報告がありました。
ローカルLLMユーザーの間でも「ベンチマークの限界か?」「訓練データの偏りでは?」と議論になっています。みなさんのご意見をどうぞ。 -
名無しさんこれあるあるだよね。LLMって特定のパターンには強いけど、基礎的な論理で抜けがある。
-
名無しさんそうそう、訓練データに論文が多いから、そういう問題は得意だけど、中学数学みたいなのは苦手なんだろうな。
-
-
名無しさんむしろ大学院レベルが解けるってすごくない?高校代数は単純な計算ミスみたいなものかも。
-
名無しさんでも「Special版」って謳ってるのに、基本ができてないのはちょっと…。
-
-
名無しさんベンチマークの選び方にも問題あるよね。実際のユースケースではもっとバランスが大事。
-
名無しさんそう、MATHとかGSM8Kはある程度できるけど、自由形式の代数問題は別問題らしい。
-
-
名無しさんローカルで動かすには重すぎるし、コスパも微妙って話もあるね。
-
名無しさんでもDeepSeekはAPI安いから、そこは評価できる。プライバシー気にする人はローカル一択だけど。
-
-
名無しさん高校代数でつまずくって、もしかしてプロンプトが悪いだけじゃない?
-
名無しさんそれもあるかも。でもRedditの人はいろいろ試してダメだったって言ってたよ。
-
-
名無しさんこういう報告って結構あるから、AIの「賢さ」ってまだまだ不完全だなと思う。
-
名無しさん同感。特にコーディング系だと、ライブラリの使い方は完璧なのに、簡単なループでミスったりする。
-
-
名無しさんまあ、人間も同じようなことあるしね。専門バカみたいなものか。
-
名無しさんそれにしても、DeepSeekは中国のモデルだから、データセットに偏りがある可能性も否めない。
-
-
-
投稿者投稿
14件の返信を表示中(うち親返信7件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年6月25日 10:56