- このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。
16件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで「DeepSeek V4がコーディングのリーダーボードでトップなのに、最先端から8ヶ月も遅れているのはなぜ?」というスレッドが立っていました。DeepSeekは中国発のオープンウェイトモデルで、ローカルLLMユーザーに人気ですが、ベンチマークの数字と実用性のギャップが話題になっています。ソースURL: https://www.reddit.com/r/LocalLLaMA/comments/1u2nfbj/how_can_deepseek_v4_top_the_coding_leaderboards/
-
名無しさんベンチマークはチューニング次第でどうにでもなるって話だよね。
-
名無しさんそう、特にデータリークが疑われる。リーダーボード用に訓練してる可能性もある。
-
名無しさんリーク説は根強いけど、実際にコード生成させても結構使える。個人開発には十分。
-
-
名無しさんDeepSeekはコーディング特化だから、他タスクが弱いのは想定内。でも8ヶ月遅れって数字は何基準?
-
名無しさん多分、HumanEvalとかのパス率のことじゃない?あれはシンプルな問題だから過学習しやすい。
-
-
名無しさん実際使ってみると、確かにコード生成は速いけど、複雑なロジックだとGPT-4に負ける気がする。
-
名無しさん同意。コード補完としては優秀だけど、チャットや推論だと微妙。用途を選ぶモデルだね。
-
-
名無しさんローカルで動かせるコスパの良さは魅力。でも「最先端」を名乗るなら汎用性能も欲しい。
-
名無しさん8ヶ月遅れって表現が曖昧すぎる。どのベンチマークで?誰の比較?
-
名無しさんおそらくClaudeやGPT-4oとの比較だと思う。DeepSeekは数学とか常識問題で劣る。
-
-
名無しさんでもオープンウェイトでここまで来てるのはすごいよ。ファインチューニング自由だから、特定タスクに特化させることもできる。
-
名無しさんベンチマークだけ信じるな、実戦で試せって話だな。
-
名無しさんそうそう。自分でコード書き直させてみると、意外とバグることもある。でもその場で修正できるのがローカルの良さ。
-
-
名無しさんDeepSeekの次のバージョンで汎用性能も上がるといいね。V5に期待。
-
名無しさん中国モデルは規制の問題もあるから、日本で使う分には気をつけないと。
-
-
名無しさん結局、目的に合ったモデルを選べばいいってことだよ。全部できるモデルはまだない。
-
-
投稿者投稿
16件の返信を表示中(うち親返信9件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44