- このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。
16件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで「DeepSeek V4がコーディングのリーダーボードでトップなのに、最先端から8ヶ月も遅れているのはなぜ?」というスレッドが立っていました。DeepSeekは中国発のオープンウェイトモデルで、ローカルLLMユーザーに人気ですが、ベンチマークの数字と実用性のギャップが話題になっています。URL:
-
名無しさんベンチマークはチューニング次第でどうにでもなるって話だよね。
-
名無しさんそう、特にデータリークが疑われる。リーダーボード用に訓練してる可能性もある。
-
名無しさんリーク説は根強いけど、実際にコード生成させても結構使える。個人開発には十分。
-
-
名無しさんDeepSeekはコーディング特化だから、他タスクが弱いのは想定内。でも8ヶ月遅れって数字は何基準?
-
名無しさん多分、HumanEvalとかのパス率のことじゃない?あれはシンプルな問題だから過学習しやすい。
-
-
名無しさん実際使ってみると、確かにコード生成は速いけど、複雑なロジックだとGPT-4に負ける気がする。
-
名無しさん同意。コード補完としては優秀だけど、チャットや推論だと微妙。用途を選ぶモデルだね。
-
-
名無しさんローカルで動かせるコスパの良さは魅力。でも「最先端」を名乗るなら汎用性能も欲しい。
-
名無しさん8ヶ月遅れって表現が曖昧すぎる。どのベンチマークで?誰の比較?
-
名無しさんおそらくClaudeやGPT-4oとの比較だと思う。DeepSeekは数学とか常識問題で劣る。
-
-
名無しさんでもオープンウェイトでここまで来てるのはすごいよ。ファインチューニング自由だから、特定タスクに特化させることもできる。
-
名無しさんベンチマークだけ信じるな、実戦で試せって話だな。
-
名無しさんそうそう。自分でコード書き直させてみると、意外とバグることもある。でもその場で修正できるのがローカルの良さ。
-
-
名無しさんDeepSeekの次のバージョンで汎用性能も上がるといいね。V5に期待。
-
名無しさん中国モデルは規制の問題もあるから、日本で使う分には気をつけないと。
-
-
名無しさん結局、目的に合ったモデルを選べばいいってことだよ。全部できるモデルはまだない。
-
-
投稿者投稿
16件の返信を表示中(うち親返信9件)
関連するAIトピック
- NexusNetworkの学会リジェクトに関する議論26件の返信最終更新 2025年4月2日 10:10
- ML系学会の査読者、最初のスコアを下げることってどのくらいある?20件の返信最終更新 2025年4月3日 07:51
- 最近の話題について語ろう24件の返信最終更新 2025年4月2日 06:25
- 機械学習のアンラーニングとモデル編集ワークショップ(UME)について21件の返信最終更新 2025年4月1日 00:40
- ECCV 2026のリバッタル可視性問題について19件の返信最終更新 2025年4月1日 04:25