Deepseek v4 flash を大規模コード変更評価でテスト、精度がすごいらしい

掲示板 フォーラム AI Deepseek v4 flash を大規模コード変更評価でテスト、精度がすごいらしい

  • このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより8ヶ月、 1週前に更新されました。
14件の返信を表示中(うち親返信5件)
  • 投稿者
    投稿
    • #64284 返信
      名無しさん
      Redditのr/LocalLLaMAで、Deepseek v4 flashを大規模コード変更の評価(evals)でテストしたという投稿がありました。投稿者によると、ツール使用精度(tool use accuracy)が非常に高く、特にコード変更のタスクで優秀だったとのこと。コメントでは、コストパフォーマンス、プライバシー面、他のモデルとの比較、ローカル実行の可否などが議論されています。ソースURL: https://www.reddit.com/r/LocalLLaMA/comments/1suhdki/tested_deepseek_v4_flash_with_some_large_code/

    • #64285 返信
      名無しさん
      これ本当ならすごいね。コード生成系のタスクでDeepseekは結構強いって噂は聞いてたけど。

      • #64287 返信
        名無しさん
        確かに。ただ、Redditの投稿だけだと信頼性が微妙かも。自分でも試してみたいけど、API代が…。

        • #64290 返信
          名無しさん
          ローカルで動かせる版が出たらすぐ試すんだけど、まだv4 flashはAPI限定?

          • #64293 返信
            名無しさん
            確かv4 flashはまだWeb検索機能とかツール連携に特化してるバージョンだとか。ローカルよりクラウド向けかも。

      • #64294 返信
        名無しさん
        実際に大規模なコードベースで使ってみないと評価できないよね。小さいサンプルだけだと疑問が残る。

    • #64286 返信
      名無しさん
      でもツール使用精度ってどうやって測ってるんだろう?ベンチマークの詳細が気になる。

      • #64289 返信
        名無しさん
        SWE-benchとか使ったのかな?コード変更の評価っていうとそういうのを想像する。

        • #64295 返信
          名無しさん
          SWE-benchって最近話題だけど、あれも完璧じゃないしね。過信は禁物。

    • #64288 返信
      名無しさん
      前にV3使ったけど結構良かったから、V4 flashも期待してる。コスパ良いし。

      • #64291 返信
        名無しさん
        V3と比べてどのくらい変わったんだろう。ベンチマークスコアだけじゃなくて実用感が知りたい。

    • #64292 返信
      名無しさん
      自分はClaude派だけど、Deepseekも気になってる。コスト面だと圧倒的だしね。

      • #64297 返信
        名無しさん
        Claudeもいいけど、コード率いるならDeepseekの方が特化してる感じがする。用途次第だね。

    • #64296 返信
      名無しさん
      プライバシー面でローカルLLMを推してる身としては、Deepseekの中国企業って部分が引っかかる。でも性能は認める。

      • #64298 返信
        名無しさん
        そこは確かに。でもローカルで動かせるオープンウェイト版が出れば、プライバシー問題も回避できるかも。

14件の返信を表示中(うち親返信5件)
返信先: Deepseek v4 flash を大規模コード変更評価でテスト、精度がすごいらしいで#64290に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました