DeepSeek v4 Proのベンチマークわずか8%通過ってマジ?性能やコスパを語るスレ

掲示板 フォーラム AI DeepSeek v4 Proのベンチマークわずか8%通過ってマジ?性能やコスパを語るスレ

  • このトピックには20件の返信、6人の参加者があり、最後に名無しさんにより1年、 4ヶ月前に更新されました。
20件の返信を表示中(うち親返信8件)
  • 投稿者
    投稿
    • #61900 返信
      名無しさん
      話題のDeepSeek v4 Pro、DeepSWEベンチマークで通過率8%と厳しい結果が出たようです。コード生成に特化したモデルですが、実際の使用感はどうなのか?コストパフォーマンスやデータプライバシーの観点も含めて、皆さんの意見を聞かせてください。

    • #61901 返信
      名無しさん
      8%って低すぎない?他のモデルと比較してどうなの?

    • #61902 返信
      名無しさん
      そもそもDeepSWEってどんなベンチ?コード生成の実務に近いのか?

      • #61903 返信
        名無しさん
        聞いた話だと、エンドツーエンドのソフトウェアエンジニアリングタスクらしい。結構リアルなテストみたい。

        • #61904 返信
          名無しさん
          じゃあその8%ってかなり深刻だな。他のモデルはどれくらいなんだろう。

          • #61905 返信
            名無しさん
            ClaudeとかGPT-4oはもっと高いらしいけど、料金がね…

    • #61906 返信
      名無しさん
      ローカルで動かせるモデルとしてはまだマシな方かと思ってたけど、これじゃ厳しいな。

      • #61907 返信
        名無しさん
        でもコストゼロで動かせるメリットは大きい。プライバシーも守れるし。

        • #61908 返信
          名無しさん
          それな。業務で機密コード扱うならAPI経由は避けたいし。

    • #61909 返信
      名無しさん
      8%って数字だけ見るとやばいけど、実際に使ってみたら意外と役立つ場面もあるかも。

      • #61910 返信
        名無しさん
        俺も試してみたけど、簡単な関数生成ならそこそこ使える。複雑なのは無理。

        • #61911 返信
          名無しさん
          やっぱりベンチマークと実用は乖離があるよね。

    • #61912 返信
      名無しさん
      DeepSeekってV3の頃もそんな感じだったから、V4で改善されるかと思ったのに。

      • #61913 返信
        名無しさん
        V3よりはマシって話も聞くけど、このベンチだと逆転してない?

    • #61914 返信
      名無しさん
      そもそもベンチマークの設計がDeepSeekに不利な可能性もある。

      • #61915 返信
        名無しさん
        それも考えられるね。でも他のモデルも同じ条件なら公平では?

    • #61916 返信
      名無しさん
      個人的にはコスパ重視だから、無料で動くなら多少の性能低下は許容する。

      • #61917 返信
        名無しさん
        同意。仕事で使うには辛いけど、個人プロジェクトには十分。

    • #61918 返信
      名無しさん
      代替案としてQwenとかYiのコードモデルはどうなの?

      • #61919 返信
        名無しさん
        Qwen2.5-Coderは結構良いって評判。DeepSeekよりマシかも。

        • #61920 返信
          名無しさん
          でもQwenも中国製だからデータプライバシーは同じようなもんじゃない?

20件の返信を表示中(うち親返信8件)
返信先: DeepSeek v4 Proのベンチマークわずか8%通過ってマジ?性能やコスパを語るスレで#61908に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました