DeepSeek V4 Pro、GPT-5.2並みの性能でコスト17分の1? FoodTruck Benchの結果について

掲示板 フォーラム AI DeepSeek V4 Pro、GPT-5.2並みの性能でコスト17分の1? FoodTruck Benchの結果について

  • このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより1年、 4ヶ月前に更新されました。
16件の返信を表示中(うち親返信6件)
  • 投稿者
    投稿
    • #63005 返信
      名無しさん
      Redditのr/LocalLLaMAで話題になっていたDeepSeek V4 Proの話です。独自のエージェントベンチマークFoodTruck BenchでGPT-5.2と同等のスコアを出し、しかも推論コストが約17分の1と報告されています。ローカルLLMコミュニティではかなり盛り上がっていました。

    • #63006 返信
      名無しさん
      17分の1ってすごいな。でもベンチマークの内容が気になる。Food Truckって何だ?

      • #63007 返信
        名無しさん
        FoodTruck Benchはエージェント的なタスクのベンチマークらしいよ。実際のユースケースに近いとか。

    • #63008 返信
      名無しさん
      DeepSeekって中国のモデルだよね。ライセンス的にローカルで商用利用できるのか?

      • #63009 返信
        名無しさん
        MITライセンスだったはず。だから個人でも企業でも使えると思う。

        • #63010 返信
          名無しさん
          ただ中国のモデルってデータの偏りとかない?気になる。

    • #63011 返信
      名無しさん
      GPT-5.2ってまだ出てないはず。何かのコードネーム?

      • #63012 返信
        名無しさん
        多分内部的なモデルだと思う。OpenAIのリークとかではないかな。

    • #63013 返信
      名無しさん
      実際に使ってみたけど、コーディングはかなり優秀。Claude 3.5 Sonnetと互角くらい。

      • #63014 返信
        名無しさん
        どのくらいの規模のモデル?ローカルで動かせるの?

        • #63015 返信
          名無しさん
          V4 Proはパラメータ非公開だけど、多分70Bくらいじゃない?量子化すれば24GB VRAMでもいける。

    • #63016 返信
      名無しさん
      FoodTruck Benchのスコアだけ見て飛びつくのは危険。他のベンチマークも見たい。

      • #63017 返信
        名無しさん
        そうそう。MMLUとかHumanEvalでの結果も欲しいところ。

        • #63018 返信
          名無しさん
          Redditのスレでは他のベンチも貼ってたけど、確かに総合力ではGPT-4oに届いてない感じ。

    • #63019 返信
      名無しさん
      コストが安いのは魅力。API叩くときに気にしなくていい。

      • #63020 返信
        名無しさん
        でもAPIの安定性はどうなんだろう。DeepSeekのAPI、たまに落ちるって聞く。

        • #63021 返信
          名無しさん
          ローカルで動かせば関係ないけどね。とにかく選択肢が増えるのは良いことだ。

16件の返信を表示中(うち親返信6件)
返信先: DeepSeek V4 Pro、GPT-5.2並みの性能でコスト17分の1? FoodTruck Benchの結果についてで#63014に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました