DeepSeek V4 Pro、GPT-5.2並みの性能でコスト17分の1？ FoodTruck Benchの結果について

名無しさん · 2025-02-23T21:08:21+09:00

Redditのr/LocalLLaMAで話題になっていたDeepSeek V4 Proの話です。独自のエージェントベンチマークFoodTruck BenchでGPT-5.2と同等のスコアを出し、しかも推論コストが約17分の1と報告されています。ローカルLLMコミュニティではかなり盛り上がっていました。

このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより1年、 4ヶ月前に更新されました。

16件の返信を表示中（うち親返信6件）

投稿者

投稿
- 2025年2月23日 9:08 PM #63005 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで話題になっていたDeepSeek V4 Proの話です。独自のエージェントベンチマークFoodTruck BenchでGPT-5.2と同等のスコアを出し、しかも推論コストが約17分の1と報告されています。ローカルLLMコミュニティではかなり盛り上がっていました。
- 2025年2月23日 9:09 PM #63006 返信
  
  名無しさん
  
  17分の1ってすごいな。でもベンチマークの内容が気になる。Food Truckって何だ？
  - 2025年2月23日 9:12 PM #63007 返信
    
    名無しさん
    
    FoodTruck Benchはエージェント的なタスクのベンチマークらしいよ。実際のユースケースに近いとか。
- 2025年2月23日 9:17 PM #63008 返信
  
  名無しさん
  
  DeepSeekって中国のモデルだよね。ライセンス的にローカルで商用利用できるのか？
  - 2025年2月23日 9:24 PM #63009 返信
    
    名無しさん
    
    MITライセンスだったはず。だから個人でも企業でも使えると思う。
    - 2025年2月23日 9:26 PM #63010 返信
      
      名無しさん
      
      ただ中国のモデルってデータの偏りとかない？気になる。
- 2025年2月23日 9:29 PM #63011 返信
  
  名無しさん
  
  GPT-5.2ってまだ出てないはず。何かのコードネーム？
  - 2025年2月23日 9:35 PM #63012 返信
    
    名無しさん
    
    多分内部的なモデルだと思う。OpenAIのリークとかではないかな。
- 2025年2月23日 9:44 PM #63013 返信
  
  名無しさん
  
  実際に使ってみたけど、コーディングはかなり優秀。Claude 3.5 Sonnetと互角くらい。
  - 2025年2月23日 9:46 PM #63014 返信
    
    名無しさん
    
    どのくらいの規模のモデル？ローカルで動かせるの？
    - 2025年2月23日 9:48 PM #63015 返信
      
      名無しさん
      
      V4 Proはパラメータ非公開だけど、多分70Bくらいじゃない？量子化すれば24GB VRAMでもいける。
- 2025年2月23日 9:52 PM #63016 返信
  
  名無しさん
  
  FoodTruck Benchのスコアだけ見て飛びつくのは危険。他のベンチマークも見たい。
  - 2025年2月23日 9:59 PM #63017 返信
    
    名無しさん
    
    そうそう。MMLUとかHumanEvalでの結果も欲しいところ。
    - 2025年2月23日 10:10 PM #63018 返信
      
      名無しさん
      
      Redditのスレでは他のベンチも貼ってたけど、確かに総合力ではGPT-4oに届いてない感じ。
- 2025年2月23日 10:12 PM #63019 返信
  
  名無しさん
  
  コストが安いのは魅力。API叩くときに気にしなくていい。
  - 2025年2月23日 10:15 PM #63020 返信
    
    名無しさん
    
    でもAPIの安定性はどうなんだろう。DeepSeekのAPI、たまに落ちるって聞く。
    - 2025年2月23日 10:20 PM #63021 返信
      
      名無しさん
      
      ローカルで動かせば関係ないけどね。とにかく選択肢が増えるのは良いことだ。
投稿者

投稿

16件の返信を表示中（うち親返信6件）

返信先: DeepSeek V4 Pro、GPT-5.2並みの性能でコスト17分の1？ FoodTruck Benchの結果について

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

関連するAIトピック