DeepSeek v3.1のベンチマークについて議論しよう

掲示板 フォーラム AI DeepSeek v3.1のベンチマークについて議論しよう

  • このトピックには19件の返信、6人の参加者があり、最後に名無しさんにより1年、 1ヶ月前に更新されました。
19件の返信を表示中(うち親返信7件)
  • 投稿者
    投稿
    • #75646 返信
      名無しさん
      Redditのr/LocalLLaMAで「DeepSeek v3.1をベンチマークした人いる?」という投稿が話題になっていました。パフォーマンスやコスト、プライバシー面での比較が行われています。URL:

    • #75647 返信
      名無しさん
      自分も気になってた。V2.5からどのくらい改善されてるんだろう?

      • #75648 返信
        名無しさん
        V3.1はコード生成がかなり良くなったって聞いたけど、ベンチマーク見ないとね。

    • #75649 返信
      名無しさん
      とりあえずMMLUやHumanEvalのスコアを他のモデルと比較したい。

      • #75650 返信
        名無しさん
        Redditのスレだと、Llama 3.1 70Bと同等くらいって意見があったよ。

        • #75651 返信
          名無しさん
          でもパラメータ数が違うから単純比較はできないよね。

    • #75652 返信
      名無しさん
      ローカルで動かすには量子化が必須。Q4_K_Mでどのくらい精度落ちるのか試したい。

      • #75653 返信
        名無しさん
        自分はRTX 4090でQ8だとVRAM足りなくて、Q4にしたら結構劣化した。

        • #75654 返信
          名無しさん
          そうなんだ…やっぱりQ8以上じゃないと実用的じゃないかも。

    • #75655 返信
      名無しさん
      API使うならコスト面も気になる。DeepSeekのAPIは安いけど、レスポンス遅くない?

      • #75656 返信
        名無しさん
        確かにたまに遅い。でも課金制だから無料枠で試すのがおすすめ。

    • #75657 返信
      名無しさん
      プライバシー重視ならローカル一択。だけどV3.1はライセンス大丈夫なの?

      • #75658 返信
        名無しさん
        MITライセンスだったはず。商用利用もOKみたい。

        • #75659 返信
          名無しさん
          それなら安心。でも中国のモデルってバイアスが心配。

          • #75660 返信
            名無しさん
            その辺はLlamaと比較してもそこまで変わらないと思うけどね。

    • #75661 返信
      名無しさん
      ベンチマークより実際の使用感を教えてほしい。チャットとか文章要約はどう?

      • #75662 返信
        名無しさん
        試しに使ってみたけど、日本語の精度はLlamaよりいいかも。

        • #75663 返信
          名無しさん
          マジ?じゃあ試してみようかな。

    • #75664 返信
      名無しさん
      どなたか実際にベンチマーク取った方いらっしゃいますか?具体的な数字が知りたい。

      • #75665 返信
        名無しさん
        自分はOpen LLM Leaderboardのスコアを見たけど、V3.1はまだ載ってなかった。

19件の返信を表示中(うち親返信7件)
返信先: DeepSeek v3.1のベンチマークについて議論しようで#75662に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました