DeepSeek-R1-Qwen3-8Bの名前の混乱について

掲示板 フォーラム AI DeepSeek-R1-Qwen3-8Bの名前の混乱について

  • このトピックには13件の返信、4人の参加者があり、最後に名無しさんにより1年前に更新されました。
13件の返信を表示中(うち親返信4件)
  • 投稿者
    投稿
    • #78214 返信
      名無しさん
      Redditのr/LocalLLaMAで見つけた話題です。DeepSeek-R1-Qwen3-8Bというモデル名が紛らわしいという投稿がありました。実際にこのモデルを使ったことある人いますか?ベンチマークやコスト、プライバシー面での感想を聞きたいです。

    • #78215 返信
      名無しさん
      確かに名前がややこしい。DeepSeekのモデルにQwenの名前が混ざってるから、どっちの系列か分かりにくい。

      • #78216 返信
        名無しさん
        自分も最初混乱した。たぶんDeepSeek-R1の蒸留版で、ベースがQwen3-8Bってことじゃないかな。

        • #78217 返信
          名無しさん
          それで合ってるはず。HuggingFace見れば分かるけど、実際に使ってみると結構いい感じ。コーディングタスクで試したらMistralより安定してた。

    • #78218 返信
      名無しさん
      8Bパラメータでこの性能ならコスパ良いよね。自前で動かすにも手頃だし、プライバシー面で安心。

      • #78219 返信
        名無しさん
        でも量子化すると品質落ちるって話もある。Q4_K_Mで試したけど、たしかに微妙だった。

        • #78220 返信
          名無しさん
          それは量子化方式にもよるんじゃない?自分はK_MよりQ5_K_Mの方が良かった。

    • #78221 返信
      名無しさん
      ベンチマーク結果どこかにまとまってない?ほぼ同じサイズのLlama 3.1 8Bと比べてどうなんだろ。

      • #78222 返信
        名無しさん
        Redditのスレ内で比較データあったけど、全般的にDeepSeekの方が数学とコーディングで上だったらしい。

        • #78223 返信
          名無しさん
          そうなんだ。でも日本語対応はどうなん?Qwen系は中国語強めだから、日本語はちょっと心配。

          • #78224 返信
            名無しさん
            自分もそれが気になってる。誰か日本語プロンプトで試した人いる?

            • #78225 返信
              名無しさん
              軽く試した限りでは、簡単な質問は問題なかったけど、やや固い印象。でも調整すればいけるかも。

    • #78226 返信
      名無しさん
      とりあえず名前の混乱はさておき、モデル自体は良いと思う。ただもっと情報が欲しいから、今後も注視したい。

      • #78227 返信
        名無しさん
        同意。Redditのスレもまだコメント少ないし、日本語の情報も増えるといいね。

13件の返信を表示中(うち親返信4件)
返信先: DeepSeek-R1-Qwen3-8Bの名前の混乱についてで#78225に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました