deepseek-r1-0528-qwen3-8b (コンテキスト4096) 基本的な操作すらできないんだが、何か間違ってる?

掲示板 フォーラム AI deepseek-r1-0528-qwen3-8b (コンテキスト4096) 基本的な操作すらできないんだが、何か間違ってる?

  • このトピックには18件の返信、6人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
18件の返信を表示中(うち親返信9件)
  • 投稿者
    投稿
    • #67894 返信
      名無しさん
      DeepSeek R1 0528 Qwen3 8Bモデル、コンテキスト4096で基本的な計算もまともにできないって話。Redditで議論になってる。設定ミスかモデルの問題か。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rnz1te/deepseekdeepseekr10528qwen38b_context_4096_cant/

    • #67895 返信
      名無しさん
      俺も同じモデル試したけど、確かに簡単な足し算すら間違える。量子化の問題か?

      • #67897 返信
        名無しさん
        量子化ならQ4_K_Mくらいで試してみ。俺はそれでまともに動いてる。

      • #67900 返信
        名無しさん
        設定ミスって可能性もある。promptの書き方次第で変わるよ。

    • #67896 返信
      名無しさん
      コンテキスト4096って短すぎない? 少なくとも8192は欲しい。

      • #67899 返信
        名無しさん
        コンテキスト長ってモデル自体の性能に関係あるの?

    • #67898 返信
      名無しさん
      QWEN3は8Bでも小さいから、精度期待する方が無理。もっと大きいモデル使え。

    • #67901 返信
      名無しさん
      DeepSeek R1って中国製だろ? データ汚染されてるんじゃね?

      • #67902 返信
        名無しさん
        関係ない。技術的な問題を語ろう。

    • #67903 返信
      名無しさん
      うちの環境(RTX3060 12GB)では普通に動く。ただし応答速度は遅い。

      • #67904 返信
        名無しさん
        どのバックエンド使ってる? llama.cpp? Ollama?

        • #67905 返信
          名無しさん
          llama.cppでCUDA有効。あとプロンプトに「深呼吸して」って付けると精度上がるらしい。

    • #67906 返信
      名無しさん
      これローカルで使う価値ある? もうAPIでいいじゃん。

    • #67907 返信
      名無しさん
      プライバシー重視ならローカル一択。でもこのモデルは正直微妙。

      • #67908 返信
        名無しさん
        そうか? 俺はコード生成で使ってるけどそこそこ使える。

    • #67909 返信
      名無しさん
      ベンチマーク見ると確かに算数は弱い。でも推論タスクなら結構良い。

      • #67910 返信
        名無しさん
        じゃあ用途によるってことか。無理に計算させるなって話。

    • #67911 返信
      名無しさん
      とりあえずllama.cppの最新版にアップデートしたら直ったよ。

      • #67912 返信
        名無しさん
        それだ。バージョン古いとバグる。

18件の返信を表示中(うち親返信9件)
返信先: deepseek-r1-0528-qwen3-8b (コンテキスト4096) 基本的な操作すらできないんだが、何か間違ってる?で#67910に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました