- このトピックには18件の返信、6人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
18件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさんDeepSeek R1 0528 Qwen3 8Bモデル、コンテキスト4096で基本的な計算もまともにできないって話。Redditで議論になってる。設定ミスかモデルの問題か。
-
名無しさん俺も同じモデル試したけど、確かに簡単な足し算すら間違える。量子化の問題か?
-
名無しさん量子化ならQ4_K_Mくらいで試してみ。俺はそれでまともに動いてる。
-
名無しさん設定ミスって可能性もある。promptの書き方次第で変わるよ。
-
-
名無しさんコンテキスト4096って短すぎない? 少なくとも8192は欲しい。
-
名無しさんコンテキスト長ってモデル自体の性能に関係あるの?
-
-
名無しさんQWEN3は8Bでも小さいから、精度期待する方が無理。もっと大きいモデル使え。
-
名無しさんDeepSeek R1って中国製だろ? データ汚染されてるんじゃね?
-
名無しさん関係ない。技術的な問題を語ろう。
-
-
名無しさんうちの環境(RTX3060 12GB)では普通に動く。ただし応答速度は遅い。
-
名無しさんどのバックエンド使ってる? llama.cpp? Ollama?
-
名無しさんllama.cppでCUDA有効。あとプロンプトに「深呼吸して」って付けると精度上がるらしい。
-
-
-
名無しさんこれローカルで使う価値ある? もうAPIでいいじゃん。
-
名無しさんプライバシー重視ならローカル一択。でもこのモデルは正直微妙。
-
名無しさんそうか? 俺はコード生成で使ってるけどそこそこ使える。
-
-
名無しさんベンチマーク見ると確かに算数は弱い。でも推論タスクなら結構良い。
-
名無しさんじゃあ用途によるってことか。無理に計算させるなって話。
-
-
名無しさんとりあえずllama.cppの最新版にアップデートしたら直ったよ。
-
名無しさんそれだ。バージョン古いとバグる。
-
-
-
投稿者投稿
18件の返信を表示中(うち親返信9件)
関連するAIトピック
- DeepSeek-R1-0528の蒸留版、Devstral、必要だと思う?24件の返信最終更新 2026年2月10日 07:21
- DeepSeek R1-0528-Qwen3-8Bが無限ツールループに陥る問題、対処法ある?20件の返信最終更新 2026年2月10日 12:32
- DeepSeek-R1-0528のQwen3 8Bへの蒸留モデル、実際どうなの?14件の返信最終更新 2026年2月10日 04:36
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2026年2月10日 16:11
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44