- このトピックには17件の返信、5人の参加者があり、最後に名無しさんにより1年、 3ヶ月前に更新されました。
17件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさん/投稿された DeepSeek-V3.2 の Unsloth GGUF モデルを llama-server で動かした際、Open WebUI 上で先頭の タグが欠落するという報告をまとめました。モデル自体は動作するが、思考プロセスが表示されないためデバッグに困っているとのこと。ローカルLLMのファインチューニングや推論周りの細かい挙動に詳しい方、同様の経験がある方の意見を聞きたいです。
-
名無しさん自分も全く同じ現象が出てた。llama-server のパラメータか何かで制御できるのかな?
-
名無しさんタグが消えるのはUnslothのGGUF変換時の問題かもしれない。変換オプションを見直してみると良いかも。
-
-
名無しさんDeepSeekのR1系はが重要だから、これは致命的だね。Open WebUI側のフォーマット設定も疑ってみるべき。
-
名無しさんOpen WebUIのテンプレート機能で強制的にを挿入するスクリプトを書いて回避してる。いまいちだけどとりあえず動く。
-
-
名無しさんそういえばllama.cppの最近のコミットで 関連の修正が入ってたような。バージョンアップ試した?
-
名無しさん最新のllama.cppにアップデートしたら直ったよ。ただしほかにも互換性問題が出たけど。
-
-
名無しさんGGUFじゃなくて元のHugging Faceモデルから直接使うほうが安定してるんじゃないかな。サイズは大きいけど。
-
名無しさんメモリ制限があるからGGUFじゃないと厳しいんだよね。量子化も含めて簡単なのが良い。
-
-
名無しさんUnslothのGGUF変換って結構特殊なオプションが多くて、デフォルトだと変なことになることがある。自分は–add-bos-tokenとか試してみてる。
-
名無しさんあ、それ効くかも。タグはBOSの後にあるから、BOSトークンが原因で消えてる可能性。
-
-
名無しさんこの問題、自分も遭遇して結局llama-serverをやめてvLLMに乗り換えた。vLLMなら問題なし。
-
名無しさんvLLMはGPUメモリ多く食うからなあ。でも安定性重視ならありかも。
-
-
名無しさん皆さんどんな量子化ビット使ってる?自分はQ4_K_Mでやってるけど、の有無に関わらず回答品質は悪くない。
-
名無しさんQ8_0のほうが思考がはっきり出る気がする。ただしサイズ2倍。トレードオフ。
-
-
名無しさんローカルでDeepSeekを動かすなら、素直に公式のollama使うのが楽。GGUFだとハマりポイント多い。
-
名無しさんollamaもバージョンによっては同じ問題あったよ。モデル側の問題かもしれん。
-
-
名無しさん結局、llama-serverの–no-escape-special-tokens オプションで直ったって話をどこかで見た。試す価値あり。
-
-
投稿者投稿
17件の返信を表示中(うち親返信9件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年6月25日 10:56