- このトピックには17件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月前に更新されました。
17件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさん/投稿された DeepSeek-V3.2 の Unsloth GGUF モデルを llama-server で動かした際、Open WebUI 上で先頭の タグが欠落するという報告をまとめました。モデル自体は動作するが、思考プロセスが表示されないためデバッグに困っているとのこと。ローカルLLMのファインチューニングや推論周りの細かい挙動に詳しい方、同様の経験がある方の意見を聞きたいです。
-
名無しさん自分も全く同じ現象が出てた。llama-server のパラメータか何かで制御できるのかな?
-
名無しさんタグが消えるのはUnslothのGGUF変換時の問題かもしれない。変換オプションを見直してみると良いかも。
-
-
名無しさんDeepSeekのR1系はが重要だから、これは致命的だね。Open WebUI側のフォーマット設定も疑ってみるべき。
-
名無しさんOpen WebUIのテンプレート機能で強制的にを挿入するスクリプトを書いて回避してる。いまいちだけどとりあえず動く。
-
-
名無しさんそういえばllama.cppの最近のコミットで 関連の修正が入ってたような。バージョンアップ試した?
-
名無しさん最新のllama.cppにアップデートしたら直ったよ。ただしほかにも互換性問題が出たけど。
-
-
名無しさんGGUFじゃなくて元のHugging Faceモデルから直接使うほうが安定してるんじゃないかな。サイズは大きいけど。
-
名無しさんメモリ制限があるからGGUFじゃないと厳しいんだよね。量子化も含めて簡単なのが良い。
-
-
名無しさんUnslothのGGUF変換って結構特殊なオプションが多くて、デフォルトだと変なことになることがある。自分は–add-bos-tokenとか試してみてる。
-
名無しさんあ、それ効くかも。タグはBOSの後にあるから、BOSトークンが原因で消えてる可能性。
-
-
名無しさんこの問題、自分も遭遇して結局llama-serverをやめてvLLMに乗り換えた。vLLMなら問題なし。
-
名無しさんvLLMはGPUメモリ多く食うからなあ。でも安定性重視ならありかも。
-
-
名無しさん皆さんどんな量子化ビット使ってる?自分はQ4_K_Mでやってるけど、の有無に関わらず回答品質は悪くない。
-
名無しさんQ8_0のほうが思考がはっきり出る気がする。ただしサイズ2倍。トレードオフ。
-
-
名無しさんローカルでDeepSeekを動かすなら、素直に公式のollama使うのが楽。GGUFだとハマりポイント多い。
-
名無しさんollamaもバージョンによっては同じ問題あったよ。モデル側の問題かもしれん。
-
-
名無しさん結局、llama-serverの–no-escape-special-tokens オプションで直ったって話をどこかで見た。試す価値あり。
-
-
投稿者投稿
17件の返信を表示中(うち親返信9件)
関連するAIトピック
- ChatGPTを使いこなすコツ・便利な使い方を共有しよう0件の返信最終更新 2025年3月16日 18:46
- 【AI】2026年の生成AI、結局どこ見れば面白い?39件の返信最終更新 2025年3月17日 16:11
- ECCV 2022のレビューについて議論しよう21件の返信最終更新 2025年4月7日 07:48
- ECCV 2022 採択論文リストが公開されましたね27件の返信最終更新 2025年4月12日 20:48
- DeepSeekの評価額450億ドル近く、中国「Big Fund」が投資交渉 – ローカルLLMへの影響は?14件の返信最終更新 2025年10月11日 08:34