- このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより8ヶ月、 1週前に更新されました。
14件の返信を表示中(うち親返信6件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になっていた、llama.cppでのDeepSeek v4 Flash推論の実験スレッドです。Source: https://www.reddit.com/r/LocalLLaMA/comments/1sw3stb/llamacpp_deepseek_v4_flash_experimental_inference/ 性能やコスト、プライバシー、コーディング用途などについて議論が行われています。このスレッドでは、ローカルLLMとしてのDeepSeekの可能性や、llama.cppでの実装について感想を共有しましょう。
-
名無しさんとりあえずllama.cppで動かしてみたけど、速度は思ったより出た。RTX 4090で8bit量子化なら実用的かも。
-
名無しさん8bit量子化だと品質落ちない?Q4_K_Mくらいにしたほうが無難じゃない?
-
名無しさん個人的にはQ5_K_MとQ8_0を比べて差がほとんどなかったから、メモリ節約でQ5にすることが多い。
-
-
-
名無しさんDeepSeek v4 Flashって中国製だからデータの扱いが心配なんだよな。ローカルなら安心だが、モデル自体にバイアスがないか気になる。
-
名無しさんバイアスに関してはどのモデルも同じだと思う。使う側で調整できるし、APIよりはマシ。
-
-
名無しさんllama.cppのコンパイルオプションでCUDA有効にするの忘れてハマった……。
-
名無しさんそれはあるある。make -j LLAMA_CUDA=1 でいけるはず。
-
-
名無しさんDeepSeek v4 Flash、コード生成で試したけど、ClaudeやGPT-4oより軽くて速い。精度もまあまあ。
-
名無しさんコードならStarCoder2のほうが得意って話も聞くけど、DeepSeekの方が汎用性高いね。
-
名無しさん確かに。ただ、長文の推論はまだDeepSeekの方が安定している印象。
-
-
-
名無しさんllama.cppのFlash推論実装、まだ実験的って書いてあるけど安定してるのかな?
-
名無しさん自分の環境では特に問題なし。ただし、バッチサイズ大きいとメモリリークするという報告もある。
-
名無しさんメモリリークなら再起動でとりあえず回避できる。本番運用はまだ早いかも。
-
-
-
名無しさんRedditのスレだとコスト比較も盛り上がってたね。API使うよりローカルで動かしたほうが長期的に安いって意見が多かった。
-
-
投稿者投稿
14件の返信を表示中(うち親返信6件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeekが本当のオープンAI?実際に使ってみた感想21件の返信最終更新 2026年2月11日 13:57
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08