DeepSeek v4 Flashをllama.cppで動かしてみた実験

名無しさん · 2025-10-16T15:30:57+09:00

Redditのr/LocalLLaMAで話題になっていた、llama.cppでのDeepSeek v4 Flash推論の実験スレッドです。Source: https://www.reddit.com/r/LocalLLaMA/comments/1sw3stb/llamacpp_deepseek_v4_flash_experimental_inference/ 性能やコスト、プライバシー、コーディング用途などについて議論が行われています。このスレッドでは、ローカルLLMとしてのDeepSeekの可能性や、llama.cppでの実装について感想を共有しましょう。

このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより8ヶ月、 1週前に更新されました。

14件の返信を表示中（うち親返信6件）

投稿者

投稿
- 2025年10月16日 3:30 PM #63692 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで話題になっていた、llama.cppでのDeepSeek v4 Flash推論の実験スレッドです。Source: https://www.reddit.com/r/LocalLLaMA/comments/1sw3stb/llamacpp_deepseek_v4_flash_experimental_inference/ 性能やコスト、プライバシー、コーディング用途などについて議論が行われています。このスレッドでは、ローカルLLMとしてのDeepSeekの可能性や、llama.cppでの実装について感想を共有しましょう。
- 2025年10月16日 3:32 PM #63693 返信
  
  名無しさん
  
  とりあえずllama.cppで動かしてみたけど、速度は思ったより出た。RTX 4090で8bit量子化なら実用的かも。
  - 2025年10月16日 3:46 PM #63696 返信
    
    名無しさん
    
    8bit量子化だと品質落ちない？Q4_K_Mくらいにしたほうが無難じゃない？
    - 2025年10月16日 3:48 PM #63697 返信
      
      名無しさん
      
      個人的にはQ5_K_MとQ8_0を比べて差がほとんどなかったから、メモリ節約でQ5にすることが多い。
- 2025年10月16日 3:35 PM #63694 返信
  
  名無しさん
  
  DeepSeek v4 Flashって中国製だからデータの扱いが心配なんだよな。ローカルなら安心だが、モデル自体にバイアスがないか気になる。
  - 2025年10月16日 3:39 PM #63695 返信
    
    名無しさん
    
    バイアスに関してはどのモデルも同じだと思う。使う側で調整できるし、APIよりはマシ。
- 2025年10月16日 3:52 PM #63698 返信
  
  名無しさん
  
  llama.cppのコンパイルオプションでCUDA有効にするの忘れてハマった……。
  - 2025年10月16日 3:58 PM #63699 返信
    
    名無しさん
    
    それはあるある。make -j LLAMA_CUDA=1 でいけるはず。
- 2025年10月16日 4:07 PM #63700 返信
  
  名無しさん
  
  DeepSeek v4 Flash、コード生成で試したけど、ClaudeやGPT-4oより軽くて速い。精度もまあまあ。
  - 2025年10月16日 4:08 PM #63701 返信
    
    名無しさん
    
    コードならStarCoder2のほうが得意って話も聞くけど、DeepSeekの方が汎用性高いね。
    - 2025年10月16日 4:11 PM #63702 返信
      
      名無しさん
      
      確かに。ただ、長文の推論はまだDeepSeekの方が安定している印象。
- 2025年10月16日 4:15 PM #63703 返信
  
  名無しさん
  
  llama.cppのFlash推論実装、まだ実験的って書いてあるけど安定してるのかな？
  - 2025年10月16日 4:21 PM #63704 返信
    
    名無しさん
    
    自分の環境では特に問題なし。ただし、バッチサイズ大きいとメモリリークするという報告もある。
    - 2025年10月16日 4:33 PM #63705 返信
      
      名無しさん
      
      メモリリークなら再起動でとりあえず回避できる。本番運用はまだ早いかも。
- 2025年10月16日 4:35 PM #63706 返信
  
  名無しさん
  
  Redditのスレだとコスト比較も盛り上がってたね。API使うよりローカルで動かしたほうが長期的に安いって意見が多かった。
投稿者

投稿

14件の返信を表示中（うち親返信6件）

返信先: DeepSeek v4 Flashをllama.cppで動かしてみた実験

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

関連するAIトピック