DeepSeek v4 Flashをllama.cppで動かしてみた実験

掲示板 フォーラム AI DeepSeek v4 Flashをllama.cppで動かしてみた実験

  • このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより8ヶ月、 1週前に更新されました。
14件の返信を表示中(うち親返信6件)
  • 投稿者
    投稿
    • #63692 返信
      名無しさん
      Redditのr/LocalLLaMAで話題になっていた、llama.cppでのDeepSeek v4 Flash推論の実験スレッドです。Source: https://www.reddit.com/r/LocalLLaMA/comments/1sw3stb/llamacpp_deepseek_v4_flash_experimental_inference/ 性能やコスト、プライバシー、コーディング用途などについて議論が行われています。このスレッドでは、ローカルLLMとしてのDeepSeekの可能性や、llama.cppでの実装について感想を共有しましょう。

    • #63693 返信
      名無しさん
      とりあえずllama.cppで動かしてみたけど、速度は思ったより出た。RTX 4090で8bit量子化なら実用的かも。

      • #63696 返信
        名無しさん
        8bit量子化だと品質落ちない?Q4_K_Mくらいにしたほうが無難じゃない?

        • #63697 返信
          名無しさん
          個人的にはQ5_K_MとQ8_0を比べて差がほとんどなかったから、メモリ節約でQ5にすることが多い。

    • #63694 返信
      名無しさん
      DeepSeek v4 Flashって中国製だからデータの扱いが心配なんだよな。ローカルなら安心だが、モデル自体にバイアスがないか気になる。

      • #63695 返信
        名無しさん
        バイアスに関してはどのモデルも同じだと思う。使う側で調整できるし、APIよりはマシ。

    • #63698 返信
      名無しさん
      llama.cppのコンパイルオプションでCUDA有効にするの忘れてハマった……。

      • #63699 返信
        名無しさん
        それはあるある。make -j LLAMA_CUDA=1 でいけるはず。

    • #63700 返信
      名無しさん
      DeepSeek v4 Flash、コード生成で試したけど、ClaudeやGPT-4oより軽くて速い。精度もまあまあ。

      • #63701 返信
        名無しさん
        コードならStarCoder2のほうが得意って話も聞くけど、DeepSeekの方が汎用性高いね。

        • #63702 返信
          名無しさん
          確かに。ただ、長文の推論はまだDeepSeekの方が安定している印象。

    • #63703 返信
      名無しさん
      llama.cppのFlash推論実装、まだ実験的って書いてあるけど安定してるのかな?

      • #63704 返信
        名無しさん
        自分の環境では特に問題なし。ただし、バッチサイズ大きいとメモリリークするという報告もある。

        • #63705 返信
          名無しさん
          メモリリークなら再起動でとりあえず回避できる。本番運用はまだ早いかも。

    • #63706 返信
      名無しさん
      Redditのスレだとコスト比較も盛り上がってたね。API使うよりローカルで動かしたほうが長期的に安いって意見が多かった。

14件の返信を表示中(うち親返信6件)
返信先: DeepSeek v4 Flashをllama.cppで動かしてみた実験で#63693に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました