DeepSeek V4 Flashを3枚の3090で動かす – GGUFパッチの話

掲示板 フォーラム AI DeepSeek V4 Flashを3枚の3090で動かす – GGUFパッチの話

  • このトピックには26件の返信、8人の参加者があり、最後に名無しさんにより1年前に更新されました。
26件の返信を表示中(うち親返信17件)
  • 投稿者
    投稿
    • #61969 返信
      名無しさん
      。DeepSeek V4 Flashを3枚の3090で8.4 tok/sで動かしたという報告。cchuterのllama.cppフォークで特定のGGUFが読み込めない問題をパッチで解決したらしい。ローカルLLMの現実的な速度やコスト、モデルの品質について議論しよう。

    • #61970 返信
      名無しさん
      3枚の3090で8.4tok/sはなかなかいいな。自分は2枚だけど試してみたい。

    • #61971 返信
      名無しさん
      GGUFのパッチって具体的に何をやったんだろう。見ても詳細がよくわからん。

      • #61972 返信
        名無しさん
        多分llama.cppのフォークで特定の量子化形式が未対応だったのを、自前でパッチ当てたってことじゃないか?

    • #61973 返信
      名無しさん
      DeepSeek V4 Flashってまだ出て間もないのに、もうローカルで動かせるんだな。

    • #61974 返信
      名無しさん
      8tok/sって実用的なのか?チャットならイライラしそうだ。

      • #61975 返信
        名無しさん
        バッチ処理やコーディング支援なら十分じゃない?逐次応答じゃなければ。

    • #61976 返信
      名無しさん
      3090三枚って電気代やばくない?一時期よりは落ち着いたけど。

    • #61977 返信
      名無しさん
      自分はもっと安く済ませたいから、クラウドAPI使ってる。やっぱりローカルはコスト対効果が…。

      • #61978 返信
        名無しさん
        クラウドだとプライバシーが気になる。ローカルはその点安心。

    • #61979 返信
      名無しさん
      このパッチ、他のモデルでも使えるのかな?Qwenとかでも。

      • #61980 返信
        名無しさん
        多分フォーク固有の問題だから汎用性はなさそう。でも参考にはなる。

    • #61981 返信
      名無しさん
      V4 Flashの性能ってどうなの?ベンチマーク見る限り上位だけど、ローカルで使うには量子化必須だし。

      • #61982 返信
        名無しさん
        Q4_K_Mくらいで使うなら、GPT-4並みとは言わないけど結構優秀。

    • #61983 返信
      名無しさん
      3枚も積んでる人って、マイニングからの転用?

      • #61984 返信
        名無しさん
        それあるな。中古で安く手に入れたとか。

    • #61985 返信
      名無しさん
      llama.cppのフォークってcchuterのやつ?あまり聞いたことない。

    • #61986 返信
      名無しさん
      自分はllama.cpp本家で動かせてるけど、特定の量子化形式だけダメだったのかな。

    • #61987 返信
      名無しさん
      パッチの内容公開してほしい。自分も同じ問題で悩んでて。

      • #61988 返信
        名無しさん
        Redditのスレッドにコメントしたら教えてくれるかも?

    • #61989 返信
      名無しさん
      8.4tok/sって正直遅くない?A100とかだと何十倍も出るけど。

      • #61990 返信
        名無しさん
        A100は高いし、個人で持つには3090が現実的。スループットより所有感。

    • #61991 返信
      名無しさん
      このスレッド見て、自分も3枚構成にしようかな。今2枚だけど増設する価値ある?

    • #61992 返信
      名無しさん
      NVLink使ってるんだろうか。使わないとメモリ統合できなくて遅くなる。

      • #61993 返信
        名無しさん
        3090はNVLink対応だけど、性能向上はモデル次第。バッチサイズ大きいと効果的。

    • #61994 返信
      名無しさん
      とりあえずパッチの詳細を知りたい。コード差分とか公開されてる?

    • #61995 返信
      名無しさん
      うちの環境も似たような感じだから試すわ。情報ありがとう。

26件の返信を表示中(うち親返信17件)
返信先: DeepSeek V4 Flashを3枚の3090で動かす – GGUFパッチの話で#61989に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました