DeepSeek V4 Flashを3枚の3090で動かす – GGUFパッチの話

名無しさん · 2025-06-20T06:37:20+09:00

。DeepSeek V4 Flashを3枚の3090で8.4 tok/sで動かしたという報告。cchuterのllama.cppフォークで特定のGGUFが読み込めない問題をパッチで解決したらしい。ローカルLLMの現実的な速度やコスト、モデルの品質について議論しよう。

このトピックには26件の返信、8人の参加者があり、最後に名無しさんにより1年前に更新されました。

26件の返信を表示中（うち親返信17件）

投稿者

投稿
- 2025年6月20日 6:37 AM #61969 返信
  
  名無しさん
  
  。DeepSeek V4 Flashを3枚の3090で8.4 tok/sで動かしたという報告。cchuterのllama.cppフォークで特定のGGUFが読み込めない問題をパッチで解決したらしい。ローカルLLMの現実的な速度やコスト、モデルの品質について議論しよう。
- 2025年6月20日 6:38 AM #61970 返信
  
  名無しさん
  
  3枚の3090で8.4tok/sはなかなかいいな。自分は2枚だけど試してみたい。
- 2025年6月20日 6:41 AM #61971 返信
  
  名無しさん
  
  GGUFのパッチって具体的に何をやったんだろう。見ても詳細がよくわからん。
  - 2025年6月20日 6:46 AM #61972 返信
    
    名無しさん
    
    多分llama.cppのフォークで特定の量子化形式が未対応だったのを、自前でパッチ当てたってことじゃないか？
- 2025年6月20日 6:53 AM #61973 返信
  
  名無しさん
  
  DeepSeek V4 Flashってまだ出て間もないのに、もうローカルで動かせるんだな。
- 2025年6月20日 6:55 AM #61974 返信
  
  名無しさん
  
  8tok/sって実用的なのか？チャットならイライラしそうだ。
  - 2025年6月20日 6:58 AM #61975 返信
    
    名無しさん
    
    バッチ処理やコーディング支援なら十分じゃない？逐次応答じゃなければ。
- 2025年6月20日 7:04 AM #61976 返信
  
  名無しさん
  
  3090三枚って電気代やばくない？一時期よりは落ち着いたけど。
- 2025年6月20日 7:13 AM #61977 返信
  
  名無しさん
  
  自分はもっと安く済ませたいから、クラウドAPI使ってる。やっぱりローカルはコスト対効果が…。
  - 2025年6月20日 7:15 AM #61978 返信
    
    名無しさん
    
    クラウドだとプライバシーが気になる。ローカルはその点安心。
- 2025年6月20日 7:17 AM #61979 返信
  
  名無しさん
  
  このパッチ、他のモデルでも使えるのかな？Qwenとかでも。
  - 2025年6月20日 7:21 AM #61980 返信
    
    名無しさん
    
    多分フォーク固有の問題だから汎用性はなさそう。でも参考にはなる。
- 2025年6月20日 7:28 AM #61981 返信
  
  名無しさん
  
  V4 Flashの性能ってどうなの？ベンチマーク見る限り上位だけど、ローカルで使うには量子化必須だし。
  - 2025年6月20日 7:39 AM #61982 返信
    
    名無しさん
    
    Q4_K_Mくらいで使うなら、GPT-4並みとは言わないけど結構優秀。
- 2025年6月20日 7:41 AM #61983 返信
  
  名無しさん
  
  3枚も積んでる人って、マイニングからの転用？
  - 2025年6月20日 7:44 AM #61984 返信
    
    名無しさん
    
    それあるな。中古で安く手に入れたとか。
- 2025年6月20日 7:49 AM #61985 返信
  
  名無しさん
  
  llama.cppのフォークってcchuterのやつ？あまり聞いたことない。
- 2025年6月20日 7:56 AM #61986 返信
  
  名無しさん
  
  自分はllama.cpp本家で動かせてるけど、特定の量子化形式だけダメだったのかな。
- 2025年6月20日 7:58 AM #61987 返信
  
  名無しさん
  
  パッチの内容公開してほしい。自分も同じ問題で悩んでて。
  - 2025年6月20日 8:02 AM #61988 返信
    
    名無しさん
    
    Redditのスレッドにコメントしたら教えてくれるかも？
- 2025年6月20日 8:08 AM #61989 返信
  
  名無しさん
  
  8.4tok/sって正直遅くない？A100とかだと何十倍も出るけど。
  - 2025年6月20日 8:18 AM #61990 返信
    
    名無しさん
    
    A100は高いし、個人で持つには3090が現実的。スループットより所有感。
- 2025年6月20日 8:19 AM #61991 返信
  
  名無しさん
  
  このスレッド見て、自分も3枚構成にしようかな。今2枚だけど増設する価値ある？
- 2025年6月20日 8:22 AM #61992 返信
  
  名無しさん
  
  NVLink使ってるんだろうか。使わないとメモリ統合できなくて遅くなる。
  - 2025年6月20日 8:26 AM #61993 返信
    
    名無しさん
    
    3090はNVLink対応だけど、性能向上はモデル次第。バッチサイズ大きいと効果的。
- 2025年6月20日 8:33 AM #61994 返信
  
  名無しさん
  
  とりあえずパッチの詳細を知りたい。コード差分とか公開されてる？
- 2025年6月20日 8:45 AM #61995 返信
  
  名無しさん
  
  うちの環境も似たような感じだから試すわ。情報ありがとう。
投稿者

投稿

26件の返信を表示中（うち親返信17件）

返信先: DeepSeek V4 Flashを3枚の3090で動かす – GGUFパッチの話で#61990に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック