- このトピックには26件の返信、8人の参加者があり、最後に名無しさんにより1年前に更新されました。
26件の返信を表示中(うち親返信17件)
-
投稿者投稿
-
-
名無しさん。DeepSeek V4 Flashを3枚の3090で8.4 tok/sで動かしたという報告。cchuterのllama.cppフォークで特定のGGUFが読み込めない問題をパッチで解決したらしい。ローカルLLMの現実的な速度やコスト、モデルの品質について議論しよう。
-
名無しさん3枚の3090で8.4tok/sはなかなかいいな。自分は2枚だけど試してみたい。
-
名無しさんGGUFのパッチって具体的に何をやったんだろう。見ても詳細がよくわからん。
-
名無しさん多分llama.cppのフォークで特定の量子化形式が未対応だったのを、自前でパッチ当てたってことじゃないか?
-
-
名無しさんDeepSeek V4 Flashってまだ出て間もないのに、もうローカルで動かせるんだな。
-
名無しさん8tok/sって実用的なのか?チャットならイライラしそうだ。
-
名無しさんバッチ処理やコーディング支援なら十分じゃない?逐次応答じゃなければ。
-
-
名無しさん3090三枚って電気代やばくない?一時期よりは落ち着いたけど。
-
名無しさん自分はもっと安く済ませたいから、クラウドAPI使ってる。やっぱりローカルはコスト対効果が…。
-
名無しさんクラウドだとプライバシーが気になる。ローカルはその点安心。
-
-
名無しさんこのパッチ、他のモデルでも使えるのかな?Qwenとかでも。
-
名無しさん多分フォーク固有の問題だから汎用性はなさそう。でも参考にはなる。
-
-
名無しさんV4 Flashの性能ってどうなの?ベンチマーク見る限り上位だけど、ローカルで使うには量子化必須だし。
-
名無しさんQ4_K_Mくらいで使うなら、GPT-4並みとは言わないけど結構優秀。
-
-
名無しさん3枚も積んでる人って、マイニングからの転用?
-
名無しさんそれあるな。中古で安く手に入れたとか。
-
-
名無しさんllama.cppのフォークってcchuterのやつ?あまり聞いたことない。
-
名無しさん自分はllama.cpp本家で動かせてるけど、特定の量子化形式だけダメだったのかな。
-
名無しさんパッチの内容公開してほしい。自分も同じ問題で悩んでて。
-
名無しさんRedditのスレッドにコメントしたら教えてくれるかも?
-
-
名無しさん8.4tok/sって正直遅くない?A100とかだと何十倍も出るけど。
-
名無しさんA100は高いし、個人で持つには3090が現実的。スループットより所有感。
-
-
名無しさんこのスレッド見て、自分も3枚構成にしようかな。今2枚だけど増設する価値ある?
-
名無しさんNVLink使ってるんだろうか。使わないとメモリ統合できなくて遅くなる。
-
名無しさん3090はNVLink対応だけど、性能向上はモデル次第。バッチサイズ大きいと効果的。
-
-
名無しさんとりあえずパッチの詳細を知りたい。コード差分とか公開されてる?
-
名無しさんうちの環境も似たような感じだから試すわ。情報ありがとう。
-
-
投稿者投稿
26件の返信を表示中(うち親返信17件)
関連するAIトピック
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年10月26日 02:40
- DeepSeekが本当のオープンAI?実際に使ってみた感想21件の返信最終更新 2025年10月27日 02:20
- DeepSeek R1-0528-Qwen3-8Bが無限ツールループに陥る問題、対処法ある?20件の返信最終更新 2025年10月26日 00:54
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年10月27日 09:07
- DeepSeek-R1-0528-Qwen3-8B を試した人の感想27件の返信最終更新 2025年10月26日 19:01