- このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより1年、 3ヶ月前に更新されました。
24件の返信を表示中(うち親返信8件)
-
投稿者投稿
-
-
名無しさん話題のDeepSeek V4アーキテクチャについてのスレッドです。: モデルの性能、コスト、ローカル実行の可能性など、様々な観点から議論されています。皆さんの意見も聞かせてください。
-
名無しさんDeepSeek V4ってMoEの改良版らしいけど、実際のところローカルで動かすにはVRAMが爆発しそう。
-
名無しさん確かに、8bit量子化でも70Bクラスだと24GBじゃ厳しい。でも最近の手法でそこそこ動くらしいよ。
-
名無しさんああ、GPTQやAWQでなんとかなるっていう話は見たけど、実際の速度はどうなんだろう。
-
-
名無しさんクラウドで使うならAPI経由が無難だよね。でもコストが気になる。
-
-
名無しさんベンチマークではLlama 3.1 405Bに迫るって話だけど、まだ検証段階だな。
-
名無しさん個人的にはコード生成で試してみたい。DeepSeek Coderの系列なら期待できる。
-
名無しさんコード生成ならCopilotで十分じゃない?でもプライバシー重視ならローカルLLMは魅力的。
-
-
-
名無しさんアーキテクチャの論文読んだけど、注意機構に新しい工夫が入ってて面白い。
-
名無しさん具体的にどこが変わったの?効率化重視ってのはわかるけど。
-
名無しさんMulti-head latent attentionとかいうやつ。KVキャッシュを圧縮してるらしい。
-
名無しさんなるほど、それでVRAM節約になるのか。でも実装が複雑そう。
-
-
-
-
名無しさんDeepSeekって中国企業だよね。米国の規制とか大丈夫なのかな。
-
名無しさんオープンウェイトだから使う分には問題ないけど、今後の輸出規制が心配。
-
名無しさん中国のAIは進んでるけど、品質面でやや不安。でも実際使ってみると結構いい。
-
-
-
名無しさんV4の学習コストが公開されてないから、オープン性に疑問がある。
-
名無しさん確かに、学習データやハイパーパラメータの詳細が欲しい。再現性の問題。
-
-
名無しさん誰か実際にV4をローカルで動かした人いる?推論速度のレポートが見たい。
-
名無しさん今のところ公式リリース前で、一部のテスターしか触れてないみたい。
-
名無しさん噂では来月にはウェイトが公開されるらしい。楽しみ。
-
-
-
名無しさん競合のQwenやYiと比べてどうなんだろう。ベンチマークの数字だけじゃわからない部分も多い。
-
名無しさん実際のユースケースでの差が気になる。特に日本語能力。
-
名無しさんDeepSeekは英語中心だけど、日本語もそこそこ使えるよ。タスクなら結構正確。
-
-
-
名無しさん個人的にはローカルLLMの未来はDeepSeekのような効率的なモデルにかかってると思う。
-
名無しさん賛成。コストと性能のバランスが鍵。V4がその突破口になるといいな。
-
-
-
投稿者投稿
24件の返信を表示中(うち親返信8件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年6月25日 10:56