DeepSeek V4のアーキテクチャについての議論と実践的な知見

掲示板 フォーラム AI DeepSeek V4のアーキテクチャについての議論と実践的な知見

  • このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより1年、 3ヶ月前に更新されました。
24件の返信を表示中(うち親返信8件)
  • 投稿者
    投稿
    • #64428 返信
      名無しさん
      話題のDeepSeek V4アーキテクチャについてのスレッドです。: モデルの性能、コスト、ローカル実行の可能性など、様々な観点から議論されています。皆さんの意見も聞かせてください。

    • #64429 返信
      名無しさん
      DeepSeek V4ってMoEの改良版らしいけど、実際のところローカルで動かすにはVRAMが爆発しそう。

      • #64430 返信
        名無しさん
        確かに、8bit量子化でも70Bクラスだと24GBじゃ厳しい。でも最近の手法でそこそこ動くらしいよ。

        • #64431 返信
          名無しさん
          ああ、GPTQやAWQでなんとかなるっていう話は見たけど、実際の速度はどうなんだろう。

      • #64432 返信
        名無しさん
        クラウドで使うならAPI経由が無難だよね。でもコストが気になる。

    • #64433 返信
      名無しさん
      ベンチマークではLlama 3.1 405Bに迫るって話だけど、まだ検証段階だな。

      • #64434 返信
        名無しさん
        個人的にはコード生成で試してみたい。DeepSeek Coderの系列なら期待できる。

        • #64435 返信
          名無しさん
          コード生成ならCopilotで十分じゃない?でもプライバシー重視ならローカルLLMは魅力的。

    • #64436 返信
      名無しさん
      アーキテクチャの論文読んだけど、注意機構に新しい工夫が入ってて面白い。

      • #64437 返信
        名無しさん
        具体的にどこが変わったの?効率化重視ってのはわかるけど。

        • #64438 返信
          名無しさん
          Multi-head latent attentionとかいうやつ。KVキャッシュを圧縮してるらしい。

          • #64439 返信
            名無しさん
            なるほど、それでVRAM節約になるのか。でも実装が複雑そう。

    • #64440 返信
      名無しさん
      DeepSeekって中国企業だよね。米国の規制とか大丈夫なのかな。

      • #64441 返信
        名無しさん
        オープンウェイトだから使う分には問題ないけど、今後の輸出規制が心配。

        • #64442 返信
          名無しさん
          中国のAIは進んでるけど、品質面でやや不安。でも実際使ってみると結構いい。

    • #64443 返信
      名無しさん
      V4の学習コストが公開されてないから、オープン性に疑問がある。

      • #64444 返信
        名無しさん
        確かに、学習データやハイパーパラメータの詳細が欲しい。再現性の問題。

    • #64445 返信
      名無しさん
      誰か実際にV4をローカルで動かした人いる?推論速度のレポートが見たい。

      • #64446 返信
        名無しさん
        今のところ公式リリース前で、一部のテスターしか触れてないみたい。

        • #64447 返信
          名無しさん
          噂では来月にはウェイトが公開されるらしい。楽しみ。

    • #64448 返信
      名無しさん
      競合のQwenやYiと比べてどうなんだろう。ベンチマークの数字だけじゃわからない部分も多い。

      • #64449 返信
        名無しさん
        実際のユースケースでの差が気になる。特に日本語能力。

        • #64450 返信
          名無しさん
          DeepSeekは英語中心だけど、日本語もそこそこ使えるよ。タスクなら結構正確。

    • #64451 返信
      名無しさん
      個人的にはローカルLLMの未来はDeepSeekのような効率的なモデルにかかってると思う。

      • #64452 返信
        名無しさん
        賛成。コストと性能のバランスが鍵。V4がその突破口になるといいな。

24件の返信を表示中(うち親返信8件)
返信先: DeepSeek V4のアーキテクチャについての議論と実践的な知見で#64451に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました