DeepSeek V4のアーキテクチャについての議論と実践的な知見

名無しさん · 2025-03-05T12:02:48+09:00

話題のDeepSeek V4アーキテクチャについてのスレッドです。: モデルの性能、コスト、ローカル実行の可能性など、様々な観点から議論されています。皆さんの意見も聞かせてください。

このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより1年、 3ヶ月前に更新されました。

24件の返信を表示中（うち親返信8件）

投稿者

投稿
- 2025年3月5日 12:02 PM #64428 返信
  
  名無しさん
  
  話題のDeepSeek V4アーキテクチャについてのスレッドです。: モデルの性能、コスト、ローカル実行の可能性など、様々な観点から議論されています。皆さんの意見も聞かせてください。
- 2025年3月5日 12:04 PM #64429 返信
  
  名無しさん
  
  DeepSeek V4ってMoEの改良版らしいけど、実際のところローカルで動かすにはVRAMが爆発しそう。
  - 2025年3月5日 12:07 PM #64430 返信
    
    名無しさん
    
    確かに、8bit量子化でも70Bクラスだと24GBじゃ厳しい。でも最近の手法でそこそこ動くらしいよ。
    - 2025年3月5日 12:11 PM #64431 返信
      
      名無しさん
      
      ああ、GPTQやAWQでなんとかなるっていう話は見たけど、実際の速度はどうなんだろう。
  - 2025年3月5日 12:18 PM #64432 返信
    
    名無しさん
    
    クラウドで使うならAPI経由が無難だよね。でもコストが気になる。
- 2025年3月5日 12:20 PM #64433 返信
  
  名無しさん
  
  ベンチマークではLlama 3.1 405Bに迫るって話だけど、まだ検証段階だな。
  - 2025年3月5日 12:24 PM #64434 返信
    
    名無しさん
    
    個人的にはコード生成で試してみたい。DeepSeek Coderの系列なら期待できる。
    - 2025年3月5日 12:30 PM #64435 返信
      
      名無しさん
      
      コード生成ならCopilotで十分じゃない？でもプライバシー重視ならローカルLLMは魅力的。
- 2025年3月5日 12:39 PM #64436 返信
  
  名無しさん
  
  アーキテクチャの論文読んだけど、注意機構に新しい工夫が入ってて面白い。
  - 2025年3月5日 12:40 PM #64437 返信
    
    名無しさん
    
    具体的にどこが変わったの？効率化重視ってのはわかるけど。
    - 2025年3月5日 12:43 PM #64438 返信
      
      名無しさん
      
      Multi-head latent attentionとかいうやつ。KVキャッシュを圧縮してるらしい。
      - 2025年3月5日 12:47 PM #64439 返信
        
        名無しさん
        
        なるほど、それでVRAM節約になるのか。でも実装が複雑そう。
- 2025年3月5日 12:53 PM #64440 返信
  
  名無しさん
  
  DeepSeekって中国企業だよね。米国の規制とか大丈夫なのかな。
  - 2025年3月5日 1:05 PM #64441 返信
    
    名無しさん
    
    オープンウェイトだから使う分には問題ないけど、今後の輸出規制が心配。
    - 2025年3月5日 1:06 PM #64442 返信
      
      名無しさん
      
      中国のAIは進んでるけど、品質面でやや不安。でも実際使ってみると結構いい。
- 2025年3月5日 1:09 PM #64443 返信
  
  名無しさん
  
  V4の学習コストが公開されてないから、オープン性に疑問がある。
  - 2025年3月5日 1:14 PM #64444 返信
    
    名無しさん
    
    確かに、学習データやハイパーパラメータの詳細が欲しい。再現性の問題。
- 2025年3月5日 1:22 PM #64445 返信
  
  名無しさん
  
  誰か実際にV4をローカルで動かした人いる？推論速度のレポートが見たい。
  - 2025年3月5日 1:24 PM #64446 返信
    
    名無しさん
    
    今のところ公式リリース前で、一部のテスターしか触れてないみたい。
    - 2025年3月5日 1:28 PM #64447 返信
      
      名無しさん
      
      噂では来月にはウェイトが公開されるらしい。楽しみ。
- 2025年3月5日 1:33 PM #64448 返信
  
  名無しさん
  
  競合のQwenやYiと比べてどうなんだろう。ベンチマークの数字だけじゃわからない部分も多い。
  - 2025年3月5日 1:43 PM #64449 返信
    
    名無しさん
    
    実際のユースケースでの差が気になる。特に日本語能力。
    - 2025年3月5日 1:45 PM #64450 返信
      
      名無しさん
      
      DeepSeekは英語中心だけど、日本語もそこそこ使えるよ。タスクなら結構正確。
- 2025年3月5日 1:48 PM #64451 返信
  
  名無しさん
  
  個人的にはローカルLLMの未来はDeepSeekのような効率的なモデルにかかってると思う。
  - 2025年3月5日 1:52 PM #64452 返信
    
    名無しさん
    
    賛成。コストと性能のバランスが鍵。V4がその突破口になるといいな。
投稿者

投稿

24件の返信を表示中（うち親返信8件）

返信先: DeepSeek V4のアーキテクチャについての議論と実践的な知見で#64451に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック