DeepSeek V4のアーキテクチャについての議論と実践的な知見

名無しさん · 2025-07-06T03:46:40+09:00

話題のDeepSeek V4アーキテクチャについてのスレッドです。: モデルの性能、コスト、ローカル実行の可能性など、様々な観点から議論されています。皆さんの意見も聞かせてください。

このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより11ヶ月、 3週前に更新されました。

24件の返信を表示中（うち親返信8件）

投稿者

投稿
- 2025年7月6日 3:46 AM #64428 返信
  
  名無しさん
  
  話題のDeepSeek V4アーキテクチャについてのスレッドです。: モデルの性能、コスト、ローカル実行の可能性など、様々な観点から議論されています。皆さんの意見も聞かせてください。
- 2025年7月6日 3:48 AM #64429 返信
  
  名無しさん
  
  DeepSeek V4ってMoEの改良版らしいけど、実際のところローカルで動かすにはVRAMが爆発しそう。
  - 2025年7月6日 3:51 AM #64430 返信
    
    名無しさん
    
    確かに、8bit量子化でも70Bクラスだと24GBじゃ厳しい。でも最近の手法でそこそこ動くらしいよ。
    - 2025年7月6日 3:55 AM #64431 返信
      
      名無しさん
      
      ああ、GPTQやAWQでなんとかなるっていう話は見たけど、実際の速度はどうなんだろう。
  - 2025年7月6日 4:02 AM #64432 返信
    
    名無しさん
    
    クラウドで使うならAPI経由が無難だよね。でもコストが気になる。
- 2025年7月6日 4:04 AM #64433 返信
  
  名無しさん
  
  ベンチマークではLlama 3.1 405Bに迫るって話だけど、まだ検証段階だな。
  - 2025年7月6日 4:08 AM #64434 返信
    
    名無しさん
    
    個人的にはコード生成で試してみたい。DeepSeek Coderの系列なら期待できる。
    - 2025年7月6日 4:14 AM #64435 返信
      
      名無しさん
      
      コード生成ならCopilotで十分じゃない？でもプライバシー重視ならローカルLLMは魅力的。
- 2025年7月6日 4:23 AM #64436 返信
  
  名無しさん
  
  アーキテクチャの論文読んだけど、注意機構に新しい工夫が入ってて面白い。
  - 2025年7月6日 4:24 AM #64437 返信
    
    名無しさん
    
    具体的にどこが変わったの？効率化重視ってのはわかるけど。
    - 2025年7月6日 4:27 AM #64438 返信
      
      名無しさん
      
      Multi-head latent attentionとかいうやつ。KVキャッシュを圧縮してるらしい。
      - 2025年7月6日 4:31 AM #64439 返信
        
        名無しさん
        
        なるほど、それでVRAM節約になるのか。でも実装が複雑そう。
- 2025年7月6日 4:37 AM #64440 返信
  
  名無しさん
  
  DeepSeekって中国企業だよね。米国の規制とか大丈夫なのかな。
  - 2025年7月6日 4:49 AM #64441 返信
    
    名無しさん
    
    オープンウェイトだから使う分には問題ないけど、今後の輸出規制が心配。
    - 2025年7月6日 4:50 AM #64442 返信
      
      名無しさん
      
      中国のAIは進んでるけど、品質面でやや不安。でも実際使ってみると結構いい。
- 2025年7月6日 4:53 AM #64443 返信
  
  名無しさん
  
  V4の学習コストが公開されてないから、オープン性に疑問がある。
  - 2025年7月6日 4:58 AM #64444 返信
    
    名無しさん
    
    確かに、学習データやハイパーパラメータの詳細が欲しい。再現性の問題。
- 2025年7月6日 5:06 AM #64445 返信
  
  名無しさん
  
  誰か実際にV4をローカルで動かした人いる？推論速度のレポートが見たい。
  - 2025年7月6日 5:08 AM #64446 返信
    
    名無しさん
    
    今のところ公式リリース前で、一部のテスターしか触れてないみたい。
    - 2025年7月6日 5:12 AM #64447 返信
      
      名無しさん
      
      噂では来月にはウェイトが公開されるらしい。楽しみ。
- 2025年7月6日 5:17 AM #64448 返信
  
  名無しさん
  
  競合のQwenやYiと比べてどうなんだろう。ベンチマークの数字だけじゃわからない部分も多い。
  - 2025年7月6日 5:27 AM #64449 返信
    
    名無しさん
    
    実際のユースケースでの差が気になる。特に日本語能力。
    - 2025年7月6日 5:29 AM #64450 返信
      
      名無しさん
      
      DeepSeekは英語中心だけど、日本語もそこそこ使えるよ。タスクなら結構正確。
- 2025年7月6日 5:31 AM #64451 返信
  
  名無しさん
  
  個人的にはローカルLLMの未来はDeepSeekのような効率的なモデルにかかってると思う。
  - 2025年7月6日 5:36 AM #64452 返信
    
    名無しさん
    
    賛成。コストと性能のバランスが鍵。V4がその突破口になるといいな。
投稿者

投稿

24件の返信を表示中（うち親返信8件）

返信先: DeepSeek V4のアーキテクチャについての議論と実践的な知見で#64447に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック