DeepSeek-R1-32BをBlackwell GB10で動かしたら4つの新たな障害モードが判った

名無しさん · 2025-11-13T11:16:39+09:00

Reddit r/LocalLLaMA に投稿された、vLLM + DeepSeek-R1-32B を Blackwell GB10 (aarch64) で毎日リセットするテスト環境で遭遇した新たな4つの障害モードについてのスレッドを紹介します。元の投稿では、前回のGB10に関する投稿の続報として、メモリ不足や推論エラーなど具体的な問題が報告されています。ローカルLLM運用のリアルな課題として参考になる内容です。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rxvjt4/vllm_deepseekr132b_on_blackwell_gb10_aarch64_4/

このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。

14件の返信を表示中（うち親返信7件）

投稿者

投稿
- 2025年11月13日 11:16 AM #67944 返信
  
  名無しさん
  
  Reddit r/LocalLLaMA に投稿された、vLLM + DeepSeek-R1-32B を Blackwell GB10 (aarch64) で毎日リセットするテスト環境で遭遇した新たな4つの障害モードについてのスレッドを紹介します。元の投稿では、前回のGB10に関する投稿の続報として、メモリ不足や推論エラーなど具体的な問題が報告されています。ローカルLLM運用のリアルな課題として参考になる内容です。
  ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rxvjt4/vllm_deepseekr132b_on_blackwell_gb10_aarch64_4/
- 2025年11月13日 11:18 AM #67945 返信
  
  名無しさん
  
  これ地味に勉強になるな。GB10のaarch64環境でDeepSeek動かすのはまだまだ試行錯誤が必要そうだ。
  - 2025年11月13日 11:25 AM #67947 返信
    
    名無しさん
    
    試行錯誤と言うか、毎日リセットってのがキツそう。キャッシュ効かないし。
    - 2025年11月13日 11:32 AM #67948 返信
      
      名無しさん
      
      でも本番運用想定ならリセット試験は必要だと思う。意外なバグが出るから。
- 2025年11月13日 11:21 AM #67946 返信
  
  名無しさん
  
  vLLMのバージョンによっても挙動変わるよね。自分は別のモデルでハマった。
  - 2025年11月13日 11:38 AM #67950 返信
    
    名無しさん
    
    vLLMのバグというより、モデル側の量子化が合ってない可能性もある。
- 2025年11月13日 11:34 AM #67949 返信
  
  名無しさん
  
  DeepSeek-R1は32Bでも結構デカいからな、Blackwell GB10のメモリ帯域がボトルネックになってない？
  - 2025年11月13日 11:53 AM #67952 返信
    
    名無しさん
    
    メモリ帯域は確かに厳しいが、バッチサイズ調整で何とかなることもあるよ。
- 2025年11月13日 11:44 AM #67951 返信
  
  名無しさん
  
  こういう具体的な障害報告はありがたい。自分も同じ構成使ってるから参考にする。
- 2025年11月13日 11:54 AM #67953 返信
  
  名無しさん
  
  毎日リセットってどんなテストだ？CIみたいなもんか？
  - 2025年11月13日 11:56 AM #67954 返信
    
    名無しさん
    
    多分継続的インテグレーションの一部で、毎日環境をクリアして再現性確認してるんだと思う。
- 2025年11月13日 12:00 PM #67955 返信
  
  名無しさん
  
  BlackwellのGB10だとTDP制限とかも影響するのかな。
  - 2025年11月13日 12:07 PM #67956 返信
    
    名無しさん
    
    そこは要検証。でもaarch64の最適化がまだ進んでない印象。
- 2025年11月13日 12:18 PM #67957 返信
  
  名無しさん
  
  前回のGB10の投稿も見たけど、進展はあるんだな。でもまだ安定運用は遠そう。
  - 2025年11月13日 12:20 PM #67958 返信
    
    名無しさん
    
    OSSのLLMスタックは日進月歩だから、半年後には解決してるかもね。
投稿者

投稿

14件の返信を表示中（うち親返信7件）

返信先: DeepSeek-R1-32BをBlackwell GB10で動かしたら4つの新たな障害モードが判った

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

関連するAIトピック