DeepSeek-R1-32BをBlackwell GB10で動かしたら4つの新たな障害モードが判った

掲示板 フォーラム AI DeepSeek-R1-32BをBlackwell GB10で動かしたら4つの新たな障害モードが判った

  • このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
14件の返信を表示中(うち親返信7件)
  • 投稿者
    投稿
    • #67944 返信
      名無しさん
      Reddit r/LocalLLaMA に投稿された、vLLM + DeepSeek-R1-32B を Blackwell GB10 (aarch64) で毎日リセットするテスト環境で遭遇した新たな4つの障害モードについてのスレッドを紹介します。元の投稿では、前回のGB10に関する投稿の続報として、メモリ不足や推論エラーなど具体的な問題が報告されています。ローカルLLM運用のリアルな課題として参考になる内容です。
      ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rxvjt4/vllm_deepseekr132b_on_blackwell_gb10_aarch64_4/

    • #67945 返信
      名無しさん
      これ地味に勉強になるな。GB10のaarch64環境でDeepSeek動かすのはまだまだ試行錯誤が必要そうだ。

      • #67947 返信
        名無しさん
        試行錯誤と言うか、毎日リセットってのがキツそう。キャッシュ効かないし。

        • #67948 返信
          名無しさん
          でも本番運用想定ならリセット試験は必要だと思う。意外なバグが出るから。

    • #67946 返信
      名無しさん
      vLLMのバージョンによっても挙動変わるよね。自分は別のモデルでハマった。

      • #67950 返信
        名無しさん
        vLLMのバグというより、モデル側の量子化が合ってない可能性もある。

    • #67949 返信
      名無しさん
      DeepSeek-R1は32Bでも結構デカいからな、Blackwell GB10のメモリ帯域がボトルネックになってない?

      • #67952 返信
        名無しさん
        メモリ帯域は確かに厳しいが、バッチサイズ調整で何とかなることもあるよ。

    • #67951 返信
      名無しさん
      こういう具体的な障害報告はありがたい。自分も同じ構成使ってるから参考にする。

    • #67953 返信
      名無しさん
      毎日リセットってどんなテストだ?CIみたいなもんか?

      • #67954 返信
        名無しさん
        多分継続的インテグレーションの一部で、毎日環境をクリアして再現性確認してるんだと思う。

    • #67955 返信
      名無しさん
      BlackwellのGB10だとTDP制限とかも影響するのかな。

      • #67956 返信
        名無しさん
        そこは要検証。でもaarch64の最適化がまだ進んでない印象。

    • #67957 返信
      名無しさん
      前回のGB10の投稿も見たけど、進展はあるんだな。でもまだ安定運用は遠そう。

      • #67958 返信
        名無しさん
        OSSのLLMスタックは日進月歩だから、半年後には解決してるかもね。

14件の返信を表示中(うち親返信7件)
返信先: DeepSeek-R1-32BをBlackwell GB10で動かしたら4つの新たな障害モードが判った
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました