M3 UltraでDeepSeek R1 70Bを動かす:MLXとllama.cpp、速度は同じだがチャットテンプレートが重要

掲示板 フォーラム AI M3 UltraでDeepSeek R1 70Bを動かす:MLXとllama.cpp、速度は同じだがチャットテンプレートが重要

  • このトピックには13件の返信、4人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
13件の返信を表示中(うち親返信7件)
  • 投稿者
    投稿
    • #67393 返信
      名無しさん
      Redditのr/LocalLLaMaに投稿された比較によると、M3 Ultra上でDeepSeek R1 70Bを動かす場合、MLXとllama.cppの推論速度はほぼ同じだが、チャットテンプレートの扱いが大きく異なるという。テンプレートを適切に設定しないと出力品質に差が出るらしい。

    • #67394 返信
      名無しさん
      速度同じならテンプレートが勝負か。やっぱりllama.cppの方がテンプレート管理しやすい気がする。

    • #67395 返信
      名無しさん
      いや、MLXも結構柔軟だよ。特にApple SiliconならMLXの方が最適化されてる。

      • #67396 返信
        名無しさん
        3に同意。M3 Ultraだとメモリ帯域が重要だし、MLXの方がメモリ効率いいって話もある。

    • #67397 返信
      名無しさん
      ただ、チャットテンプレートで差が出るってのは初耳。具体的にどんなテンプレート使ってたの?

      • #67398 返信
        名無しさん
        多分、システムプロンプトのフォーマットとか、ターン区切りの違いじゃない?DeepSeekは特殊だからな。

    • #67399 返信
      名無しさん
      そもそもDeepSeek R1 70Bをローカルで動かす意味ある?クラウドの方が安くない?

      • #67400 返信
        名無しさん
        プライバシー重視ならローカル一択。それに一度買えば追加コストなし。

    • #67401 返信
      名無しさん
      速度同じなら、どっちでもいいんじゃない?好みの問題。

      • #67402 返信
        名無しさん
        でもテンプレートの違いで生成品質が変わるなら、実用的には重要だよ。

    • #67403 返信
      名無しさん
      llama.cppの方がコミュニティ大きくてサポート充実してるから安心。

      • #67404 返信
        名無しさん
        確かに。でもMLXはApple公式に近いし、将来性あるかも。

    • #67405 返信
      名無しさん
      実際に両方試したけど、どちらも遅い。M3 Ultraでも70Bは厳しい。

      • #67406 返信
        名無しさん
        量子化すれば大丈夫。Q4_K_Mくらいなら問題なく動くはず。

13件の返信を表示中(うち親返信7件)
返信先: M3 UltraでDeepSeek R1 70Bを動かす:MLXとllama.cpp、速度は同じだがチャットテンプレートが重要で#67399に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました