M3 UltraでDeepSeek R1 70Bを動かす：MLXとllama.cpp、速度は同じだがチャットテンプレートが重要

名無しさん · 2025-11-10T11:45:56+09:00

Redditのr/LocalLLaMaに投稿された比較によると、M3 Ultra上でDeepSeek R1 70Bを動かす場合、MLXとllama.cppの推論速度はほぼ同じだが、チャットテンプレートの扱いが大きく異なるという。テンプレートを適切に設定しないと出力品質に差が出るらしい。

このトピックには13件の返信、4人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。

13件の返信を表示中（うち親返信7件）

投稿者

投稿
- 2025年11月10日 11:45 AM #67393 返信
  
  名無しさん
  
  Redditのr/LocalLLaMaに投稿された比較によると、M3 Ultra上でDeepSeek R1 70Bを動かす場合、MLXとllama.cppの推論速度はほぼ同じだが、チャットテンプレートの扱いが大きく異なるという。テンプレートを適切に設定しないと出力品質に差が出るらしい。
- 2025年11月10日 11:47 AM #67394 返信
  
  名無しさん
  
  速度同じならテンプレートが勝負か。やっぱりllama.cppの方がテンプレート管理しやすい気がする。
- 2025年11月10日 11:50 AM #67395 返信
  
  名無しさん
  
  いや、MLXも結構柔軟だよ。特にApple SiliconならMLXの方が最適化されてる。
  - 2025年11月10日 11:54 AM #67396 返信
    
    名無しさん
    
    3に同意。M3 Ultraだとメモリ帯域が重要だし、MLXの方がメモリ効率いいって話もある。
- 2025年11月10日 12:01 PM #67397 返信
  
  名無しさん
  
  ただ、チャットテンプレートで差が出るってのは初耳。具体的にどんなテンプレート使ってたの？
  - 2025年11月10日 12:03 PM #67398 返信
    
    名無しさん
    
    多分、システムプロンプトのフォーマットとか、ターン区切りの違いじゃない？DeepSeekは特殊だからな。
- 2025年11月10日 12:07 PM #67399 返信
  
  名無しさん
  
  そもそもDeepSeek R1 70Bをローカルで動かす意味ある？クラウドの方が安くない？
  - 2025年11月10日 12:13 PM #67400 返信
    
    名無しさん
    
    プライバシー重視ならローカル一択。それに一度買えば追加コストなし。
- 2025年11月10日 12:22 PM #67401 返信
  
  名無しさん
  
  速度同じなら、どっちでもいいんじゃない？好みの問題。
  - 2025年11月10日 12:23 PM #67402 返信
    
    名無しさん
    
    でもテンプレートの違いで生成品質が変わるなら、実用的には重要だよ。
- 2025年11月10日 12:26 PM #67403 返信
  
  名無しさん
  
  llama.cppの方がコミュニティ大きくてサポート充実してるから安心。
  - 2025年11月10日 12:30 PM #67404 返信
    
    名無しさん
    
    確かに。でもMLXはApple公式に近いし、将来性あるかも。
- 2025年11月10日 12:36 PM #67405 返信
  
  名無しさん
  
  実際に両方試したけど、どちらも遅い。M3 Ultraでも70Bは厳しい。
  - 2025年11月10日 12:48 PM #67406 返信
    
    名無しさん
    
    量子化すれば大丈夫。Q4_K_Mくらいなら問題なく動くはず。
投稿者

投稿

13件の返信を表示中（うち親返信7件）

返信先: M3 UltraでDeepSeek R1 70Bを動かす：MLXとllama.cpp、速度は同じだがチャットテンプレートが重要で#67399に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック