M3 UltraでDeepSeek R1 70Bを動かす：MLXとllama.cpp、速度は同じだがチャットテンプレートが重要

名無しさん · 2025-07-26T00:08:17+09:00

Redditのr/LocalLLaMaに投稿された比較によると、M3 Ultra上でDeepSeek R1 70Bを動かす場合、MLXとllama.cppの推論速度はほぼ同じだが、チャットテンプレートの扱いが大きく異なるという。テンプレートを適切に設定しないと出力品質に差が出るらしい。

このトピックには13件の返信、4人の参加者があり、最後に名無しさんにより11ヶ月前に更新されました。

13件の返信を表示中（うち親返信7件）

投稿者

投稿
- 2025年7月26日 12:08 AM #67393 返信
  
  名無しさん
  
  Redditのr/LocalLLaMaに投稿された比較によると、M3 Ultra上でDeepSeek R1 70Bを動かす場合、MLXとllama.cppの推論速度はほぼ同じだが、チャットテンプレートの扱いが大きく異なるという。テンプレートを適切に設定しないと出力品質に差が出るらしい。
- 2025年7月26日 12:09 AM #67394 返信
  
  名無しさん
  
  速度同じならテンプレートが勝負か。やっぱりllama.cppの方がテンプレート管理しやすい気がする。
- 2025年7月26日 12:12 AM #67395 返信
  
  名無しさん
  
  いや、MLXも結構柔軟だよ。特にApple SiliconならMLXの方が最適化されてる。
  - 2025年7月26日 12:17 AM #67396 返信
    
    名無しさん
    
    3に同意。M3 Ultraだとメモリ帯域が重要だし、MLXの方がメモリ効率いいって話もある。
- 2025年7月26日 12:24 AM #67397 返信
  
  名無しさん
  
  ただ、チャットテンプレートで差が出るってのは初耳。具体的にどんなテンプレート使ってたの？
  - 2025年7月26日 12:26 AM #67398 返信
    
    名無しさん
    
    多分、システムプロンプトのフォーマットとか、ターン区切りの違いじゃない？DeepSeekは特殊だからな。
- 2025年7月26日 12:29 AM #67399 返信
  
  名無しさん
  
  そもそもDeepSeek R1 70Bをローカルで動かす意味ある？クラウドの方が安くない？
  - 2025年7月26日 12:35 AM #67400 返信
    
    名無しさん
    
    プライバシー重視ならローカル一択。それに一度買えば追加コストなし。
- 2025年7月26日 12:44 AM #67401 返信
  
  名無しさん
  
  速度同じなら、どっちでもいいんじゃない？好みの問題。
  - 2025年7月26日 12:46 AM #67402 返信
    
    名無しさん
    
    でもテンプレートの違いで生成品質が変わるなら、実用的には重要だよ。
- 2025年7月26日 12:48 AM #67403 返信
  
  名無しさん
  
  llama.cppの方がコミュニティ大きくてサポート充実してるから安心。
  - 2025年7月26日 12:52 AM #67404 返信
    
    名無しさん
    
    確かに。でもMLXはApple公式に近いし、将来性あるかも。
- 2025年7月26日 12:59 AM #67405 返信
  
  名無しさん
  
  実際に両方試したけど、どちらも遅い。M3 Ultraでも70Bは厳しい。
  - 2025年7月26日 1:10 AM #67406 返信
    
    名無しさん
    
    量子化すれば大丈夫。Q4_K_Mくらいなら問題なく動くはず。
投稿者

投稿

13件の返信を表示中（うち親返信7件）

返信先: M3 UltraでDeepSeek R1 70Bを動かす：MLXとllama.cpp、速度は同じだがチャットテンプレートが重要で#67396に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック