C99でCPU LLMエンジンを作ってみたけど、DeepSeek MoEで1.90 tok/sしか出ない問題

名無しさん · 2025-10-01T17:46:55+09:00

Redditのr/LocalLLaMAで、C99でCPU向けLLMエンジンを自作している人が報告しています。DeepSeek MoEモデルで1.90 tok/sしか出ず、llama.cppでは13.79 tok/s出るそうです。原因は特定できたようですが、まだ実装に至っていないとのこと。詳しくはこちら: https://www.reddit.com/r/LocalLLaMA/comments/1u5va0u/building_a_cpu_llm_engine_in_c99_stuck_at_190/

このトピックには27件の返信、9人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。

27件の返信を表示中（うち親返信21件）

投稿者

投稿
- 2025年10月1日 5:46 PM #61291 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで、C99でCPU向けLLMエンジンを自作している人が報告しています。DeepSeek MoEモデルで1.90 tok/sしか出ず、llama.cppでは13.79 tok/s出るそうです。原因は特定できたようですが、まだ実装に至っていないとのこと。詳しくはこちら: https://www.reddit.com/r/LocalLLaMA/comments/1u5va0u/building_a_cpu_llm_engine_in_c99_stuck_at_190/
- 2025年10月1日 5:48 PM #61292 返信
  
  名無しさん
  
  C99で書くのはすごいけど、速度差は大きいね。
  - 2025年10月1日 5:55 PM #61294 返信
    
    名無しさん
    
    たぶんメモリバンド幅かキャッシュの使い方が違うんじゃないかな。
    - 2025年10月1日 6:02 PM #61295 返信
      
      名無しさん
      
      そうだね、llama.cppはAVXとか使ってるし。
- 2025年10月1日 5:51 PM #61293 返信
  
  名無しさん
  
  原因は何なんだろう？
- 2025年10月1日 6:04 PM #61296 返信
  
  名無しさん
  
  DeepSeek MoEはモデルサイズが大きいからCPUでは厳しいのでは。
- 2025年10月1日 6:08 PM #61297 返信
  
  名無しさん
  
  でもllama.cppは同じCPUで速いんだから最適化次第だよ。
- 2025年10月1日 6:14 PM #61298 返信
  
  名無しさん
  
  C99って結構低レベルだから頑張れば速くなるかもね。
- 2025年10月1日 6:23 PM #61299 返信
  
  名無しさん
  
  実際にコード公開してほしいな。
- 2025年10月1日 6:24 PM #61300 返信
  
  名無しさん
  
  原因が特定できたって言ってるけど、何が原因なんだろ？
  - 2025年10月1日 6:27 PM #61301 返信
    
    名無しさん
    
    レジスタ割り当てとかキャッシュミスじゃない？
    - 2025年10月1日 6:31 PM #61302 返信
      
      名無しさん
      
      それかバッチサイズの最適化。
- 2025年10月1日 6:37 PM #61303 返信
  
  名無しさん
  
  CPU LLMエンジンって需要あるの？GPU持ってない人向け？
- 2025年10月1日 6:49 PM #61304 返信
  
  名無しさん
  
  モバイルとか組み込みでも使いたい人には需要あるよ。
- 2025年10月1日 6:51 PM #61305 返信
  
  名無しさん
  
  Rustの方が人気だけどC99もいいね。
- 2025年10月1日 6:54 PM #61306 返信
  
  名無しさん
  
  速度差が7倍ってかなり効率悪いな。
- 2025年10月1日 6:58 PM #61307 返信
  
  名無しさん
  
  でも自分で実装するのは勉強になる。
- 2025年10月1日 7:06 PM #61308 返信
  
  名無しさん
  
  量子化の違いかもしれない。
- 2025年10月1日 7:08 PM #61309 返信
  
  名無しさん
  
  llama.cppのコードを参考にすればいいのに。
- 2025年10月1日 7:12 PM #61310 返信
  
  名無しさん
  
  作者は続けてるのかな？
  - 2025年10月1日 7:17 PM #61311 返信
    
    名無しさん
    
    Redditの投稿見るとコメントしてるからまだやってるよ。
    - 2025年10月1日 7:27 PM #61312 返信
      
      名無しさん
      
      それなら期待できそう。
- 2025年10月1日 7:29 PM #61313 返信
  
  名無しさん
  
  CPUオンリーなら仕方ないかもね。
- 2025年10月1日 7:32 PM #61314 返信
  
  名無しさん
  
  でも1.9 tok/sじゃ会話は無理だな。
- 2025年10月1日 7:36 PM #61315 返信
  
  名無しさん
  
  テキスト生成だけなら使えるかも。
- 2025年10月1日 7:43 PM #61316 返信
  
  名無しさん
  
  C99ってポータビリティ高いから移植が楽そう。
- 2025年10月1日 7:55 PM #61317 返信
  
  名無しさん
  
  結論：llama.cppでいいじゃん。
- 2025年10月1日 7:56 PM #61318 返信
  
  名無しさん
  
  でも自作の意義はあるよ、勉強になるし。
投稿者

投稿

27件の返信を表示中（うち親返信21件）

返信先: C99でCPU LLMエンジンを作ってみたけど、DeepSeek MoEで1.90 tok/sしか出ない問題で#61315に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック