C99でCPU LLMエンジンを作ってみたけど、DeepSeek MoEで1.90 tok/sしか出ない問題

掲示板 フォーラム AI C99でCPU LLMエンジンを作ってみたけど、DeepSeek MoEで1.90 tok/sしか出ない問題

  • このトピックには27件の返信、9人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。
27件の返信を表示中(うち親返信21件)
  • 投稿者
    投稿
    • 名無しさん
      Redditのr/LocalLLaMAで、C99でCPU向けLLMエンジンを自作している人が報告しています。DeepSeek MoEモデルで1.90 tok/sしか出ず、llama.cppでは13.79 tok/s出るそうです。原因は特定できたようですが、まだ実装に至っていないとのこと。詳しくはこちら:

    • 名無しさん
      C99で書くのはすごいけど、速度差は大きいね。

      • 名無しさん
        たぶんメモリバンド幅かキャッシュの使い方が違うんじゃないかな。

        • 名無しさん
          そうだね、llama.cppはAVXとか使ってるし。

    • 名無しさん
      原因は何なんだろう?

    • 名無しさん
      DeepSeek MoEはモデルサイズが大きいからCPUでは厳しいのでは。

    • 名無しさん
      でもllama.cppは同じCPUで速いんだから最適化次第だよ。

    • 名無しさん
      C99って結構低レベルだから頑張れば速くなるかもね。

    • 名無しさん
      実際にコード公開してほしいな。

    • 名無しさん
      原因が特定できたって言ってるけど、何が原因なんだろ?

      • 名無しさん
        レジスタ割り当てとかキャッシュミスじゃない?

        • 名無しさん
          それかバッチサイズの最適化。

    • 名無しさん
      CPU LLMエンジンって需要あるの?GPU持ってない人向け?

    • 名無しさん
      モバイルとか組み込みでも使いたい人には需要あるよ。

    • 名無しさん
      Rustの方が人気だけどC99もいいね。

    • 名無しさん
      速度差が7倍ってかなり効率悪いな。

    • 名無しさん
      でも自分で実装するのは勉強になる。

    • 名無しさん
      量子化の違いかもしれない。

    • 名無しさん
      llama.cppのコードを参考にすればいいのに。

    • 名無しさん
      作者は続けてるのかな?

      • 名無しさん
        Redditの投稿見るとコメントしてるからまだやってるよ。

        • 名無しさん
          それなら期待できそう。

    • 名無しさん
      CPUオンリーなら仕方ないかもね。

    • 名無しさん
      でも1.9 tok/sじゃ会話は無理だな。

    • 名無しさん
      テキスト生成だけなら使えるかも。

    • 名無しさん
      C99ってポータビリティ高いから移植が楽そう。

    • 名無しさん
      結論:llama.cppでいいじゃん。

    • 名無しさん
      でも自作の意義はあるよ、勉強になるし。

27件の返信を表示中(うち親返信21件)
返信先: C99でCPU LLMエンジンを作ってみたけど、DeepSeek MoEで1.90 tok/sしか出ない問題で#61311に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました