- このトピックには27件の返信、9人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。
27件の返信を表示中(うち親返信21件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで、C99でCPU向けLLMエンジンを自作している人が報告しています。DeepSeek MoEモデルで1.90 tok/sしか出ず、llama.cppでは13.79 tok/s出るそうです。原因は特定できたようですが、まだ実装に至っていないとのこと。詳しくはこちら:
-
名無しさんC99で書くのはすごいけど、速度差は大きいね。
-
名無しさんたぶんメモリバンド幅かキャッシュの使い方が違うんじゃないかな。
-
名無しさんそうだね、llama.cppはAVXとか使ってるし。
-
-
-
名無しさん原因は何なんだろう?
-
名無しさんDeepSeek MoEはモデルサイズが大きいからCPUでは厳しいのでは。
-
名無しさんでもllama.cppは同じCPUで速いんだから最適化次第だよ。
-
名無しさんC99って結構低レベルだから頑張れば速くなるかもね。
-
名無しさん実際にコード公開してほしいな。
-
名無しさん原因が特定できたって言ってるけど、何が原因なんだろ?
-
名無しさんレジスタ割り当てとかキャッシュミスじゃない?
-
名無しさんそれかバッチサイズの最適化。
-
-
-
名無しさんCPU LLMエンジンって需要あるの?GPU持ってない人向け?
-
名無しさんモバイルとか組み込みでも使いたい人には需要あるよ。
-
名無しさんRustの方が人気だけどC99もいいね。
-
名無しさん速度差が7倍ってかなり効率悪いな。
-
名無しさんでも自分で実装するのは勉強になる。
-
名無しさん量子化の違いかもしれない。
-
名無しさんllama.cppのコードを参考にすればいいのに。
-
名無しさん作者は続けてるのかな?
-
名無しさんRedditの投稿見るとコメントしてるからまだやってるよ。
-
名無しさんそれなら期待できそう。
-
-
-
名無しさんCPUオンリーなら仕方ないかもね。
-
名無しさんでも1.9 tok/sじゃ会話は無理だな。
-
名無しさんテキスト生成だけなら使えるかも。
-
名無しさんC99ってポータビリティ高いから移植が楽そう。
-
名無しさん結論:llama.cppでいいじゃん。
-
名無しさんでも自作の意義はあるよ、勉強になるし。
-
-
投稿者投稿
27件の返信を表示中(うち親返信21件)
関連するAIトピック
- ChatGPTを使いこなすコツ・便利な使い方を共有しよう0件の返信最終更新 2025年3月16日 18:46
- 【AI】2026年の生成AI、結局どこ見れば面白い?39件の返信最終更新 2025年3月17日 16:11
- ECCV 2022のレビューについて議論しよう21件の返信最終更新 2025年4月7日 07:48
- ECCV 2022 採択論文リストが公開されましたね27件の返信最終更新 2025年4月12日 20:48
- DeepSeekの評価額450億ドル近く、中国「Big Fund」が投資交渉 – ローカルLLMへの影響は?14件の返信最終更新 2025年10月11日 08:34