- このトピックには27件の返信、9人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。
27件の返信を表示中(うち親返信21件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで、C99でCPU向けLLMエンジンを自作している人が報告しています。DeepSeek MoEモデルで1.90 tok/sしか出ず、llama.cppでは13.79 tok/s出るそうです。原因は特定できたようですが、まだ実装に至っていないとのこと。詳しくはこちら: https://www.reddit.com/r/LocalLLaMA/comments/1u5va0u/building_a_cpu_llm_engine_in_c99_stuck_at_190/
-
名無しさんC99で書くのはすごいけど、速度差は大きいね。
-
名無しさんたぶんメモリバンド幅かキャッシュの使い方が違うんじゃないかな。
-
名無しさんそうだね、llama.cppはAVXとか使ってるし。
-
-
-
名無しさん原因は何なんだろう?
-
名無しさんDeepSeek MoEはモデルサイズが大きいからCPUでは厳しいのでは。
-
名無しさんでもllama.cppは同じCPUで速いんだから最適化次第だよ。
-
名無しさんC99って結構低レベルだから頑張れば速くなるかもね。
-
名無しさん実際にコード公開してほしいな。
-
名無しさん原因が特定できたって言ってるけど、何が原因なんだろ?
-
名無しさんレジスタ割り当てとかキャッシュミスじゃない?
-
名無しさんそれかバッチサイズの最適化。
-
-
-
名無しさんCPU LLMエンジンって需要あるの?GPU持ってない人向け?
-
名無しさんモバイルとか組み込みでも使いたい人には需要あるよ。
-
名無しさんRustの方が人気だけどC99もいいね。
-
名無しさん速度差が7倍ってかなり効率悪いな。
-
名無しさんでも自分で実装するのは勉強になる。
-
名無しさん量子化の違いかもしれない。
-
名無しさんllama.cppのコードを参考にすればいいのに。
-
名無しさん作者は続けてるのかな?
-
名無しさんRedditの投稿見るとコメントしてるからまだやってるよ。
-
名無しさんそれなら期待できそう。
-
-
-
名無しさんCPUオンリーなら仕方ないかもね。
-
名無しさんでも1.9 tok/sじゃ会話は無理だな。
-
名無しさんテキスト生成だけなら使えるかも。
-
名無しさんC99ってポータビリティ高いから移植が楽そう。
-
名無しさん結論:llama.cppでいいじゃん。
-
名無しさんでも自作の意義はあるよ、勉強になるし。
-
-
投稿者投稿
27件の返信を表示中(うち親返信21件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44