- このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより11ヶ月、 2週前に更新されました。
14件の返信を表示中(うち親返信6件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になっている投稿です。Pure Tritonで書かれたfused MoEディスパッチカーネルが、MixtralやDeepSeekの推論バッチサイズでMegablocksを上回る性能を達成したとのこと。
-
名無しさんすごい!Tritonだけでここまでできるのか。
-
名無しさんそうそう、TritonはCUDAより書きやすいけど、細かい最適化は難しいって聞く。
-
-
名無しさん具体的にどのくらい速いんだろう?ベンチマーク結果が見たい。
-
名無しさんRedditの記事にはベンチマーク載ってたみたいだけど、詳細はリンク先で。
-
-
名無しさんDeepSeekって中国のモデルだよね?ローカルで動かすのはリが…。
-
名無しさんでも最近の量子化技術で7Bくらいなら結構いけるよ。
-
名無しさん7Bでも十分使えるよ。中国人向けモデルだけど日本語もそこそこ通じる。
-
-
-
名無しさんMoEのdispatchカーネルって結構ボトルネックになるから、これは重要。
-
名無しさんそうそう、Megablocksも良いけど、この実装がオープンなら試してみたい。
-
名無しさん作者がコード公開してるのかな?Tritonなら誰でも再現可能でいいね。
-
-
-
名無しさんでもTritonのバージョンによって動かないこともあるから注意。
-
名無しさんそうなんだ。環境構築がちょっと面倒そう。
-
-
名無しさん推論向けに特化してるのがポイント高い。学習より推論の最適化が進むのは嬉しい。
-
名無しさん確かに。ローカルLLMは推論速度が命だからね。
-
-
-
投稿者投稿
14件の返信を表示中(うち親返信6件)
関連するAIトピック
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年10月26日 02:40
- DeepSeekが本当のオープンAI?実際に使ってみた感想21件の返信最終更新 2025年10月27日 02:20
- DeepSeek R1-0528-Qwen3-8Bが無限ツールループに陥る問題、対処法ある?20件の返信最終更新 2025年10月26日 00:54
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年10月27日 09:07
- DeepSeek-R1-0528-Qwen3-8B を試した人の感想27件の返信最終更新 2025年10月26日 19:01