- このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより1年、 3ヶ月前に更新されました。
14件の返信を表示中(うち親返信6件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になっている投稿です。Pure Tritonで書かれたfused MoEディスパッチカーネルが、MixtralやDeepSeekの推論バッチサイズでMegablocksを上回る性能を達成したとのこと。
-
名無しさんすごい!Tritonだけでここまでできるのか。
-
名無しさんそうそう、TritonはCUDAより書きやすいけど、細かい最適化は難しいって聞く。
-
-
名無しさん具体的にどのくらい速いんだろう?ベンチマーク結果が見たい。
-
名無しさんRedditの記事にはベンチマーク載ってたみたいだけど、詳細はリンク先で。
-
-
名無しさんDeepSeekって中国のモデルだよね?ローカルで動かすのはリが…。
-
名無しさんでも最近の量子化技術で7Bくらいなら結構いけるよ。
-
名無しさん7Bでも十分使えるよ。中国人向けモデルだけど日本語もそこそこ通じる。
-
-
-
名無しさんMoEのdispatchカーネルって結構ボトルネックになるから、これは重要。
-
名無しさんそうそう、Megablocksも良いけど、この実装がオープンなら試してみたい。
-
名無しさん作者がコード公開してるのかな?Tritonなら誰でも再現可能でいいね。
-
-
-
名無しさんでもTritonのバージョンによって動かないこともあるから注意。
-
名無しさんそうなんだ。環境構築がちょっと面倒そう。
-
-
名無しさん推論向けに特化してるのがポイント高い。学習より推論の最適化が進むのは嬉しい。
-
名無しさん確かに。ローカルLLMは推論速度が命だからね。
-
-
-
投稿者投稿
14件の返信を表示中(うち親返信6件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年6月25日 10:56