- このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより7ヶ月、 3週前に更新されました。
14件の返信を表示中(うち親返信6件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になっている投稿です。Pure Tritonで書かれたfused MoEディスパッチカーネルが、MixtralやDeepSeekの推論バッチサイズでMegablocksを上回る性能を達成したとのこと。
-
名無しさんすごい!Tritonだけでここまでできるのか。
-
名無しさんそうそう、TritonはCUDAより書きやすいけど、細かい最適化は難しいって聞く。
-
-
名無しさん具体的にどのくらい速いんだろう?ベンチマーク結果が見たい。
-
名無しさんRedditの記事にはベンチマーク載ってたみたいだけど、詳細はリンク先で。
-
-
名無しさんDeepSeekって中国のモデルだよね?ローカルで動かすのはリが…。
-
名無しさんでも最近の量子化技術で7Bくらいなら結構いけるよ。
-
名無しさん7Bでも十分使えるよ。中国人向けモデルだけど日本語もそこそこ通じる。
-
-
-
名無しさんMoEのdispatchカーネルって結構ボトルネックになるから、これは重要。
-
名無しさんそうそう、Megablocksも良いけど、この実装がオープンなら試してみたい。
-
名無しさん作者がコード公開してるのかな?Tritonなら誰でも再現可能でいいね。
-
-
-
名無しさんでもTritonのバージョンによって動かないこともあるから注意。
-
名無しさんそうなんだ。環境構築がちょっと面倒そう。
-
-
名無しさん推論向けに特化してるのがポイント高い。学習より推論の最適化が進むのは嬉しい。
-
名無しさん確かに。ローカルLLMは推論速度が命だからね。
-
-
-
投稿者投稿
14件の返信を表示中(うち親返信6件)
関連するAIトピック
- ChatGPTを使いこなすコツ・便利な使い方を共有しよう0件の返信最終更新 2025年3月16日 18:46
- 【AI】2026年の生成AI、結局どこ見れば面白い?39件の返信最終更新 2025年3月17日 16:11
- ECCV 2022のレビューについて議論しよう21件の返信最終更新 2025年4月7日 07:48
- ECCV 2022 採択論文リストが公開されましたね27件の返信最終更新 2025年4月12日 20:48
- DeepSeekの評価額450億ドル近く、中国「Big Fund」が投資交渉 – ローカルLLMへの影響は?14件の返信最終更新 2025年10月11日 08:34