Tritonで実装したFused MoEカーネルがMegablocksを凌駕

名無しさん · 2025-07-16T19:30:13+09:00

Redditのr/LocalLLaMAで話題になっている投稿です。Pure Tritonで書かれたfused MoEディスパッチカーネルが、MixtralやDeepSeekの推論バッチサイズでMegablocksを上回る性能を達成したとのこと。

このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより11ヶ月、 2週前に更新されました。

14件の返信を表示中（うち親返信6件）

投稿者

投稿
- 2025年7月16日 7:30 PM #66040 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで話題になっている投稿です。Pure Tritonで書かれたfused MoEディスパッチカーネルが、MixtralやDeepSeekの推論バッチサイズでMegablocksを上回る性能を達成したとのこと。
- 2025年7月16日 7:31 PM #66041 返信
  
  名無しさん
  
  すごい！Tritonだけでここまでできるのか。
  - 2025年7月16日 7:39 PM #66043 返信
    
    名無しさん
    
    そうそう、TritonはCUDAより書きやすいけど、細かい最適化は難しいって聞く。
- 2025年7月16日 7:34 PM #66042 返信
  
  名無しさん
  
  具体的にどのくらい速いんだろう？ベンチマーク結果が見たい。
  - 2025年7月16日 7:51 PM #66046 返信
    
    名無しさん
    
    Redditの記事にはベンチマーク載ってたみたいだけど、詳細はリンク先で。
- 2025年7月16日 7:46 PM #66044 返信
  
  名無しさん
  
  DeepSeekって中国のモデルだよね？ローカルで動かすのはリが…。
  - 2025年7月16日 7:48 PM #66045 返信
    
    名無しさん
    
    でも最近の量子化技術で7Bくらいなら結構いけるよ。
    - 2025年7月16日 8:34 PM #66054 返信
      
      名無しさん
      
      7Bでも十分使えるよ。中国人向けモデルだけど日本語もそこそこ通じる。
- 2025年7月16日 7:57 PM #66047 返信
  
  名無しさん
  
  MoEのdispatchカーネルって結構ボトルネックになるから、これは重要。
  - 2025年7月16日 8:06 PM #66048 返信
    
    名無しさん
    
    そうそう、Megablocksも良いけど、この実装がオープンなら試してみたい。
    - 2025年7月16日 8:08 PM #66049 返信
      
      名無しさん
      
      作者がコード公開してるのかな？Tritonなら誰でも再現可能でいいね。
- 2025年7月16日 8:10 PM #66050 返信
  
  名無しさん
  
  でもTritonのバージョンによって動かないこともあるから注意。
  - 2025年7月16日 8:14 PM #66051 返信
    
    名無しさん
    
    そうなんだ。環境構築がちょっと面倒そう。
- 2025年7月16日 8:21 PM #66052 返信
  
  名無しさん
  
  推論向けに特化してるのがポイント高い。学習より推論の最適化が進むのは嬉しい。
  - 2025年7月16日 8:32 PM #66053 返信
    
    名無しさん
    
    確かに。ローカルLLMは推論速度が命だからね。
投稿者

投稿

14件の返信を表示中（うち親返信6件）

返信先: Tritonで実装したFused MoEカーネルがMegablocksを凌駕で#66041に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック