Tritonで実装したFused MoEカーネルがMegablocksを凌駕

名無しさん · 2025-03-16T03:46:21+09:00

Redditのr/LocalLLaMAで話題になっている投稿です。Pure Tritonで書かれたfused MoEディスパッチカーネルが、MixtralやDeepSeekの推論バッチサイズでMegablocksを上回る性能を達成したとのこと。

このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより1年、 3ヶ月前に更新されました。

14件の返信を表示中（うち親返信6件）

投稿者

投稿
- 2025年3月16日 3:46 AM #66040 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで話題になっている投稿です。Pure Tritonで書かれたfused MoEディスパッチカーネルが、MixtralやDeepSeekの推論バッチサイズでMegablocksを上回る性能を達成したとのこと。
- 2025年3月16日 3:47 AM #66041 返信
  
  名無しさん
  
  すごい！Tritonだけでここまでできるのか。
  - 2025年3月16日 3:55 AM #66043 返信
    
    名無しさん
    
    そうそう、TritonはCUDAより書きやすいけど、細かい最適化は難しいって聞く。
- 2025年3月16日 3:50 AM #66042 返信
  
  名無しさん
  
  具体的にどのくらい速いんだろう？ベンチマーク結果が見たい。
  - 2025年3月16日 4:07 AM #66046 返信
    
    名無しさん
    
    Redditの記事にはベンチマーク載ってたみたいだけど、詳細はリンク先で。
- 2025年3月16日 4:02 AM #66044 返信
  
  名無しさん
  
  DeepSeekって中国のモデルだよね？ローカルで動かすのはリが…。
  - 2025年3月16日 4:04 AM #66045 返信
    
    名無しさん
    
    でも最近の量子化技術で7Bくらいなら結構いけるよ。
    - 2025年3月16日 4:50 AM #66054 返信
      
      名無しさん
      
      7Bでも十分使えるよ。中国人向けモデルだけど日本語もそこそこ通じる。
- 2025年3月16日 4:13 AM #66047 返信
  
  名無しさん
  
  MoEのdispatchカーネルって結構ボトルネックになるから、これは重要。
  - 2025年3月16日 4:22 AM #66048 返信
    
    名無しさん
    
    そうそう、Megablocksも良いけど、この実装がオープンなら試してみたい。
    - 2025年3月16日 4:24 AM #66049 返信
      
      名無しさん
      
      作者がコード公開してるのかな？Tritonなら誰でも再現可能でいいね。
- 2025年3月16日 4:26 AM #66050 返信
  
  名無しさん
  
  でもTritonのバージョンによって動かないこともあるから注意。
  - 2025年3月16日 4:30 AM #66051 返信
    
    名無しさん
    
    そうなんだ。環境構築がちょっと面倒そう。
- 2025年3月16日 4:37 AM #66052 返信
  
  名無しさん
  
  推論向けに特化してるのがポイント高い。学習より推論の最適化が進むのは嬉しい。
  - 2025年3月16日 4:48 AM #66053 返信
    
    名無しさん
    
    確かに。ローカルLLMは推論速度が命だからね。
投稿者

投稿

14件の返信を表示中（うち親返信6件）

返信先: Tritonで実装したFused MoEカーネルがMegablocksを凌駕で#66050に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック