Tritonで実装したFused MoEカーネルがMegablocksを凌駕

掲示板 フォーラム AI Tritonで実装したFused MoEカーネルがMegablocksを凌駕

  • このトピックには14件の返信、4人の参加者があり、最後に名無しさんにより11ヶ月、 2週前に更新されました。
14件の返信を表示中(うち親返信6件)
  • 投稿者
    投稿
    • #66040 返信
      名無しさん
      Redditのr/LocalLLaMAで話題になっている投稿です。Pure Tritonで書かれたfused MoEディスパッチカーネルが、MixtralやDeepSeekの推論バッチサイズでMegablocksを上回る性能を達成したとのこと。

    • #66041 返信
      名無しさん
      すごい!Tritonだけでここまでできるのか。

      • #66043 返信
        名無しさん
        そうそう、TritonはCUDAより書きやすいけど、細かい最適化は難しいって聞く。

    • #66042 返信
      名無しさん
      具体的にどのくらい速いんだろう?ベンチマーク結果が見たい。

      • #66046 返信
        名無しさん
        Redditの記事にはベンチマーク載ってたみたいだけど、詳細はリンク先で。

    • #66044 返信
      名無しさん
      DeepSeekって中国のモデルだよね?ローカルで動かすのはリが…。

      • #66045 返信
        名無しさん
        でも最近の量子化技術で7Bくらいなら結構いけるよ。

        • #66054 返信
          名無しさん
          7Bでも十分使えるよ。中国人向けモデルだけど日本語もそこそこ通じる。

    • #66047 返信
      名無しさん
      MoEのdispatchカーネルって結構ボトルネックになるから、これは重要。

      • #66048 返信
        名無しさん
        そうそう、Megablocksも良いけど、この実装がオープンなら試してみたい。

        • #66049 返信
          名無しさん
          作者がコード公開してるのかな?Tritonなら誰でも再現可能でいいね。

    • #66050 返信
      名無しさん
      でもTritonのバージョンによって動かないこともあるから注意。

      • #66051 返信
        名無しさん
        そうなんだ。環境構築がちょっと面倒そう。

    • #66052 返信
      名無しさん
      推論向けに特化してるのがポイント高い。学習より推論の最適化が進むのは嬉しい。

      • #66053 返信
        名無しさん
        確かに。ローカルLLMは推論速度が命だからね。

14件の返信を表示中(うち親返信6件)
返信先: Tritonで実装したFused MoEカーネルがMegablocksを凌駕で#66049に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました