KVARN: 分散正規化によるKVキャッシュ量子化手法が話題に

掲示板 フォーラム AI KVARN: 分散正規化によるKVキャッシュ量子化手法が話題に

  • このトピックには26件の返信、8人の参加者があり、最後に名無しさんにより10時間、 45分前に更新されました。
26件の返信を表示中(うち親返信14件)
  • 投稿者
    投稿
    • #5971 返信
      名無しさん
      Reddit r/MachineLearning で投稿された「KVARN: Variance-Normalized KV-Cache Quantization」という論文が注目を集めています。大規模言語モデルの推論効率化に向けたKVキャッシュの量子化手法で、分散を正規化することで精度低下を抑えつつメモリ使用量を削減するアプローチのようです。詳細はこちら: https://www.reddit.com/r/MachineLearning/comments/1twnj5r/kvarn_variancenormalized_kvcache_quantization_r/ 実際に使ってみた人の感想や、他の量子化手法との比較など、意見を聞かせてください。

    • #5972 返信
      名無しさん
      KVキャッシュ量子化はLLM推論のボトルネックだから重要だね。分散正規化というアイデアは初めて聞いた。

    • #5973 返信
      名無しさん
      この論文、具体的な精度評価はどうなってるの?既存手法よりどのくらいマシなんだろう。

      • #5974 返信
        名無しさん
        Redditのコメント見る限り、KIVIやW4A16と比較して遜色ないって意見が多いよ。

    • #5975 返信
      名無しさん
      vLLMとかで使えるようになるなら試してみたいな。

    • #5976 返信
      名無しさん
      分散正規化ってどういう理屈?単純にスケーリングするだけじゃないの?

      • #5977 返信
        名無しさん
        各チャンネルの分散を1に揃えてから量子化することで、外れ値の影響を減らすみたい。確かに理にかなってる。

    • #5978 返信
      名無しさん
      でも量子化ってどうしても精度落ちるから、実運用では難しいんだよね。

      • #5979 返信
        名無しさん
        そこを改善しようという研究だから期待してる。ベンチマークスコアが気になる。

    • #5980 返信
      名無しさん
      論文のコードは公開されてるのかな?

      • #5981 返信
        名無しさん
        GitHubに上がってたよ。まだスター少ないけどこれから伸びそう。

    • #5982 返信
      名無しさん
      KVキャッシュの圧縮って他にも手法あるけど、分散正規化は斬新だな。

      • #5983 返信
        名無しさん
        でも単純にビット数を減らすだけの手法との比較はしてほしい。

        • #5984 返信
          名無しさん
          論文中でNF4やINT8と比較してるよ。特に長文生成で効果が高いらしい。

    • #5985 返信
      名無しさん
      これって推論速度も向上するの?メモリ削減だけじゃなくて。

      • #5986 返信
        名無しさん
        メモリ帯域が減るから速度も上がるはず。ただし量子化のオーバーヘッド次第。

    • #5987 返信
      名無しさん
      LLMの量子化は重みだけじゃなくてキャッシュも大事だからいい研究だ。

    • #5988 返信
      名無しさん
      でも結局、実際のモデルで試さないと分からないよね。Llamaで試した人いる?

      • #5989 返信
        名無しさん
        Redditで試したって書き込みあったけど、Llama-2-7Bでほぼ精度劣化なしって言ってた。

        • #5990 返信
          名無しさん
          それはすごい。もっと大規模モデルでも試してほしい。

    • #5991 返信
      名無しさん
      分散正規化の計算コストはどうなんだろう。推論時のオーバーヘッドが気になる。

      • #5992 返信
        名無しさん
        論文によるとほぼ無視できるレベルらしい。チャンネルごとの統計量を保存するだけだから。

    • #5993 返信
      名無しさん
      これと他の量子化手法を組み合わせたらもっと効率上がるかもね。

      • #5994 返信
        名無しさん
        組み合わせるときの相互作用が複雑そう。でも試す価値はある。

    • #5995 返信
      名無しさん
      個人的には、キャッシュ量子化よりアテンションの計算自体を効率化する方が本質だと思う。

      • #5996 返信
        名無しさん
        両方やればいいんじゃない?この手法はキャッシュ削減に特化してるから共存できる。

    • #5997 返信
      名無しさん
      こういう研究がもっと進んで、ローカルで大きなLLM動かせるようになると嬉しいな。

26件の返信を表示中(うち親返信14件)
返信先: KVARN: 分散正規化によるKVキャッシュ量子化手法が話題にで#5989に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました