LLMエージェント同士でKVキャッシュを渡したらトークン73-78%削減できたという実験

掲示板 フォーラム AI LLMエージェント同士でKVキャッシュを渡したらトークン73-78%削減できたという実験

  • このトピックには27件の返信、9人の参加者があり、最後に名無しさんにより7ヶ月、 1週前に更新されました。
27件の返信を表示中(うち親返信12件)
  • 投稿者
    投稿
    • #68118 返信
      名無しさん
      Reddit r/LocalLLaMA で投稿された興味深い実験です。テキストの代わりにKVキャッシュをエージェント間で受け渡すことで、Qwen、Llama、DeepSeekなどで73〜78%のトークン節約ができたとのこと。コメント欄では実用性や実装の難しさ、プライバシー問題などについて活発に議論されています。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rh802w/what_if_llm_agents_passed_kvcache_to_each_other/

    • #68119 返信
      名無しさん
      これすごいな。KVキャッシュそのものを渡す発想はなかった。

      • #68120 返信
        名無しさん
        でも実装は結構難しいんじゃない?キャッシュのサイズが可変だし。

        • #68121 返信
          名無しさん
          そうそう、それにモデル間で互換性あるの?QwenとLlamaで同じ方式って無理じゃね。

    • #68122 返信
      名無しさん
      73%削減はでかい。APIコストが劇的に下がる可能性ある。

      • #68123 返信
        名無しさん
        でもKVキャッシュってメモリ食うから、転送コストも馬鹿にならないかも。

    • #68124 返信
      名無しさん
      プライバシーの観点からはどうなんだろう。キャッシュに会話の内容が残ってるわけで。

      • #68125 返信
        名無しさん
        そういう問題もあるね。テキストよりはマシかもしれないが。

    • #68126 返信
      名無しさん
      この手法、マルチエージェントシステムで使えるか。それぞれのエージェントが同じコンテキストを共有できる。

      • #68127 返信
        名無しさん
        でも結局、毎回キャッシュ計算し直すよりはマシって話。

    • #68128 返信
      名無しさん
      実験したモデルは全部ローカルで動くやつ?DeepSeekはローカルでも使えるけど。

      • #68129 返信
        名無しさん
        たぶんローカル前提。でもクラウドでも応用できる可能性はある。

    • #68130 返信
      名無しさん
      実際に試した人いる?効果あった?

      • #68131 返信
        名無しさん
        まだ試してないけど、実装のハードル高い印象。でも興味ある。

      • #68132 返信
        名無しさん
        自分は簡単なプロトで試したら確かに節約できた。ただし精度に影響出るケースもあった。

    • #68133 返信
      名無しさん
      論文になるレベルじゃない?これ。

      • #68134 返信
        名無しさん
        でも既存研究と似たようなのあった気がする。

    • #68135 返信
      名無しさん
      トークン節約よりもレイテンシ削減の方が嬉しいかも。

      • #68136 返信
        名無しさん
        確かに。KVキャッシュ渡せば再計算不要だから速くなる。

    • #68137 返信
      名無しさん
      これってエージェントが連続して会話する場合のみ有効だよね。一回きりのタスクには意味ない。

      • #68138 返信
        名無しさん
        その通り。ユースケース限られるけど、チャットボットの連携とかに使えそう。

    • #68139 返信
      名無しさん
      ところでKVキャッシュのサイズってどれくらい?モデルやシーケンス長によるけど。

      • #68140 返信
        名無しさん
        7Bモデルでコンテキスト長2048だと数十MBくらいじゃないかな。

    • #68141 返信
      名無しさん
      このアイデア、実装が簡単ならOSSプロジェクトで採用されそう。

      • #68142 返信
        名無しさん
        でも標準化されないと普及しないだろうな。

    • #68143 返信
      名無しさん
      個人的にはもっと踏み込んだ実験してほしい。異なるモデル間でキャッシュ共有できるのかとか。

      • #68144 返信
        名無しさん
        異なるモデルは構造が違うから無理。でも同じモデルファミリーなら可能かも。

      • #68145 返信
        名無しさん
        同じモデルでも量子化の有無でキャッシュ形式違うし、結局変換が必要になる。

27件の返信を表示中(うち親返信12件)
返信先: LLMエージェント同士でKVキャッシュを渡したらトークン73-78%削減できたという実験で#68128に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました