LLMエージェント同士でKVキャッシュを渡したらトークン73-78%削減できたという実験

名無しさん · 2025-11-14T15:44:06+09:00

Reddit r/LocalLLaMA で投稿された興味深い実験です。テキストの代わりにKVキャッシュをエージェント間で受け渡すことで、Qwen、Llama、DeepSeekなどで73〜78%のトークン節約ができたとのこと。コメント欄では実用性や実装の難しさ、プライバシー問題などについて活発に議論されています。

このトピックには27件の返信、9人の参加者があり、最後に名無しさんにより7ヶ月、 1週前に更新されました。

27件の返信を表示中（うち親返信12件）

投稿者

投稿
- 2025年11月14日 3:44 PM #68118 返信
  
  名無しさん
  
  Reddit r/LocalLLaMA で投稿された興味深い実験です。テキストの代わりにKVキャッシュをエージェント間で受け渡すことで、Qwen、Llama、DeepSeekなどで73〜78%のトークン節約ができたとのこと。コメント欄では実用性や実装の難しさ、プライバシー問題などについて活発に議論されています。
- 2025年11月14日 3:45 PM #68119 返信
  
  名無しさん
  
  これすごいな。KVキャッシュそのものを渡す発想はなかった。
  - 2025年11月14日 3:48 PM #68120 返信
    
    名無しさん
    
    でも実装は結構難しいんじゃない？キャッシュのサイズが可変だし。
    - 2025年11月14日 3:53 PM #68121 返信
      
      名無しさん
      
      そうそう、それにモデル間で互換性あるの？QwenとLlamaで同じ方式って無理じゃね。
- 2025年11月14日 4:00 PM #68122 返信
  
  名無しさん
  
  73%削減はでかい。APIコストが劇的に下がる可能性ある。
  - 2025年11月14日 4:02 PM #68123 返信
    
    名無しさん
    
    でもKVキャッシュってメモリ食うから、転送コストも馬鹿にならないかも。
- 2025年11月14日 4:05 PM #68124 返信
  
  名無しさん
  
  プライバシーの観点からはどうなんだろう。キャッシュに会話の内容が残ってるわけで。
  - 2025年11月14日 4:11 PM #68125 返信
    
    名無しさん
    
    そういう問題もあるね。テキストよりはマシかもしれないが。
- 2025年11月14日 4:20 PM #68126 返信
  
  名無しさん
  
  この手法、マルチエージェントシステムで使えるか。それぞれのエージェントが同じコンテキストを共有できる。
  - 2025年11月14日 4:21 PM #68127 返信
    
    名無しさん
    
    でも結局、毎回キャッシュ計算し直すよりはマシって話。
- 2025年11月14日 4:24 PM #68128 返信
  
  名無しさん
  
  実験したモデルは全部ローカルで動くやつ？DeepSeekはローカルでも使えるけど。
  - 2025年11月14日 4:28 PM #68129 返信
    
    名無しさん
    
    たぶんローカル前提。でもクラウドでも応用できる可能性はある。
- 2025年11月14日 4:34 PM #68130 返信
  
  名無しさん
  
  実際に試した人いる？効果あった？
  - 2025年11月14日 4:46 PM #68131 返信
    
    名無しさん
    
    まだ試してないけど、実装のハードル高い印象。でも興味ある。
  - 2025年11月14日 4:48 PM #68132 返信
    
    名無しさん
    
    自分は簡単なプロトで試したら確かに節約できた。ただし精度に影響出るケースもあった。
- 2025年11月14日 4:51 PM #68133 返信
  
  名無しさん
  
  論文になるレベルじゃない？これ。
  - 2025年11月14日 4:55 PM #68134 返信
    
    名無しさん
    
    でも既存研究と似たようなのあった気がする。
- 2025年11月14日 5:03 PM #68135 返信
  
  名無しさん
  
  トークン節約よりもレイテンシ削減の方が嬉しいかも。
  - 2025年11月14日 5:05 PM #68136 返信
    
    名無しさん
    
    確かに。KVキャッシュ渡せば再計算不要だから速くなる。
- 2025年11月14日 5:09 PM #68137 返信
  
  名無しさん
  
  これってエージェントが連続して会話する場合のみ有効だよね。一回きりのタスクには意味ない。
  - 2025年11月14日 5:14 PM #68138 返信
    
    名無しさん
    
    その通り。ユースケース限られるけど、チャットボットの連携とかに使えそう。
- 2025年11月14日 5:24 PM #68139 返信
  
  名無しさん
  
  ところでKVキャッシュのサイズってどれくらい？モデルやシーケンス長によるけど。
  - 2025年11月14日 5:26 PM #68140 返信
    
    名無しさん
    
    7Bモデルでコンテキスト長2048だと数十MBくらいじゃないかな。
- 2025年11月14日 5:29 PM #68141 返信
  
  名無しさん
  
  このアイデア、実装が簡単ならOSSプロジェクトで採用されそう。
  - 2025年11月14日 5:33 PM #68142 返信
    
    名無しさん
    
    でも標準化されないと普及しないだろうな。
- 2025年11月14日 5:40 PM #68143 返信
  
  名無しさん
  
  個人的にはもっと踏み込んだ実験してほしい。異なるモデル間でキャッシュ共有できるのかとか。
  - 2025年11月14日 5:52 PM #68144 返信
    
    名無しさん
    
    異なるモデルは構造が違うから無理。でも同じモデルファミリーなら可能かも。
  - 2025年11月14日 5:53 PM #68145 返信
    
    名無しさん
    
    同じモデルでも量子化の有無でキャッシュ形式違うし、結局変換が必要になる。
投稿者

投稿

27件の返信を表示中（うち親返信12件）

返信先: LLMエージェント同士でKVキャッシュを渡したらトークン73-78%削減できたという実験で#68133に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック