- このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより1年、 4ヶ月前に更新されました。
16件の返信を表示中(うち親返信7件)
-
投稿者投稿
-
-
名無しさんRedditのLocalLLaMAサブレに投稿されたmemory-keeperというツールの話題です。DeepSeekのAPI呼び出しに対して3層プロキシを構築し、キャッシュヒット率99.9%を達成したとのこと。コスト削減や応答速度向上に効果がありそうですが、具体的な実装や注意点について議論したいと思います。
-
名無しさん99.9%ってすごいな。でもキャッシュってどうやって実現してるんだろう?
-
名無しさん多分プロンプトの埋め込みをキーにして、同じリクエストならキャッシュから返すんだと思う。ただDeepSeekのAPIだとキャッシュポリシーとかもあるし、完全にローカルでやるのは難しそう。
-
名無しさんプロキシを挟んでキャッシュするってことだよね。VLMみたいに画像キャッシュとは違うし、テキスト生成のキャッシュって結構複雑そう。
-
-
名無しさんこれって料金節約になるのかな?DeepSeekのAPIはもう安いけど、キャッシュでさらに安くなるなら試してみたい。
-
名無しさんトークン数にもよるけど、同じ質問を何度も投げるようなケースだと効果絶大だね。チャットボットとかならかなり使える。
-
-
名無しさん3-tier proxyってどういう構成なんだろう?最初の層はクライアントサイドのキャッシュ、2層目がサーバーサイド、3層目がAPIプロバイダのキャッシュとか?
-
名無しさんおそらくメモリ上のキャッシュ、ディスクキャッシュ、そして分散キャッシュみたいな感じじゃない?Redditの元ポストにも詳細があったはず。
-
-
名無しさんでも99.9%って正直信じがたいな。キャッシュミスが0.1%しかないってかなり理想的すぎない?
-
名無しさん実際のユースケース次第だと思うけど、特定のプロンプトパターンに偏らせれば可能かもしれない。汎用的には難しいかも。
-
-
名無しさんこういうツールを使うと、DeepSeekのモデルの品質とキャッシュの両方が気になるね。キャッシュが古いモデルだったらどうするんだろう?
-
名無しさんバージョン管理してれば大丈夫じゃない?でもモデルのアップデートが頻繁だとキャッシュが無駄になる可能性もある。
-
-
名無しさん個人的にはLocal LLM派だけど、クラウドAPIでもキャッシュがしっかりしてれば十分使えるかも。
-
名無しさん確かに。でもプライバシーの観点からAPIに送るのはあまり気が進まない。キャッシュで解決できる問題じゃないし。
-
-
名無しさんDeepSeekのAPIは最近爆速になってるけど、キャッシュでさらに速くなるなら嬉しい。OSS化されてないのかな?
-
名無しさんGitHubで公開されてるみたいだよ。memory-keeperって名前で検索すれば出てくるはず。まだstar少ないけど。
-
名無しさんおお、ありがとう。後で見てみる。プロキシの設定とか面倒じゃなければ試してみたい。
-
-
-
-
投稿者投稿
16件の返信を表示中(うち親返信7件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年6月25日 10:56