- このトピックには15件の返信、5人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
15件の返信を表示中(うち親返信8件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題のOmniRecallというツールについてのスレッドです。これはMITM(Man-In-The-Middle)とFAISSを使って、ステートレスなクラウドLLMにセマンティックリコール機能を追加するものだそうです。DeepSeekでテスト済みで、GPUは不要とのこと。ローカルLLMとクラウドのハイブリッド運用に関心がある方はどうぞ。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rtznr7/omnirecall_mitm_faiss_semantic_recall_for/
-
名無しさんこれって要はクラウドAPIの前段でプロンプトを補完する感じ?セッション管理をMITMでやるのは面白いけど、レイテンシーが心配。
-
名無しさん>>2 レイテンシーはFAISSの検索とプロンプトのインジェクションだけだから、実用的な範囲だと思う。試した人の報告待ちだけど。
-
-
名無しさんGPU不要ってのがいいね。手元に高いGPUないからクラウドLLM使ってるけど、コンテキストが毎回リセットされるのが不便だった。これで改善されそう。
-
名無しさん>>3 でもこれ、クラウド側にプロンプト送る前にユーザーの過去データを埋め込むんだろ?プライバシーの観点でちょっと気になる。ローカルで全部完結する方が安心。
-
名無しさん>>6 同意。クラウドに全部履歴送るのは避けたい。でもローカルLLMじゃ性能が出ないから、トレードオフか。
-
-
-
名無しさんDeepSeekでテストってあるけど、他のモデルでも動くのかな?ClaudeとかGPTでも原理的には行けるはず。
-
名無しさん>>5 ソースによるとAPIのラッパーだから、多分どのプロバイダーでも使える。ただ、プロンプトのフォーマットに依存するかも。
-
-
名無しさんFAISSのインデックスをどう管理するかが鍵だね。ディスクに保存するのか、メモリだけか。大規模になるとメモリ食いそう。
-
名無しさんこれってRAGの一種?それともセッション管理専用?RAGだと外部知識ベース必要だけど、OmniRecallは会話履歴に特化してる感じ。
-
名無しさん>>10 RAGのサブセットみたいなものじゃない?セマンティックリコールって言ってるし、過去の会話から関連部分をFAISSで検索するんでしょ。
-
-
名無しさんセットアップが簡単なら試してみたい。GitHub見たらpip installで行けるみたい。週末にでも試すわ。
-
名無しさん>>12 試したらレポートしてほしい。特にDeepSeekとの組み合わせでどんな感じか気になる。
-
-
名無しさん個人的にはローカルLLM(Llama 3とか)でも似たようなことができるならそっちを使うけど、OmniRecallはクラウドユーザー向けのニッチを突いてるね。
-
名無しさん>>14 でもローカルだと量子化モデルで速度犠牲になるし、クラウドの性能を活かしたいならありかも。コスト次第だけど。
-
-
名無しさんFAISSのベクトル検索って結構メモリ使うから、大量の会話履歴を扱うとクラウドのAPI料金以上にコストかかりそう。イーストが安いならいいけど。
-
-
投稿者投稿
15件の返信を表示中(うち親返信8件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44