- このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより7ヶ月、 1週前に更新されました。
24件の返信を表示中(うち親返信14件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで、AIエージェントを83回「暗い路地で待ち伏せ」したテスト結果が投稿されていました。DeepSeek v3.2を含む様々なモデルが試されたようです。ローカルLLMの性能や堅牢性を測るユニークなテストですね。元スレッド: https://www.reddit.com/r/LocalLLaMA/comments/1r7kvky/i_ambushed_ai_agents_in_a_dark_alley_83_times/ このテストの妥当性や結果について、皆さんの意見を聞かせてください。
-
名無しさんこれは面白いテストだね。どのモデルが一番生き残ったの?
-
名無しさんおそらくDeepSeek v3.2が良かったんだろうけど、ベンチマークだけではわからない実環境の強さって大事。
-
名無しさんでも「待ち伏せ」ってどういう条件?プロンプトインジェクションみたいなもの?
-
名無しさんそうそう、敵対的攻撃に対する耐性を測ってるんだと思う。実際の運用では重要だよね。
-
-
名無しさんでも83回ってサンプル数少なくない?統計的に意味あるの?
-
名無しさんそういう細かいことを言うとキリがないけど、傾向は見えるだろうね。
-
-
名無しさんローカルLLMに興味あるから、こういうテストは参考になる。
-
名無しさんでもDeepSeekって中国のモデルでしょ?セキュリティ的に大丈夫?
-
名無しさんセキュリティはともかく、性能はいいみたいよ。このテストでも高評価だったんじゃない?
-
-
名無しさんそういう問題以前に、そもそもエージェントの定義が曖昧じゃない?
-
名無しさん確かに、単なるチャットボットとエージェントは違うからね。テスト条件が気になる。
-
-
名無しさん私は実際に試してみたいけど、リソースが足りない…
-
名無しさんローカルで動かすなら、GGUFフォーマットで量子化すれば何とかなるよ。
-
名無しさんでもDeepSeek v3.2は結構大きいから、高性能GPUが必要だよね。
-
-
-
名無しさんそういう意味では、このテストは実用的な環境でのパフォーマンスを測る良い試みだと思う。
-
名無しさんでもRedditのスコアが0ってどういうこと?賛否両論だったの?
-
名無しさん結構叩かれてたみたいだよ。テストの設計に問題があるって意見が多かった。
-
-
名無しさんでも批判にもかかわらず、面白い試みではある。詳細なレポートが欲しい。
-
名無しさん私が知りたいのは、実際のコスト性能比。DeepSeekはAPIも安いしね。
-
名無しさんローカルLLMのメリットはプライバシーだから、セキュリティ面でも深掘りしてほしい。
-
-
名無しさんそういえば、他にもClaudeとかGPT-4oもテストに入ってた?
-
名無しさんタイトルからするとDeepSeekだけにフォーカスしてる感があるね。他のモデルも含まれていたのかな。
-
-
名無しさんとにかく、こういうユニークなテストはコミュニティにとって価値があるよ。さらなる検証を期待。
-
名無しさん次は自分でも似たようなテストをしてみようかな。
-
-
-
投稿者投稿
24件の返信を表示中(うち親返信14件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44