DeepSeek v3.2を含むAIエージェントを83回ダークアリーで待ち伏せしたテスト結果の議論

掲示板 フォーラム AI DeepSeek v3.2を含むAIエージェントを83回ダークアリーで待ち伏せしたテスト結果の議論

  • このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより7ヶ月、 1週前に更新されました。
24件の返信を表示中(うち親返信14件)
  • 投稿者
    投稿
    • #68973 返信
      名無しさん
      Redditのr/LocalLLaMAで、AIエージェントを83回「暗い路地で待ち伏せ」したテスト結果が投稿されていました。DeepSeek v3.2を含む様々なモデルが試されたようです。ローカルLLMの性能や堅牢性を測るユニークなテストですね。元スレッド: https://www.reddit.com/r/LocalLLaMA/comments/1r7kvky/i_ambushed_ai_agents_in_a_dark_alley_83_times/ このテストの妥当性や結果について、皆さんの意見を聞かせてください。

    • #68974 返信
      名無しさん
      これは面白いテストだね。どのモデルが一番生き残ったの?

    • #68975 返信
      名無しさん
      おそらくDeepSeek v3.2が良かったんだろうけど、ベンチマークだけではわからない実環境の強さって大事。

    • #68976 返信
      名無しさん
      でも「待ち伏せ」ってどういう条件?プロンプトインジェクションみたいなもの?

      • #68977 返信
        名無しさん
        そうそう、敵対的攻撃に対する耐性を測ってるんだと思う。実際の運用では重要だよね。

    • #68978 返信
      名無しさん
      でも83回ってサンプル数少なくない?統計的に意味あるの?

      • #68979 返信
        名無しさん
        そういう細かいことを言うとキリがないけど、傾向は見えるだろうね。

    • #68980 返信
      名無しさん
      ローカルLLMに興味あるから、こういうテストは参考になる。

    • #68981 返信
      名無しさん
      でもDeepSeekって中国のモデルでしょ?セキュリティ的に大丈夫?

      • #68982 返信
        名無しさん
        セキュリティはともかく、性能はいいみたいよ。このテストでも高評価だったんじゃない?

    • #68983 返信
      名無しさん
      そういう問題以前に、そもそもエージェントの定義が曖昧じゃない?

      • #68984 返信
        名無しさん
        確かに、単なるチャットボットとエージェントは違うからね。テスト条件が気になる。

    • #68985 返信
      名無しさん
      私は実際に試してみたいけど、リソースが足りない…

      • #68986 返信
        名無しさん
        ローカルで動かすなら、GGUFフォーマットで量子化すれば何とかなるよ。

        • #68987 返信
          名無しさん
          でもDeepSeek v3.2は結構大きいから、高性能GPUが必要だよね。

    • #68988 返信
      名無しさん
      そういう意味では、このテストは実用的な環境でのパフォーマンスを測る良い試みだと思う。

    • #68989 返信
      名無しさん
      でもRedditのスコアが0ってどういうこと?賛否両論だったの?

      • #68990 返信
        名無しさん
        結構叩かれてたみたいだよ。テストの設計に問題があるって意見が多かった。

    • #68991 返信
      名無しさん
      でも批判にもかかわらず、面白い試みではある。詳細なレポートが欲しい。

    • #68992 返信
      名無しさん
      私が知りたいのは、実際のコスト性能比。DeepSeekはAPIも安いしね。

      • #68993 返信
        名無しさん
        ローカルLLMのメリットはプライバシーだから、セキュリティ面でも深掘りしてほしい。

    • #68994 返信
      名無しさん
      そういえば、他にもClaudeとかGPT-4oもテストに入ってた?

      • #68995 返信
        名無しさん
        タイトルからするとDeepSeekだけにフォーカスしてる感があるね。他のモデルも含まれていたのかな。

    • #68996 返信
      名無しさん
      とにかく、こういうユニークなテストはコミュニティにとって価値があるよ。さらなる検証を期待。

      • #68997 返信
        名無しさん
        次は自分でも似たようなテストをしてみようかな。

24件の返信を表示中(うち親返信14件)
返信先: DeepSeek v3.2を含むAIエージェントを83回ダークアリーで待ち伏せしたテスト結果の議論で#68990に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました