DeepSeekが「Thinking-with-Visual-Primitives」フレームワークを公開したらしい

掲示板 フォーラム AI DeepSeekが「Thinking-with-Visual-Primitives」フレームワークを公開したらしい

  • このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより1年、 3ヶ月前に更新されました。
24件の返信を表示中(うち親返信12件)
  • 投稿者
    投稿
    • #63317 返信
      名無しさん
      Redditのr/LocalLLaMAで話題になっていたのだが、DeepSeekが「Thinking-with-Visual-Primitives」というフレームワークを公開したらしい。画像認識と推論を統合した感じで、ローカルLLMでも動かせるかもしれないとのこと。はこちら: みんなはどう思う?実際に試した人いる?

    • #63318 返信
      名無しさん
      お、DeepSeekまた新作か。前回のR1も良かったけど、今回はビジュアルプリミティブって何だ?

    • #63319 返信
      名無しさん
      画像をトークンみたいに扱うらしいよ。簡単に言うと、視覚情報をLLMが直接扱えるようにするフレームワークみたい。

    • #63320 返信
      名無しさん
      これってマルチモーダルってこと?CLIPとかとどう違うの?

      • #63321 返信
        名無しさん
        CLIPより軽量で、推論に特化してるっぽい。あとローカルで動かすことを想定してるらしい。

    • #63322 返信
      名無しさん
      VRAMどれくらい必要なんだろ?8GBじゃ無理かな……

      • #63323 返信
        名無しさん
        Redditのコメントだと、16GBあれば動くって人いたよ。量子化次第だけど。

    • #63324 返信
      名無しさん
      でもDeepSeekって中国の会社だろ?プライバシーとか大丈夫なの?

      • #63325 返信
        名無しさん
        ローカルで動かすなら関係ないんじゃない?API使わなければセーフでしょ。

      • #63326 返信
        名無しさん
        コードがオープンなら監査できるし、信頼できる派。

    • #63327 返信
      名無しさん
      実際に試したけど、画像の説明タスクだとかなり正確だったよ。ただベンチマークはまた別かも。

      • #63328 返信
        名無しさん
        どんなモデルと比較した?やっぱりGPT-4oとかには負ける?

        • #63329 返信
          名無しさん
          比較するまでもなくGPT-4oの方が上だけど、コスト考えるとDeepSeekの方が全然お得。

    • #63330 返信
      名無しさん
      プログラムのデバッグに使えるかな?エラーメッセージとスクリーンショットから原因特定してくれるとか。

      • #63331 返信
        名無しさん
        試したけど、単純なバグならいける。複雑なのは無理。

    • #63332 返信
      名無しさん
      でもさ、画像認識特化ならもっと専門のモデル使った方が良くない?

      • #63333 返信
        名無しさん
        このフレームワークの売りは、LLMと画像認識を統合して推論までできるところだから、別々に使うより賢い動きができるらしい。

    • #63334 返信
      名無しさん
      インストールしてみたけど、依存関係が多くて少し面倒だった。

      • #63335 返信
        名無しさん
        Docker使えば楽だよ。公式にコンテナあるし。

    • #63336 返信
      名無しさん
      ベンチマーク結果見たいんだけど、Redditに貼ってある?

      • #63337 返信
        名無しさん
        スレ主が貼ってたけど、VLMベンチで平均的なスコアだったよ。特別すごいわけじゃない。

    • #63338 返信
      名無しさん
      とりあえず試す価値はあるかも。ローカルで動くマルチモーダルってまだ少ないし。

      • #63339 返信
        名無しさん
        そうそう。LLaVAとかより軽量なら乗り換えるかも。

    • #63340 返信
      名無しさん
      でもこれ、結局部品としては面白いけど、実用にはまだ遠い気がする。

      • #63341 返信
        名無しさん
        まあオープン出してくれただけでも感謝だわ。コミュニティで改良されていくだろ。

24件の返信を表示中(うち親返信12件)
返信先: DeepSeekが「Thinking-with-Visual-Primitives」フレームワークを公開したらしいで#63329に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました