DeepSeekが「Thinking-with-Visual-Primitives」フレームワークを公開したらしい

このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより8ヶ月、 2週前に更新されました。

24件の返信を表示中（うち親返信12件）

投稿者

投稿
- 2025年10月14日 11:31 AM #63317 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで話題になっていたのだが、DeepSeekが「Thinking-with-Visual-Primitives」というフレームワークを公開したらしい。画像認識と推論を統合した感じで、ローカルLLMでも動かせるかもしれないとのこと。はこちら: みんなはどう思う？実際に試した人いる？
- 2025年10月14日 11:33 AM #63318 返信
  
  名無しさん
  
  お、DeepSeekまた新作か。前回のR1も良かったけど、今回はビジュアルプリミティブって何だ？
- 2025年10月14日 11:36 AM #63319 返信
  
  名無しさん
  
  画像をトークンみたいに扱うらしいよ。簡単に言うと、視覚情報をLLMが直接扱えるようにするフレームワークみたい。
- 2025年10月14日 11:40 AM #63320 返信
  
  名無しさん
  
  これってマルチモーダルってこと？CLIPとかとどう違うの？
  - 2025年10月14日 11:47 AM #63321 返信
    
    名無しさん
    
    CLIPより軽量で、推論に特化してるっぽい。あとローカルで動かすことを想定してるらしい。
- 2025年10月14日 11:49 AM #63322 返信
  
  名無しさん
  
  VRAMどれくらい必要なんだろ？8GBじゃ無理かな……
  - 2025年10月14日 11:53 AM #63323 返信
    
    名無しさん
    
    Redditのコメントだと、16GBあれば動くって人いたよ。量子化次第だけど。
- 2025年10月14日 11:59 AM #63324 返信
  
  名無しさん
  
  でもDeepSeekって中国の会社だろ？プライバシーとか大丈夫なの？
  - 2025年10月14日 12:08 PM #63325 返信
    
    名無しさん
    
    ローカルで動かすなら関係ないんじゃない？API使わなければセーフでしょ。
  - 2025年10月14日 12:09 PM #63326 返信
    
    名無しさん
    
    コードがオープンなら監査できるし、信頼できる派。
- 2025年10月14日 12:12 PM #63327 返信
  
  名無しさん
  
  実際に試したけど、画像の説明タスクだとかなり正確だったよ。ただベンチマークはまた別かも。
  - 2025年10月14日 12:16 PM #63328 返信
    
    名無しさん
    
    どんなモデルと比較した？やっぱりGPT-4oとかには負ける？
    - 2025年10月14日 12:22 PM #63329 返信
      
      名無しさん
      
      比較するまでもなくGPT-4oの方が上だけど、コスト考えるとDeepSeekの方が全然お得。
- 2025年10月14日 12:34 PM #63330 返信
  
  名無しさん
  
  プログラムのデバッグに使えるかな？エラーメッセージとスクリーンショットから原因特定してくれるとか。
  - 2025年10月14日 12:35 PM #63331 返信
    
    名無しさん
    
    試したけど、単純なバグならいける。複雑なのは無理。
- 2025年10月14日 12:38 PM #63332 返信
  
  名無しさん
  
  でもさ、画像認識特化ならもっと専門のモデル使った方が良くない？
  - 2025年10月14日 12:43 PM #63333 返信
    
    名無しさん
    
    このフレームワークの売りは、LLMと画像認識を統合して推論までできるところだから、別々に使うより賢い動きができるらしい。
- 2025年10月14日 12:51 PM #63334 返信
  
  名無しさん
  
  インストールしてみたけど、依存関係が多くて少し面倒だった。
  - 2025年10月14日 12:53 PM #63335 返信
    
    名無しさん
    
    Docker使えば楽だよ。公式にコンテナあるし。
- 2025年10月14日 12:57 PM #63336 返信
  
  名無しさん
  
  ベンチマーク結果見たいんだけど、Redditに貼ってある？
  - 2025年10月14日 1:02 PM #63337 返信
    
    名無しさん
    
    スレ主が貼ってたけど、VLMベンチで平均的なスコアだったよ。特別すごいわけじゃない。
- 2025年10月14日 1:12 PM #63338 返信
  
  名無しさん
  
  とりあえず試す価値はあるかも。ローカルで動くマルチモーダルってまだ少ないし。
  - 2025年10月14日 1:14 PM #63339 返信
    
    名無しさん
    
    そうそう。LLaVAとかより軽量なら乗り換えるかも。
- 2025年10月14日 1:16 PM #63340 返信
  
  名無しさん
  
  でもこれ、結局部品としては面白いけど、実用にはまだ遠い気がする。
  - 2025年10月14日 1:21 PM #63341 返信
    
    名無しさん
    
    まあオープン出してくれただけでも感謝だわ。コミュニティで改良されていくだろ。
投稿者

投稿

24件の返信を表示中（うち親返信12件）

返信先: DeepSeekが「Thinking-with-Visual-Primitives」フレームワークを公開したらしい

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

関連するAIトピック