DeepSeekが「Thinking-with-Visual-Primitives」フレームワークを公開したらしい

このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより12ヶ月前に更新されました。

24件の返信を表示中（うち親返信12件）

投稿者

投稿
- 2025年6月28日 11:54 PM #63317 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで話題になっていたのだが、DeepSeekが「Thinking-with-Visual-Primitives」というフレームワークを公開したらしい。画像認識と推論を統合した感じで、ローカルLLMでも動かせるかもしれないとのこと。はこちら: みんなはどう思う？実際に試した人いる？
- 2025年6月28日 11:55 PM #63318 返信
  
  名無しさん
  
  お、DeepSeekまた新作か。前回のR1も良かったけど、今回はビジュアルプリミティブって何だ？
- 2025年6月28日 11:58 PM #63319 返信
  
  名無しさん
  
  画像をトークンみたいに扱うらしいよ。簡単に言うと、視覚情報をLLMが直接扱えるようにするフレームワークみたい。
- 2025年6月29日 12:02 AM #63320 返信
  
  名無しさん
  
  これってマルチモーダルってこと？CLIPとかとどう違うの？
  - 2025年6月29日 12:09 AM #63321 返信
    
    名無しさん
    
    CLIPより軽量で、推論に特化してるっぽい。あとローカルで動かすことを想定してるらしい。
- 2025年6月29日 12:11 AM #63322 返信
  
  名無しさん
  
  VRAMどれくらい必要なんだろ？8GBじゃ無理かな……
  - 2025年6月29日 12:15 AM #63323 返信
    
    名無しさん
    
    Redditのコメントだと、16GBあれば動くって人いたよ。量子化次第だけど。
- 2025年6月29日 12:21 AM #63324 返信
  
  名無しさん
  
  でもDeepSeekって中国の会社だろ？プライバシーとか大丈夫なの？
  - 2025年6月29日 12:30 AM #63325 返信
    
    名無しさん
    
    ローカルで動かすなら関係ないんじゃない？API使わなければセーフでしょ。
  - 2025年6月29日 12:31 AM #63326 返信
    
    名無しさん
    
    コードがオープンなら監査できるし、信頼できる派。
- 2025年6月29日 12:34 AM #63327 返信
  
  名無しさん
  
  実際に試したけど、画像の説明タスクだとかなり正確だったよ。ただベンチマークはまた別かも。
  - 2025年6月29日 12:38 AM #63328 返信
    
    名無しさん
    
    どんなモデルと比較した？やっぱりGPT-4oとかには負ける？
    - 2025年6月29日 12:44 AM #63329 返信
      
      名無しさん
      
      比較するまでもなくGPT-4oの方が上だけど、コスト考えるとDeepSeekの方が全然お得。
- 2025年6月29日 12:56 AM #63330 返信
  
  名無しさん
  
  プログラムのデバッグに使えるかな？エラーメッセージとスクリーンショットから原因特定してくれるとか。
  - 2025年6月29日 12:58 AM #63331 返信
    
    名無しさん
    
    試したけど、単純なバグならいける。複雑なのは無理。
- 2025年6月29日 1:01 AM #63332 返信
  
  名無しさん
  
  でもさ、画像認識特化ならもっと専門のモデル使った方が良くない？
  - 2025年6月29日 1:05 AM #63333 返信
    
    名無しさん
    
    このフレームワークの売りは、LLMと画像認識を統合して推論までできるところだから、別々に使うより賢い動きができるらしい。
- 2025年6月29日 1:13 AM #63334 返信
  
  名無しさん
  
  インストールしてみたけど、依存関係が多くて少し面倒だった。
  - 2025年6月29日 1:15 AM #63335 返信
    
    名無しさん
    
    Docker使えば楽だよ。公式にコンテナあるし。
- 2025年6月29日 1:19 AM #63336 返信
  
  名無しさん
  
  ベンチマーク結果見たいんだけど、Redditに貼ってある？
  - 2025年6月29日 1:24 AM #63337 返信
    
    名無しさん
    
    スレ主が貼ってたけど、VLMベンチで平均的なスコアだったよ。特別すごいわけじゃない。
- 2025年6月29日 1:34 AM #63338 返信
  
  名無しさん
  
  とりあえず試す価値はあるかも。ローカルで動くマルチモーダルってまだ少ないし。
  - 2025年6月29日 1:36 AM #63339 返信
    
    名無しさん
    
    そうそう。LLaVAとかより軽量なら乗り換えるかも。
- 2025年6月29日 1:39 AM #63340 返信
  
  名無しさん
  
  でもこれ、結局部品としては面白いけど、実用にはまだ遠い気がする。
  - 2025年6月29日 1:43 AM #63341 返信
    
    名無しさん
    
    まあオープン出してくれただけでも感謝だわ。コミュニティで改良されていくだろ。
投稿者

投稿

24件の返信を表示中（うち親返信12件）

返信先: DeepSeekが「Thinking-with-Visual-Primitives」フレームワークを公開したらしい

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

関連するAIトピック