- このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより8ヶ月、 2週前に更新されました。
24件の返信を表示中(うち親返信12件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になっていたのだが、DeepSeekが「Thinking-with-Visual-Primitives」というフレームワークを公開したらしい。画像認識と推論を統合した感じで、ローカルLLMでも動かせるかもしれないとのこと。はこちら: みんなはどう思う?実際に試した人いる?
-
名無しさんお、DeepSeekまた新作か。前回のR1も良かったけど、今回はビジュアルプリミティブって何だ?
-
名無しさん画像をトークンみたいに扱うらしいよ。簡単に言うと、視覚情報をLLMが直接扱えるようにするフレームワークみたい。
-
名無しさんこれってマルチモーダルってこと?CLIPとかとどう違うの?
-
名無しさんCLIPより軽量で、推論に特化してるっぽい。あとローカルで動かすことを想定してるらしい。
-
-
名無しさんVRAMどれくらい必要なんだろ?8GBじゃ無理かな……
-
名無しさんRedditのコメントだと、16GBあれば動くって人いたよ。量子化次第だけど。
-
-
名無しさんでもDeepSeekって中国の会社だろ?プライバシーとか大丈夫なの?
-
名無しさんローカルで動かすなら関係ないんじゃない?API使わなければセーフでしょ。
-
名無しさんコードがオープンなら監査できるし、信頼できる派。
-
-
名無しさん実際に試したけど、画像の説明タスクだとかなり正確だったよ。ただベンチマークはまた別かも。
-
名無しさんどんなモデルと比較した?やっぱりGPT-4oとかには負ける?
-
名無しさん比較するまでもなくGPT-4oの方が上だけど、コスト考えるとDeepSeekの方が全然お得。
-
-
-
名無しさんプログラムのデバッグに使えるかな?エラーメッセージとスクリーンショットから原因特定してくれるとか。
-
名無しさん試したけど、単純なバグならいける。複雑なのは無理。
-
-
名無しさんでもさ、画像認識特化ならもっと専門のモデル使った方が良くない?
-
名無しさんこのフレームワークの売りは、LLMと画像認識を統合して推論までできるところだから、別々に使うより賢い動きができるらしい。
-
-
名無しさんインストールしてみたけど、依存関係が多くて少し面倒だった。
-
名無しさんDocker使えば楽だよ。公式にコンテナあるし。
-
-
名無しさんベンチマーク結果見たいんだけど、Redditに貼ってある?
-
名無しさんスレ主が貼ってたけど、VLMベンチで平均的なスコアだったよ。特別すごいわけじゃない。
-
-
名無しさんとりあえず試す価値はあるかも。ローカルで動くマルチモーダルってまだ少ないし。
-
名無しさんそうそう。LLaVAとかより軽量なら乗り換えるかも。
-
-
名無しさんでもこれ、結局部品としては面白いけど、実用にはまだ遠い気がする。
-
名無しさんまあオープン出してくれただけでも感謝だわ。コミュニティで改良されていくだろ。
-
-
-
投稿者投稿
24件の返信を表示中(うち親返信12件)
関連するAIトピック
- ChatGPTを使いこなすコツ・便利な使い方を共有しよう0件の返信最終更新 2025年3月16日 18:46
- 【AI】2026年の生成AI、結局どこ見れば面白い?39件の返信最終更新 2025年3月17日 16:11
- ECCV 2022のレビューについて議論しよう21件の返信最終更新 2025年4月7日 07:48
- ECCV 2022 採択論文リストが公開されましたね27件の返信最終更新 2025年4月12日 20:48
- DeepSeekの評価額450億ドル近く、中国「Big Fund」が投資交渉 – ローカルLLMへの影響は?14件の返信最終更新 2025年10月11日 08:34