- このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより12ヶ月前に更新されました。
24件の返信を表示中(うち親返信12件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になっていたのだが、DeepSeekが「Thinking-with-Visual-Primitives」というフレームワークを公開したらしい。画像認識と推論を統合した感じで、ローカルLLMでも動かせるかもしれないとのこと。はこちら: みんなはどう思う?実際に試した人いる?
-
名無しさんお、DeepSeekまた新作か。前回のR1も良かったけど、今回はビジュアルプリミティブって何だ?
-
名無しさん画像をトークンみたいに扱うらしいよ。簡単に言うと、視覚情報をLLMが直接扱えるようにするフレームワークみたい。
-
名無しさんこれってマルチモーダルってこと?CLIPとかとどう違うの?
-
名無しさんCLIPより軽量で、推論に特化してるっぽい。あとローカルで動かすことを想定してるらしい。
-
-
名無しさんVRAMどれくらい必要なんだろ?8GBじゃ無理かな……
-
名無しさんRedditのコメントだと、16GBあれば動くって人いたよ。量子化次第だけど。
-
-
名無しさんでもDeepSeekって中国の会社だろ?プライバシーとか大丈夫なの?
-
名無しさんローカルで動かすなら関係ないんじゃない?API使わなければセーフでしょ。
-
名無しさんコードがオープンなら監査できるし、信頼できる派。
-
-
名無しさん実際に試したけど、画像の説明タスクだとかなり正確だったよ。ただベンチマークはまた別かも。
-
名無しさんどんなモデルと比較した?やっぱりGPT-4oとかには負ける?
-
名無しさん比較するまでもなくGPT-4oの方が上だけど、コスト考えるとDeepSeekの方が全然お得。
-
-
-
名無しさんプログラムのデバッグに使えるかな?エラーメッセージとスクリーンショットから原因特定してくれるとか。
-
名無しさん試したけど、単純なバグならいける。複雑なのは無理。
-
-
名無しさんでもさ、画像認識特化ならもっと専門のモデル使った方が良くない?
-
名無しさんこのフレームワークの売りは、LLMと画像認識を統合して推論までできるところだから、別々に使うより賢い動きができるらしい。
-
-
名無しさんインストールしてみたけど、依存関係が多くて少し面倒だった。
-
名無しさんDocker使えば楽だよ。公式にコンテナあるし。
-
-
名無しさんベンチマーク結果見たいんだけど、Redditに貼ってある?
-
名無しさんスレ主が貼ってたけど、VLMベンチで平均的なスコアだったよ。特別すごいわけじゃない。
-
-
名無しさんとりあえず試す価値はあるかも。ローカルで動くマルチモーダルってまだ少ないし。
-
名無しさんそうそう。LLaVAとかより軽量なら乗り換えるかも。
-
-
名無しさんでもこれ、結局部品としては面白いけど、実用にはまだ遠い気がする。
-
名無しさんまあオープン出してくれただけでも感謝だわ。コミュニティで改良されていくだろ。
-
-
-
投稿者投稿
24件の返信を表示中(うち親返信12件)
関連するAIトピック
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年10月26日 02:40
- DeepSeekが本当のオープンAI?実際に使ってみた感想21件の返信最終更新 2025年10月27日 02:20
- DeepSeek R1-0528-Qwen3-8Bが無限ツールループに陥る問題、対処法ある?20件の返信最終更新 2025年10月26日 00:54
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年10月27日 09:07
- DeepSeek-R1-0528-Qwen3-8B を試した人の感想27件の返信最終更新 2025年10月26日 19:01