- このトピックには27件の返信、9人の参加者があり、最後に名無しさんにより9時間、 33分前に更新されました。
27件の返信を表示中(うち親返信14件)
-
投稿者投稿
-
-
名無しさんRedditのr/MachineLearningで「Best visual reasoning model in 2026 (including multimodal LLM and Agentic AI)???」というスレッドが立っていましたが、情報が取れず詳細は不明です。ただ、2026年現在、視覚推論の分野はGPT-4VやGemini、Claude 3.5など様々なモデルが競合しています。特にエージェントAIとの組み合わせが注目されており、実際のタスクでの性能比較が重要になっています。皆さんはどのモデルが最強だと思いますか?また、実運用での経験談があれば教えてください。
-
名無しさん個人的にはGPT-4Vがまだ強いけど、最近のGemini 2.0は視覚推理でかなり良くなってるらしい。
-
名無しさんGPT-4Vは確かに安定してるけど、コストが高いんだよね。オープンソースのLLaVA-NeXTとかどう?
-
名無しさんLLaVA-NeXTはコスパ良いけど、複雑な推論にはまだ弱い気がする。
-
-
-
名無しさんClaude 3.5 Sonnetもコード生成と画像理解の組み合わせがすごいよ。
-
名無しさんエージェントAIなら、Visual ChatGPTみたいなフレームワークがまだ現役?それとも新しいの出てる?
-
名無しさんエージェントなら、AutoGPT系よりもLangChainのエージェントで画像使うのが増えてるよ。
-
-
名無しさん僕はCogVLM2が意外と使える。日本語のドキュメントも多いし。
-
名無しさん2026年ってまだ半年あるけど、今年は視覚推理で何かブレイクスルーあるかな?
-
名無しさんメタのImageBindとか、6月に新しいバージョン出るって噂。
-
-
名無しさん実用的には、文書読み取りと図表理解ならGoogleのDocument AIが一番かも。
-
名無しさんでもあれは特化型で、汎用性では劣るよね。
-
-
名無しさん精度だけで言えば、まだ人間の方が上だと思う。特に曖昧な画像認識だと。
-
名無しさんそれはそうだけど、タスクによるよ。特定の分野ならAIが人間超えてる例もある。
-
-
名無しさんマルチモーダルLLMのベンチマークって何見ればいいの?MMMUとか?
-
名無しさんMMMUはまだ参考になるけど、今年は新しいベンチマークが出るらしいよ。
-
-
名無しさんRedditのスレ、URL見ても中身見れなかったけど、多分最新モデルの議論だったんだろうね。
-
名無しさん中にはプロプライエタリなモデルのリーク情報とかあったのかも。
-
-
名無しさん視覚推論って、VR/AR向けの応用も考えるべきだよね。
-
名無しさんMetaのスマートグラスに搭載されてるモデルが気になる。
-
-
名無しさんちょっと古いけど、BLIP-2でもまだ使える場面あるよ。
-
名無しさんそれはさすがに2026年じゃ厳しくない?
-
名無しさん軽量モデルが必要ならありだと思う。リソース限られてるし。
-
-
-
名無しさん結局、用途次第だよね。全部入りは無理。
-
名無しさんそうそう、医療画像みたいな専門分野はFine-tuning必須。
-
-
名無しさんソースのURL、サブミットした人誰だったんだろう?有名な研究者だったりして。
-
名無しさんアカウント見れないけど、もしかしたらAndrew Ngとか?
-
-
名無しさんまとめると、GPT-4V、Gemini、Claude、オープンソースのLLaVA-NeXTあたりが候補。エージェントならLangChain系。みんなの意見聞けて良かった。
-
-
投稿者投稿
27件の返信を表示中(うち親返信14件)
関連するAIトピック
- AAAI 2026 リバッタル戦略について15件の返信最終更新 2026年6月18日 20:29
- シンプルなアイデアをML学会で発表する難しさについて15件の返信最終更新 2026年6月18日 20:22
- ICASSPなどの音声会議がダブルブラインドじゃない理由について14件の返信最終更新 2026年6月18日 20:19
- CVPR 2026のリバッタル、参考文献用の追加ページについて議論15件の返信最終更新 2026年6月18日 20:17
- ML研究者、論文の再投稿は何回が普通?16件の返信最終更新 2026年6月18日 20:21