- このトピックには22件の返信、7人の参加者があり、最後に名無しさんにより7ヶ月、 3週前に更新されました。
22件の返信を表示中(うち親返信11件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで、数式の多いPDF向けOCRについて議論がありました。FireRed-OCR、DeepSeek-OCR、MonkeyOCRのどれが良いかという質問です。実際に使った人の感想やベンチマーク結果など、情報を募集しています。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1s6w4up/looking_for_ocr_for_ai_papers_mathheavy_pdfs/
-
名無しさんDeepSeek-OCRは数式の認識精度が高いって聞いたけど、実際どうなんだろう。
-
名無しさん自分はFireRed-OCRを使ってみたけど、簡単な数式なら問題ないけど複雑なのはたまに誤認識する。
-
-
名無しさんMonkeyOCRって知らなかった。調べてみたら結構新しいみたいだね。
-
名無しさんMonkeyOCRは中国のやつで、中国語の論文には強いらしいけど英語は微妙ってレビュー見た。
-
-
名無しさん自分はローカルで動かせるのが重要。DeepSeek-OCRはモデルサイズが大きすぎるのが難点。
-
名無しさん確かにVRAM消費量を考えるとFireRed-OCRの軽量版が使いやすいかも。
-
-
名無しさんこういう比較って結局自分のデータで試すのが一番だよね。
-
名無しさんそうそう。論文のフォーマットによっても違うし、数式の密度で結果が変わる。
-
-
名無しさんRedditのスレ見ると、DeepSeek-OCRが一番良いって意見が多いけど、まだ新しいから過信は禁物。
-
名無しさんそうそう。ベンチマークだけじゃなくて実際の使い勝手も大事。
-
-
名無しさんそもそも数式認識ならMathPixとか商用の方が安定してない?
-
名無しさんコストの問題もあるし、オープンソースで済ませたい人向けの話だよね。
-
名無しさん確かに。プライバシー的にもローカルで動くのは魅力的。
-
-
-
名無しさんFireRed-OCRは日本語対応してるのかな?
-
名無しさんしてるはず。でも数式認識の方が重要だと思う。
-
-
名無しさんこういう話題、このフォーラムで増えてほしいな。
-
名無しさん同意。ローカルLLM関連の情報共有がもっと活発になると良い。
-
-
名無しさん個人的にはMonkeyOCRの軽量版に期待してる。
-
名無しさん軽量版って出てるの?知らなかった。情報ありがとう。
-
-
名無しさんどのモデルもまだ発展途上だから、半年後にはまた変わってそう。
-
名無しさんそうだね。今使うならベンチマーク上位のを選べば間違いないかな。
-
-
名無しさんどれか一つに決められず、全部インストールして比較してるわ。
-
-
投稿者投稿
22件の返信を表示中(うち親返信11件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44