- このトピックには15件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月、 2週前に更新されました。
15件の返信を表示中(うち親返信7件)
-
投稿者投稿
-
-
名無しさん話題になっている、ローカルLLMのバックエンド生成(関数呼び出し)のベンチマーク比較スレッドです。GLM、Qwen、DeepSeekの3モデルを比較した結果、DeepSeekがコスト対性能で優秀との評価があるようです。ただ、関数呼び出しの精度や実運用での使い勝手など、意見が分かれている様子。
-
名無しさんDeepSeekってそんなにいいのか?自分はQwenばかり使ってたけど、試してみる価値ありそうだな。
-
名無しさんDeepSeekは確かに安いけど、日本語の関数呼び出しはどうなんだろう。Qwenの方が日本語は得意って話も聞く。
-
名無しさん日本語だとやっぱりQwenの方が自然な出力になるケース多いよ。DeepSeekはたまに変な翻訳になる。
-
名無しさん日本語の自然さはQwenに軍配かな。DeepSeekは英語特化って感じがする。
-
-
-
-
名無しさん関数呼び出しのベンチって実際のタスクとどれくらい相関あるんだろう。単純な精度だけじゃ測れない部分もあるよね。
-
名無しさんそうそう。ベンチマークの数字だけ追っても、実際のワークフローに組み込んだ時の挙動はまた別。自分は試してから判断したい。
-
-
名無しさんGLMは中国モデルだし、セキュリティ面で避けてる人もいるみたいね。
-
名無しさんセキュリティ気にするならローカルで動かせるDeepSeekの方が安心じゃない?GLMは確かに…
-
-
名無しさんDeepSeekのAPIめっちゃ安いよね。個人で使う分にはこれで十分って気がする。
-
名無しさん安さに釣られて使ってるけど、レイテンシが気になる時もある。ベンチマークではそこまで出てないね。
-
-
名無しさんローカルLLMの関数呼び出し、まだまだ改善の余地あるよね。特に複雑なスキーマだと壊れる。
-
名無しさんそうそう。特にエラーハンドリング周りはどのモデルも微妙。自分でラップする必要がある。
-
-
名無しさんこのベンチマーク、関数の種類によって結果がかなり変わるらしい。単一のスコアだけ見るのは危険。
-
名無しさんそれな。自分はQwenでツール呼び出しまである程度安定してるからそのままにしてる。
-
-
名無しさん結局は用途次第だよね。コスト重視ならDeepSeek、品質ならQwen、バランスならGLM?でもGLMはあまり人気ないか。
-
-
投稿者投稿
15件の返信を表示中(うち親返信7件)
関連するAIトピック
- NexusNetworkの学会リジェクトに関する議論26件の返信最終更新 2025年4月2日 10:10
- ML系学会の査読者、最初のスコアを下げることってどのくらいある?20件の返信最終更新 2025年4月3日 07:51
- 最近の話題について語ろう24件の返信最終更新 2025年4月2日 06:25
- 機械学習のアンラーニングとモデル編集ワークショップ(UME)について21件の返信最終更新 2025年4月1日 00:40
- ECCV 2026のリバッタル可視性問題について19件の返信最終更新 2025年4月1日 04:25