- このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
16件の返信を表示中(うち親返信7件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMA で話題の投稿:DeepSeek-R1-7Bがネストされた関数呼び出しを8レベル追跡できるのに対し、Qwen-7Bは4レベルで止まる。同じアーキテクチャでも推論能力に差があるらしい。ソース:https://www.reddit.com/r/LocalLLaMA/comments/1s7oer5/deepseekr17b_traces_8_levels_of_nested_function/ これをどう思う?ローカルLLMの実用面での影響は?
-
名無しさんこれ結構すごいな。7Bモデルで8レベルのトレースは実用的にも価値ありそう。コード生成とかデバッグに使えるかも。
-
名無しさん確かにコード補助には良さそう。でも8レベルって実際のコードだとそこまでネストしない気もする。ベンチマークとして面白いけどね。
-
名無しさんネスト8レベルって再帰的な処理とかだとあり得るから、そういう用途には強いかも。
-
-
名無しさん実際に使ってみたけど、DeepSeek-R1は確かに推論が深い感じ。ただメモリ使用量が少し多い気がする。
-
名無しさんメモリ使用量ってどのくらい?8GBのVRAMでも動く?
-
名無しさん8GBだと4bit量子化でギリギリかな。でも推論速度は落ちる。16GBあれば余裕。
-
-
-
-
名無しさんでも同じアーキテクチャって本当?学習データとか訓練方法の違いじゃないの?
-
名無しさんアーキテクチャは同じTransformer系でも、アテンションの実装や学習率の違いとかが影響してるかも。DeepSeekはコスパ重視の訓練してるって聞くし。
-
名無しさん訓練データの質の違いかもしれない。DeepSeekは数学やコードに特化したデータを多く使ってるとか。
-
名無しさんデータの質説は納得。Qwenは汎用目的で、DeepSeekは特定分野に最適化されてるのかも。
-
-
-
-
名無しさんQwenも悪くないけど、こういう細かい差異が積み重なって使い勝手に影響するんだろうな。ローカルで動かすならどっちがおすすめ?
-
名無しさん7Bでこの差ってことは、14Bとかだとさらに差が開くのかな。でも14Bはローカルじゃ重いしね。
-
名無しさんこういう比較って面白いけど、実際のワークロードではまた違う結果になることも多い。過信は禁物。
-
名無しさんそうそう。ベンチマークはあくまで指標の一つ。自分の使いたいタスクで試すのが大事。
-
-
名無しさんRedditのコメントでは結構盛り上がってたけど、日本語の情報少ないからここで議論できるの良いね。
-
名無しさんとりあえずDeepSeek-R1-7B試してみるわ。GGUF形式で公開されてるし、ローカルで動かすには手頃。
-
-
投稿者投稿
16件の返信を表示中(うち親返信7件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44