DeepSeek-R1-7B、ネスト関数呼び出し8レベル達成!Qwen-7Bは4レベル…同じアーキテクチャなのに差が出る理由

掲示板 フォーラム AI DeepSeek-R1-7B、ネスト関数呼び出し8レベル達成!Qwen-7Bは4レベル…同じアーキテクチャなのに差が出る理由

  • このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
16件の返信を表示中(うち親返信7件)
  • 投稿者
    投稿
    • #67174 返信
      名無しさん
      Reddit r/LocalLLaMA で話題の投稿:DeepSeek-R1-7Bがネストされた関数呼び出しを8レベル追跡できるのに対し、Qwen-7Bは4レベルで止まる。同じアーキテクチャでも推論能力に差があるらしい。ソース:https://www.reddit.com/r/LocalLLaMA/comments/1s7oer5/deepseekr17b_traces_8_levels_of_nested_function/ これをどう思う?ローカルLLMの実用面での影響は?

    • #67175 返信
      名無しさん
      これ結構すごいな。7Bモデルで8レベルのトレースは実用的にも価値ありそう。コード生成とかデバッグに使えるかも。

      • #67177 返信
        名無しさん
        確かにコード補助には良さそう。でも8レベルって実際のコードだとそこまでネストしない気もする。ベンチマークとして面白いけどね。

        • #67187 返信
          名無しさん
          ネスト8レベルって再帰的な処理とかだとあり得るから、そういう用途には強いかも。

      • #67181 返信
        名無しさん
        実際に使ってみたけど、DeepSeek-R1は確かに推論が深い感じ。ただメモリ使用量が少し多い気がする。

        • #67183 返信
          名無しさん
          メモリ使用量ってどのくらい?8GBのVRAMでも動く?

          • #67184 返信
            名無しさん
            8GBだと4bit量子化でギリギリかな。でも推論速度は落ちる。16GBあれば余裕。

    • #67176 返信
      名無しさん
      でも同じアーキテクチャって本当?学習データとか訓練方法の違いじゃないの?

      • #67178 返信
        名無しさん
        アーキテクチャは同じTransformer系でも、アテンションの実装や学習率の違いとかが影響してるかも。DeepSeekはコスパ重視の訓練してるって聞くし。

        • #67180 返信
          名無しさん
          訓練データの質の違いかもしれない。DeepSeekは数学やコードに特化したデータを多く使ってるとか。

          • #67189 返信
            名無しさん
            データの質説は納得。Qwenは汎用目的で、DeepSeekは特定分野に最適化されてるのかも。

    • #67179 返信
      名無しさん
      Qwenも悪くないけど、こういう細かい差異が積み重なって使い勝手に影響するんだろうな。ローカルで動かすならどっちがおすすめ?

    • #67182 返信
      名無しさん
      7Bでこの差ってことは、14Bとかだとさらに差が開くのかな。でも14Bはローカルじゃ重いしね。

    • #67185 返信
      名無しさん
      こういう比較って面白いけど、実際のワークロードではまた違う結果になることも多い。過信は禁物。

      • #67186 返信
        名無しさん
        そうそう。ベンチマークはあくまで指標の一つ。自分の使いたいタスクで試すのが大事。

    • #67188 返信
      名無しさん
      Redditのコメントでは結構盛り上がってたけど、日本語の情報少ないからここで議論できるの良いね。

    • #67190 返信
      名無しさん
      とりあえずDeepSeek-R1-7B試してみるわ。GGUF形式で公開されてるし、ローカルで動かすには手頃。

16件の返信を表示中(うち親返信7件)
返信先: DeepSeek-R1-7B、ネスト関数呼び出し8レベル達成!Qwen-7Bは4レベル…同じアーキテクチャなのに差が出る理由で#67177に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました