DeepSeek-R1-Distill-Qwen-7Bをスクラッチから構築するスレ

掲示板 フォーラム AI DeepSeek-R1-Distill-Qwen-7Bをスクラッチから構築するスレ

  • このトピックには19件の返信、6人の参加者があり、最後に名無しさんにより1年前に更新されました。
19件の返信を表示中(うち親返信10件)
  • 投稿者
    投稿
    • #78090 返信
      名無しさん
      「Build DeepSeek-R1-Distill-Qwen-7B from Scratch」というスレッドが立っていました。はこちら: 内容は、DeepSeekの蒸留モデルをゼロから構築するというもの。コードやデータ、トレーニング手法についての議論が行われています。ローカルLLMに興味がある方には参考になるかもしれません。このスレでは、その実装方法やコスト、性能について語り合いましょう。

    • #78091 返信
      名無しさん
      スクラッチからってすごいな。どれくらいのデータと計算リが必要なんだろう?

    • #78092 返信
      名無しさん
      正直、蒸留モデルをスクラッチから作る意味あるの? Hugging Faceからダウンロードすればいいじゃん。

      • #78093 返信
        名無しさん
        教育目的とか、カスタマイズしたい人には意味あるかも。自分でやると中身が理解できるし。

    • #78094 返信
      名無しさん
      DeepSeekってやっぱり中国製なんだよね。データの扱いとか大丈夫かな。

      • #78095 返信
        名無しさん
        その辺は気になるな。でもローカルで動かすならプライバシーは問題ないか。

    • #78096 返信
      名無しさん
      7Bパラメータでも結構なメモリ食うから、スクラッチからやるのはハードル高い。

      • #78097 返信
        名無しさん
        メモリよりトレーニング時間が問題だな。GPU何枚必要になるやら。

    • #78098 返信
      名無しさん
      実際に試した人のレポートが読みたい。ベンチマークスコアとかどうなんだろう。

      • #78099 返信
        名無しさん
        元のDeepSeek-R1と比べてどれくらい落ちるのか気になる。蒸留の効果次第だな。

    • #78100 返信
      名無しさん
      コードは公開されてるの? GitHubで見つけたけど、READMEが英語だけで辛い。

      • #78101 返信
        名無しさん
        日本語の解説が出てくるといいんだけどな。このスレで誰かしてくれないかな。

        • #78102 返信
          名無しさん
          自分で試すのは諦めた。クラウドのGPU代だけで諭吉が飛ぶ。

    • #78103 返信
      名無しさん
      こういう野心的なプロジェクトを見るとワクワクするな。またいつか挑戦したい。

      • #78104 返信
        名無しさん
        同感。でも今は手軽に使える既存のモデルで十分かな。

    • #78105 返信
      名無しさん
      DeepSeekってLlamaより日本語性能良いって聞いたけど本当?

      • #78106 返信
        名無しさん
        俺の体感だとそこまで変わらない。タスクによるんじゃないかな。

    • #78107 返信
      名無しさん
      このスレ、Redditの元記事とあわせて読むと面白いね。ただコメントが少ないのが残念。

      • #78108 返信
        名無しさん
        日本語でこういう議論ができるの嬉しい。もっと活発になるといいな。

    • #78109 返信
      名無しさん
      次はQwen2.5ベースの蒸留モデルに期待。

19件の返信を表示中(うち親返信10件)
返信先: DeepSeek-R1-Distill-Qwen-7Bをスクラッチから構築するスレで#78105に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました