DeepSeek-R1-Distill-Qwen-7Bをスクラッチから構築するスレ

名無しさん · 2025-06-02T16:13:41+09:00

「Build DeepSeek-R1-Distill-Qwen-7B from Scratch」というスレッドが立っていました。はこちら: 内容は、DeepSeekの蒸留モデルをゼロから構築するというもの。コードやデータ、トレーニング手法についての議論が行われています。ローカルLLMに興味がある方には参考になるかもしれません。このスレでは、その実装方法やコスト、性能について語り合いましょう。

このトピックには19件の返信、6人の参加者があり、最後に名無しさんにより1年前に更新されました。

19件の返信を表示中（うち親返信10件）

投稿者

投稿
- 2025年6月2日 4:13 PM #78090 返信
  
  名無しさん
  
  「Build DeepSeek-R1-Distill-Qwen-7B from Scratch」というスレッドが立っていました。はこちら: 内容は、DeepSeekの蒸留モデルをゼロから構築するというもの。コードやデータ、トレーニング手法についての議論が行われています。ローカルLLMに興味がある方には参考になるかもしれません。このスレでは、その実装方法やコスト、性能について語り合いましょう。
- 2025年6月2日 4:15 PM #78091 返信
  
  名無しさん
  
  スクラッチからってすごいな。どれくらいのデータと計算リが必要なんだろう？
- 2025年6月2日 4:18 PM #78092 返信
  
  名無しさん
  
  正直、蒸留モデルをスクラッチから作る意味あるの？ Hugging Faceからダウンロードすればいいじゃん。
  - 2025年6月2日 4:22 PM #78093 返信
    
    名無しさん
    
    教育目的とか、カスタマイズしたい人には意味あるかも。自分でやると中身が理解できるし。
- 2025年6月2日 4:29 PM #78094 返信
  
  名無しさん
  
  DeepSeekってやっぱり中国製なんだよね。データの扱いとか大丈夫かな。
  - 2025年6月2日 4:31 PM #78095 返信
    
    名無しさん
    
    その辺は気になるな。でもローカルで動かすならプライバシーは問題ないか。
- 2025年6月2日 4:35 PM #78096 返信
  
  名無しさん
  
  7Bパラメータでも結構なメモリ食うから、スクラッチからやるのはハードル高い。
  - 2025年6月2日 4:41 PM #78097 返信
    
    名無しさん
    
    メモリよりトレーニング時間が問題だな。GPU何枚必要になるやら。
- 2025年6月2日 4:50 PM #78098 返信
  
  名無しさん
  
  実際に試した人のレポートが読みたい。ベンチマークスコアとかどうなんだろう。
  - 2025年6月2日 4:51 PM #78099 返信
    
    名無しさん
    
    元のDeepSeek-R1と比べてどれくらい落ちるのか気になる。蒸留の効果次第だな。
- 2025年6月2日 4:54 PM #78100 返信
  
  名無しさん
  
  コードは公開されてるの？ GitHubで見つけたけど、READMEが英語だけで辛い。
  - 2025年6月2日 4:58 PM #78101 返信
    
    名無しさん
    
    日本語の解説が出てくるといいんだけどな。このスレで誰かしてくれないかな。
    - 2025年6月2日 5:04 PM #78102 返信
      
      名無しさん
      
      自分で試すのは諦めた。クラウドのGPU代だけで諭吉が飛ぶ。
- 2025年6月2日 5:16 PM #78103 返信
  
  名無しさん
  
  こういう野心的なプロジェクトを見るとワクワクするな。またいつか挑戦したい。
  - 2025年6月2日 5:17 PM #78104 返信
    
    名無しさん
    
    同感。でも今は手軽に使える既存のモデルで十分かな。
- 2025年6月2日 5:20 PM #78105 返信
  
  名無しさん
  
  DeepSeekってLlamaより日本語性能良いって聞いたけど本当？
  - 2025年6月2日 5:25 PM #78106 返信
    
    名無しさん
    
    俺の体感だとそこまで変わらない。タスクによるんじゃないかな。
- 2025年6月2日 5:33 PM #78107 返信
  
  名無しさん
  
  このスレ、Redditの元記事とあわせて読むと面白いね。ただコメントが少ないのが残念。
  - 2025年6月2日 5:35 PM #78108 返信
    
    名無しさん
    
    日本語でこういう議論ができるの嬉しい。もっと活発になるといいな。
- 2025年6月2日 5:39 PM #78109 返信
  
  名無しさん
  
  次はQwen2.5ベースの蒸留モデルに期待。
投稿者

投稿

19件の返信を表示中（うち親返信10件）

返信先: DeepSeek-R1-Distill-Qwen-7Bをスクラッチから構築するスレで#78100に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック