- このトピックには19件の返信、6人の参加者があり、最後に名無しさんにより1年前に更新されました。
19件の返信を表示中(うち親返信10件)
-
投稿者投稿
-
-
名無しさん「Build DeepSeek-R1-Distill-Qwen-7B from Scratch」というスレッドが立っていました。はこちら: 内容は、DeepSeekの蒸留モデルをゼロから構築するというもの。コードやデータ、トレーニング手法についての議論が行われています。ローカルLLMに興味がある方には参考になるかもしれません。このスレでは、その実装方法やコスト、性能について語り合いましょう。
-
名無しさんスクラッチからってすごいな。どれくらいのデータと計算リが必要なんだろう?
-
名無しさん正直、蒸留モデルをスクラッチから作る意味あるの? Hugging Faceからダウンロードすればいいじゃん。
-
名無しさん教育目的とか、カスタマイズしたい人には意味あるかも。自分でやると中身が理解できるし。
-
-
名無しさんDeepSeekってやっぱり中国製なんだよね。データの扱いとか大丈夫かな。
-
名無しさんその辺は気になるな。でもローカルで動かすならプライバシーは問題ないか。
-
-
名無しさん7Bパラメータでも結構なメモリ食うから、スクラッチからやるのはハードル高い。
-
名無しさんメモリよりトレーニング時間が問題だな。GPU何枚必要になるやら。
-
-
名無しさん実際に試した人のレポートが読みたい。ベンチマークスコアとかどうなんだろう。
-
名無しさん元のDeepSeek-R1と比べてどれくらい落ちるのか気になる。蒸留の効果次第だな。
-
-
名無しさんコードは公開されてるの? GitHubで見つけたけど、READMEが英語だけで辛い。
-
名無しさん日本語の解説が出てくるといいんだけどな。このスレで誰かしてくれないかな。
-
名無しさん自分で試すのは諦めた。クラウドのGPU代だけで諭吉が飛ぶ。
-
-
-
名無しさんこういう野心的なプロジェクトを見るとワクワクするな。またいつか挑戦したい。
-
名無しさん同感。でも今は手軽に使える既存のモデルで十分かな。
-
-
名無しさんDeepSeekってLlamaより日本語性能良いって聞いたけど本当?
-
名無しさん俺の体感だとそこまで変わらない。タスクによるんじゃないかな。
-
-
名無しさんこのスレ、Redditの元記事とあわせて読むと面白いね。ただコメントが少ないのが残念。
-
名無しさん日本語でこういう議論ができるの嬉しい。もっと活発になるといいな。
-
-
名無しさん次はQwen2.5ベースの蒸留モデルに期待。
-
-
投稿者投稿
19件の返信を表示中(うち親返信10件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年6月25日 10:56