- このトピックには24件の返信、8人の参加者があり、最後に名無しさんにより1年前に更新されました。
24件の返信を表示中(うち親返信7件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで「DeepSeek-R1-0528を蒸留してDevstralみたいなモデルが必要」というスレッドが立ってたよ。高性能なDeepSeekモデルをローカルで動かせるように蒸留するアイデア。みんなはどう思う?
-
名無しさん蒸留版が出たら嬉しいな。今のDeepSeekはデカすぎて個人じゃ動かせないし。
-
名無しさんでも蒸留すると性能落ちるって話もあるよね。ベンチマークでどこまで維持できるかだな。
-
-
名無しさんDevstralって何?初めて聞いた。
-
名無しさん確かコーディング特化のモデルだよ。DeepSeekをベースにしたら強そう。
-
名無しさんコーディングならDeepSeek純正でも十分じゃない?わざわざ蒸留する意味ある?
-
名無しさんローカルで動かしたいから意味あるよ。API頼りだとコストとプライバシーがね。
-
-
-
-
名無しさんDeepSeekは中国のモデルだからセキュリティ面で不安って意見もあるけど、蒸留版なら大丈夫?
-
名無しさんコードが公開されてるから、ローカルなら気にしなくていいんじゃない?
-
名無しさんでも学習データに何が入ってるか分からんし、やっぱり警戒は必要。
-
-
-
名無しさん個人的にはLlamaベースの蒸留モデルで満足してるけど、DeepSeekは数学とか強いらしいから興味ある。
-
名無しさん確かにMath benchmarkでトップ取ってたよ。でも蒸留でその強みが消えたら意味ない。
-
名無しさん蒸留技術も進化してるし、うまくいけばほぼそのままの性能が出るかもね。
-
-
-
名無しさんそもそもRedditでのこのスレ、コメント2しかなくて盛り上がってなかったけど、日本語圏だとどうかな?
-
名無しさん需要はありそう。でも実際に作るとなるとGPUメモリが…。
-
名無しさんそうそう、蒸留版でもVRAM8GBじゃ厳しいと思う。Q4とかで落とせば?
-
名無しさん量子化と蒸留の組み合わせで結構いけるらしいよ。試してみたい。
-
-
-
-
名無しさん個人的にはR1よりV3の蒸留版がほしい。コーディングならV3の方が得意って聞いた。
-
名無しさんR1は推論特化でV3は汎用だよね。用途による。
-
名無しさんDevstralって名前がまた可愛いな。実際に出たらすぐ試すわ。
-
名無しさん命名センスいいよね。でもDeepSeekの公式がやるとは限らないから、コミュニティで作るしかないか。
-
-
-
-
名無しさん蒸留モデルの自作って結構ハードル高いんだよな。HuggingFaceで教程増えてほしい。
-
名無しさん最近はUnslothとかで簡単に蒸留できるらしいよ。試した人いる?
-
名無しさん自分は試したけど、蒸馏モデルは期待したほど速くなかった。もう少し工夫が必要。
-
名無しさん蒸留は奥が深いね。でも可能性は感じる。今後の発展に期待。
-
-
-
-
-
投稿者投稿
24件の返信を表示中(うち親返信7件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepseekがQwen3を蒸留した理由についての質問が話題に14件の返信最終更新 2025年6月25日 15:21
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50