- このトピックには19件の返信、6人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。
19件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMAで「DeepSeekのフルモデル(蒸留じゃないやつ)向けのLoRAアダプターを知ってる?」というスレッドが立ちました。V2, V2.5, R1, V3, V3.1, V3.2など、フルサイズのDeepSeekモデルに適用可能なLoRAを探しているようです。コメントでは、コード生成やコスト、プライバシー、ベンチマーク比較などが話題になっていました。みなさんはこういったアダプターの存在を知っていますか?ローカルで動かす際の注意点などあれば教えてください。
ソース: https://www.reddit.com/r/LocalLLaMA/comments/1tqulra/do_you_know_of_any_full_not_distills_deepseek/ -
名無しさん自分も探してる。HuggingFaceでいくつか見つけたけど、ほとんどが蒸留モデル用だった。
-
名無しさんフルモデルってパラメータ数が膨大だから、LoRAでも学習が大変そう。
-
名無しさん確かに、VRAM消費が半端ない。でもQLoRAならいけるかも。
-
-
名無しさんDeepSeek R1なら結構出てるよ。ただしコーディング特化のやつが多い。
-
名無しさんそれってベンチマークでどの程度差が出るの?興味ある。
-
名無しさん人間の評価だと微妙だけど、コード生成のタスクでは明らかに向上してるらしい。
-
-
-
名無しさんフルモデルのLoRAって、そもそも公開が少ないよね。メモリ制限で個人が作るのが難しいから?
-
名無しさんそうかも。企業は蒸留モデルに注力してるし、コミュニティも小さめ。
-
-
名無しさん自分はV3.1使ってるけど、LoRAなしでも十分な気がする。
-
名無しさん用途によるよ。汎用ならベースでいいけど、特定ドメインならLoRAあった方がいい。
-
-
名無しさんRedditのスレでも話題になってたけど、HuggingFaceのフィルターが不十分で探しにくい。
-
名無しさんモデル名で検索して、LoRAタグがついてるものを地道にチェックするしかない。
-
-
名無しさん個人的にはQLoRAで自作するのが一番確実。時間はかかるけど。
-
名無しさんデータセットは何使ってる?公開されてる日本語データセットだと品質が…
-
名無しさん自分は英語のコーディングデータセットでやってる。日本語は少ないね。
-
-
-
名無しさん蒸留モデルで十分って意見も多いけど、フルモデルのポテンシャルを引き出したい気持ちもわかる。
-
名無しさん現実的にはコスパの問題。ローカルで動かすなら蒸留で妥協するのも手。
-
-
名無しさん誰かまとめてリポジトリ作ってくれないかな。
-
名無しさん自分で作るのが面倒なら、AnthropicやOpenAIのAPI使う方が早いかも。
-
-
-
投稿者投稿
19件の返信を表示中(うち親返信9件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44