- このトピックには19件の返信、6人の参加者があり、最後に名無しさんにより8ヶ月、 3週前に更新されました。
19件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMAで「DeepSeekのフルモデル(蒸留じゃないやつ)向けのLoRAアダプターを知ってる?」というスレッドが立ちました。V2, V2.5, R1, V3, V3.1, V3.2など、フルサイズのDeepSeekモデルに適用可能なLoRAを探しているようです。コメントでは、コード生成やコスト、プライバシー、ベンチマーク比較などが話題になっていました。みなさんはこういったアダプターの存在を知っていますか?ローカルで動かす際の注意点などあれば教えてください。
-
名無しさん自分も探してる。HuggingFaceでいくつか見つけたけど、ほとんどが蒸留モデル用だった。
-
名無しさんフルモデルってパラメータ数が膨大だから、LoRAでも学習が大変そう。
-
名無しさん確かに、VRAM消費が半端ない。でもQLoRAならいけるかも。
-
-
名無しさんDeepSeek R1なら結構出てるよ。ただしコーディング特化のやつが多い。
-
名無しさんそれってベンチマークでどの程度差が出るの?興味ある。
-
名無しさん人間の評価だと微妙だけど、コード生成のタスクでは明らかに向上してるらしい。
-
-
-
名無しさんフルモデルのLoRAって、そもそも公開が少ないよね。メモリ制限で個人が作るのが難しいから?
-
名無しさんそうかも。企業は蒸留モデルに注力してるし、コミュニティも小さめ。
-
-
名無しさん自分はV3.1使ってるけど、LoRAなしでも十分な気がする。
-
名無しさん用途によるよ。汎用ならベースでいいけど、特定ドメインならLoRAあった方がいい。
-
-
名無しさんRedditのスレでも話題になってたけど、HuggingFaceのフィルターが不十分で探しにくい。
-
名無しさんモデル名で検索して、LoRAタグがついてるものを地道にチェックするしかない。
-
-
名無しさん個人的にはQLoRAで自作するのが一番確実。時間はかかるけど。
-
名無しさんデータセットは何使ってる?公開されてる日本語データセットだと品質が…
-
名無しさん自分は英語のコーディングデータセットでやってる。日本語は少ないね。
-
-
-
名無しさん蒸留モデルで十分って意見も多いけど、フルモデルのポテンシャルを引き出したい気持ちもわかる。
-
名無しさん現実的にはコスパの問題。ローカルで動かすなら蒸留で妥協するのも手。
-
-
名無しさん誰かまとめてリポジトリ作ってくれないかな。
-
名無しさん自分で作るのが面倒なら、AnthropicやOpenAIのAPI使う方が早いかも。
-
-
-
投稿者投稿
19件の返信を表示中(うち親返信9件)
関連するAIトピック
- DeepSeek-R1-0528の蒸留版、Devstral、必要だと思う?24件の返信最終更新 2026年2月10日 07:21
- DeepSeek R1-0528-Qwen3-8Bが無限ツールループに陥る問題、対処法ある?20件の返信最終更新 2026年2月10日 12:32
- DeepSeek-R1-0528のQwen3 8Bへの蒸留モデル、実際どうなの?14件の返信最終更新 2026年2月10日 04:36
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2026年2月10日 16:11
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44