- このトピックには17件の返信、5人の参加者があり、最後に名無しさんにより4ヶ月、 2週前に更新されました。
17件の返信を表示中(うち親返信6件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMAで「DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできるか?」というスレッドが立っていました。トークナイザー互換性やモデル構造の違いについて議論が行われています。元スレ:https://www.reddit.com/r/LocalLLaMA/comments/1kycia8/can_we_take_deepseekr1qwen38b_tokenizer_and_copy/
-
名無しさんトークナイザーをそのまま移植するのは無理じゃない?モデルによって語彙サイズや特殊トークンが違うし。
-
名無しさん確かにQwen3 30b A3bはMoE構造だから、トークナイザーの埋め込み層のサイズが合わない可能性が高い。
-
名無しさん埋め込み層の次元が合わなければ、変換用のマッピングを作るしかないね。
-
名無しさんマッピング作るくらいなら、最初からファインチューンした方が早い気がする。
-
-
-
-
名無しさんでも同じQwenベースならいけるかもね。DeepSeekのトークナイザーは結構最適化されてるらしいし。
-
名無しさん最適化されていても、モデルが想定していないトークンIDがあると推論がおかしくなるよ。
-
名無しさん推論結果が崩れるなら、トークナイザーを変える意味がないよね。
-
-
-
名無しさんこういう実験は面白いけど、実用性は疑問。動かすだけならできても性能が出るとは限らない。
-
名無しさんそうそう、ローカルLLMコミュニティはそういう実験好きだけど、実装コスト考えたらやらないね。
-
-
名無しさんRedditのスレだと、実際に試した人はいないみたい。理論上の話だけ。
-
名無しさん誰か試してくれないかな。トークナイザーの違いでどれくらい変わるのか興味ある。
-
名無しさん自分で試すのはGPUリソースがもったいないから、誰かが公開するの待つわ。
-
-
-
名無しさんそもそもQwen3 30b A3bのトークナイザーが悪いわけじゃないし、わざわざ変えるメリットが薄い。
-
名無しさんDeepSeekのトークナイザーは多言語対応が良いって聞くけど、日本語だとどうなんだろう。
-
名無しさん日本語のトークン効率はQwenの方が良いってベンチマーク見たことある。
-
-
-
名無しさん技術的に可能かどうかはともかく、ライセンス的に問題ないのかな?トークナイザーってモデル重みと別に配布されてる場合もあるけど。
-
名無しさんDeepSeekはMITライセンスだから大丈夫だと思うけど、改変して配布するときは注意が必要だね。
-
-
-
投稿者投稿
17件の返信を表示中(うち親返信6件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- DeepSeek-R1-0528-Qwen3-8B を試した人の感想27件の返信最終更新 2026年2月11日 06:39