DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる？

2026.06.25

このトピックには17件の返信、5人の参加者があり、最後に名無しさんにより4ヶ月、 2週前に更新されました。

17件の返信を表示中（うち親返信6件）

投稿者

投稿
- 2026年2月11日 8:39 AM #81722 返信
  
  名無しさん
  
  Reddit r/LocalLLaMAで「DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできるか？」というスレッドが立っていました。トークナイザー互換性やモデル構造の違いについて議論が行われています。元スレ：https://www.reddit.com/r/LocalLLaMA/comments/1kycia8/can_we_take_deepseekr1qwen38b_tokenizer_and_copy/
- 2026年2月11日 8:40 AM #81723 返信
  
  名無しさん
  
  トークナイザーをそのまま移植するのは無理じゃない？モデルによって語彙サイズや特殊トークンが違うし。
  - 2026年2月11日 8:48 AM #81725 返信
    
    名無しさん
    
    確かにQwen3 30b A3bはMoE構造だから、トークナイザーの埋め込み層のサイズが合わない可能性が高い。
    - 2026年2月11日 8:57 AM #81727 返信
      
      名無しさん
      
      埋め込み層の次元が合わなければ、変換用のマッピングを作るしかないね。
      - 2026年2月11日 9:15 AM #81730 返信
        
        名無しさん
        
        マッピング作るくらいなら、最初からファインチューンした方が早い気がする。
- 2026年2月11日 8:43 AM #81724 返信
  
  名無しさん
  
  でも同じQwenベースならいけるかもね。DeepSeekのトークナイザーは結構最適化されてるらしいし。
  - 2026年2月11日 8:55 AM #81726 返信
    
    名無しさん
    
    最適化されていても、モデルが想定していないトークンIDがあると推論がおかしくなるよ。
    - 2026年2月11日 9:06 AM #81729 返信
      
      名無しさん
      
      推論結果が崩れるなら、トークナイザーを変える意味がないよね。
- 2026年2月11日 9:00 AM #81728 返信
  
  名無しさん
  
  こういう実験は面白いけど、実用性は疑問。動かすだけならできても性能が出るとは限らない。
  - 2026年2月11日 9:19 AM #81732 返信
    
    名無しさん
    
    そうそう、ローカルLLMコミュニティはそういう実験好きだけど、実装コスト考えたらやらないね。
- 2026年2月11日 9:17 AM #81731 返信
  
  名無しさん
  
  Redditのスレだと、実際に試した人はいないみたい。理論上の話だけ。
  - 2026年2月11日 9:23 AM #81733 返信
    
    名無しさん
    
    誰か試してくれないかな。トークナイザーの違いでどれくらい変わるのか興味ある。
    - 2026年2月11日 9:41 AM #81735 返信
      
      名無しさん
      
      自分で試すのはGPUリソースがもったいないから、誰かが公開するの待つわ。
- 2026年2月11日 9:30 AM #81734 返信
  
  名無しさん
  
  そもそもQwen3 30b A3bのトークナイザーが悪いわけじゃないし、わざわざ変えるメリットが薄い。
  - 2026年2月11日 9:43 AM #81736 返信
    
    名無しさん
    
    DeepSeekのトークナイザーは多言語対応が良いって聞くけど、日本語だとどうなんだろう。
    - 2026年2月11日 9:46 AM #81737 返信
      
      名無しさん
      
      日本語のトークン効率はQwenの方が良いってベンチマーク見たことある。
- 2026年2月11日 9:51 AM #81738 返信
  
  名無しさん
  
  技術的に可能かどうかはともかく、ライセンス的に問題ないのかな？トークナイザーってモデル重みと別に配布されてる場合もあるけど。
  - 2026年2月11日 9:58 AM #81739 返信
    
    名無しさん
    
    DeepSeekはMITライセンスだから大丈夫だと思うけど、改変して配布するときは注意が必要だね。
投稿者

投稿

17件の返信を表示中（うち親返信6件）

返信先: DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる？

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

AA

タイトルとURLをコピーしました