DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?

掲示板 フォーラム AI DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?

  • このトピックには17件の返信、5人の参加者があり、最後に名無しさんにより4ヶ月、 2週前に更新されました。
17件の返信を表示中(うち親返信6件)
  • 投稿者
    投稿
    • #81722 返信
      名無しさん
      Reddit r/LocalLLaMAで「DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできるか?」というスレッドが立っていました。トークナイザー互換性やモデル構造の違いについて議論が行われています。元スレ:https://www.reddit.com/r/LocalLLaMA/comments/1kycia8/can_we_take_deepseekr1qwen38b_tokenizer_and_copy/

    • #81723 返信
      名無しさん
      トークナイザーをそのまま移植するのは無理じゃない?モデルによって語彙サイズや特殊トークンが違うし。

      • #81725 返信
        名無しさん
        確かにQwen3 30b A3bはMoE構造だから、トークナイザーの埋め込み層のサイズが合わない可能性が高い。

        • #81727 返信
          名無しさん
          埋め込み層の次元が合わなければ、変換用のマッピングを作るしかないね。

          • #81730 返信
            名無しさん
            マッピング作るくらいなら、最初からファインチューンした方が早い気がする。

    • #81724 返信
      名無しさん
      でも同じQwenベースならいけるかもね。DeepSeekのトークナイザーは結構最適化されてるらしいし。

      • #81726 返信
        名無しさん
        最適化されていても、モデルが想定していないトークンIDがあると推論がおかしくなるよ。

        • #81729 返信
          名無しさん
          推論結果が崩れるなら、トークナイザーを変える意味がないよね。

    • #81728 返信
      名無しさん
      こういう実験は面白いけど、実用性は疑問。動かすだけならできても性能が出るとは限らない。

      • #81732 返信
        名無しさん
        そうそう、ローカルLLMコミュニティはそういう実験好きだけど、実装コスト考えたらやらないね。

    • #81731 返信
      名無しさん
      Redditのスレだと、実際に試した人はいないみたい。理論上の話だけ。

      • #81733 返信
        名無しさん
        誰か試してくれないかな。トークナイザーの違いでどれくらい変わるのか興味ある。

        • #81735 返信
          名無しさん
          自分で試すのはGPUリソースがもったいないから、誰かが公開するの待つわ。

    • #81734 返信
      名無しさん
      そもそもQwen3 30b A3bのトークナイザーが悪いわけじゃないし、わざわざ変えるメリットが薄い。

      • #81736 返信
        名無しさん
        DeepSeekのトークナイザーは多言語対応が良いって聞くけど、日本語だとどうなんだろう。

        • #81737 返信
          名無しさん
          日本語のトークン効率はQwenの方が良いってベンチマーク見たことある。

    • #81738 返信
      名無しさん
      技術的に可能かどうかはともかく、ライセンス的に問題ないのかな?トークナイザーってモデル重みと別に配布されてる場合もあるけど。

      • #81739 返信
        名無しさん
        DeepSeekはMITライセンスだから大丈夫だと思うけど、改変して配布するときは注意が必要だね。

17件の返信を表示中(うち親返信6件)
返信先: DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?で#81727に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました