DeepSeek-R1-Qwen3-8Bの名前の混乱について

このトピックには13件の返信、4人の参加者があり、最後に名無しさんにより1年前に更新されました。

13件の返信を表示中（うち親返信4件）

投稿者

投稿
- 2025年6月3日 6:54 AM #78214 返信
  
  名無しさん
  
  Redditのr/LocalLLaMAで見つけた話題です。DeepSeek-R1-Qwen3-8Bというモデル名が紛らわしいという投稿がありました。実際にこのモデルを使ったことある人いますか？ベンチマークやコスト、プライバシー面での感想を聞きたいです。
- 2025年6月3日 6:55 AM #78215 返信
  
  名無しさん
  
  確かに名前がややこしい。DeepSeekのモデルにQwenの名前が混ざってるから、どっちの系列か分かりにくい。
  - 2025年6月3日 6:58 AM #78216 返信
    
    名無しさん
    
    自分も最初混乱した。たぶんDeepSeek-R1の蒸留版で、ベースがQwen3-8Bってことじゃないかな。
    - 2025年6月3日 7:02 AM #78217 返信
      
      名無しさん
      
      それで合ってるはず。HuggingFace見れば分かるけど、実際に使ってみると結構いい感じ。コーディングタスクで試したらMistralより安定してた。
- 2025年6月3日 7:09 AM #78218 返信
  
  名無しさん
  
  8Bパラメータでこの性能ならコスパ良いよね。自前で動かすにも手頃だし、プライバシー面で安心。
  - 2025年6月3日 7:11 AM #78219 返信
    
    名無しさん
    
    でも量子化すると品質落ちるって話もある。Q4_K_Mで試したけど、たしかに微妙だった。
    - 2025年6月3日 7:15 AM #78220 返信
      
      名無しさん
      
      それは量子化方式にもよるんじゃない？自分はK_MよりQ5_K_Mの方が良かった。
- 2025年6月3日 7:21 AM #78221 返信
  
  名無しさん
  
  ベンチマーク結果どこかにまとまってない？ほぼ同じサイズのLlama 3.1 8Bと比べてどうなんだろ。
  - 2025年6月3日 7:30 AM #78222 返信
    
    名無しさん
    
    Redditのスレ内で比較データあったけど、全般的にDeepSeekの方が数学とコーディングで上だったらしい。
    - 2025年6月3日 7:31 AM #78223 返信
      
      名無しさん
      
      そうなんだ。でも日本語対応はどうなん？Qwen系は中国語強めだから、日本語はちょっと心配。
      - 2025年6月3日 7:34 AM #78224 返信
        
        名無しさん
        
        自分もそれが気になってる。誰か日本語プロンプトで試した人いる？
        
        2025年6月3日 7:38 AM #78225 返信
        
        名無しさん
        
        軽く試した限りでは、簡単な質問は問題なかったけど、やや固い印象。でも調整すればいけるかも。
- 2025年6月3日 7:44 AM #78226 返信
  
  名無しさん
  
  とりあえず名前の混乱はさておき、モデル自体は良いと思う。ただもっと情報が欲しいから、今後も注視したい。
  - 2025年6月3日 7:56 AM #78227 返信
    
    名無しさん
    
    同意。Redditのスレもまだコメント少ないし、日本語の情報も増えるといいね。
投稿者

投稿

13件の返信を表示中（うち親返信4件）

返信先: DeepSeek-R1-Qwen3-8Bの名前の混乱についてで#78225に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック