deepseek-r1-0528-qwen3-8b (コンテキスト4096) 基本的な操作すらできないんだが、何か間違ってる？

名無しさん · 2025-11-13T06:01:54+09:00

DeepSeek R1 0528 Qwen3 8Bモデル、コンテキスト4096で基本的な計算もまともにできないって話。Redditで議論になってる。設定ミスかモデルの問題か。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rnz1te/deepseekdeepseekr10528qwen38b_context_4096_cant/

このトピックには18件の返信、6人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。

18件の返信を表示中（うち親返信9件）

投稿者

投稿
- 2025年11月13日 6:01 AM #67894 返信
  
  名無しさん
  
  DeepSeek R1 0528 Qwen3 8Bモデル、コンテキスト4096で基本的な計算もまともにできないって話。Redditで議論になってる。設定ミスかモデルの問題か。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rnz1te/deepseekdeepseekr10528qwen38b_context_4096_cant/
- 2025年11月13日 6:03 AM #67895 返信
  
  名無しさん
  
  俺も同じモデル試したけど、確かに簡単な足し算すら間違える。量子化の問題か？
  - 2025年11月13日 6:10 AM #67897 返信
    
    名無しさん
    
    量子化ならQ4_K_Mくらいで試してみ。俺はそれでまともに動いてる。
  - 2025年11月13日 6:23 AM #67900 返信
    
    名無しさん
    
    設定ミスって可能性もある。promptの書き方次第で変わるよ。
- 2025年11月13日 6:06 AM #67896 返信
  
  名無しさん
  
  コンテキスト4096って短すぎない？少なくとも8192は欲しい。
  - 2025年11月13日 6:19 AM #67899 返信
    
    名無しさん
    
    コンテキスト長ってモデル自体の性能に関係あるの？
- 2025年11月13日 6:17 AM #67898 返信
  
  名無しさん
  
  QWEN3は8Bでも小さいから、精度期待する方が無理。もっと大きいモデル使え。
- 2025年11月13日 6:29 AM #67901 返信
  
  名無しさん
  
  DeepSeek R1って中国製だろ？データ汚染されてるんじゃね？
  - 2025年11月13日 6:38 AM #67902 返信
    
    名無しさん
    
    関係ない。技術的な問題を語ろう。
- 2025年11月13日 6:39 AM #67903 返信
  
  名無しさん
  
  うちの環境（RTX3060 12GB）では普通に動く。ただし応答速度は遅い。
  - 2025年11月13日 6:42 AM #67904 返信
    
    名無しさん
    
    どのバックエンド使ってる？ llama.cpp？ Ollama？
    - 2025年11月13日 6:46 AM #67905 返信
      
      名無しさん
      
      llama.cppでCUDA有効。あとプロンプトに「深呼吸して」って付けると精度上がるらしい。
- 2025年11月13日 6:52 AM #67906 返信
  
  名無しさん
  
  これローカルで使う価値ある？もうAPIでいいじゃん。
- 2025年11月13日 7:04 AM #67907 返信
  
  名無しさん
  
  プライバシー重視ならローカル一択。でもこのモデルは正直微妙。
  - 2025年11月13日 7:06 AM #67908 返信
    
    名無しさん
    
    そうか？俺はコード生成で使ってるけどそこそこ使える。
- 2025年11月13日 7:08 AM #67909 返信
  
  名無しさん
  
  ベンチマーク見ると確かに算数は弱い。でも推論タスクなら結構良い。
  - 2025年11月13日 7:13 AM #67910 返信
    
    名無しさん
    
    じゃあ用途によるってことか。無理に計算させるなって話。
- 2025年11月13日 7:21 AM #67911 返信
  
  名無しさん
  
  とりあえずllama.cppの最新版にアップデートしたら直ったよ。
  - 2025年11月13日 7:23 AM #67912 返信
    
    名無しさん
    
    それだ。バージョン古いとバグる。
投稿者

投稿

18件の返信を表示中（うち親返信9件）

返信先: deepseek-r1-0528-qwen3-8b (コンテキスト4096) 基本的な操作すらできないんだが、何か間違ってる？で#67895に返信

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

キャンセル

関連するAIトピック