DeepSeek-V4をローカルで動かす！4枚の2080Tiで2万円台の構成

名無しさん · 2025-02-19T14:01:56+09:00

海外のReddit、DeepSeek-V4を4枚のレガシーRTX 2080 Ti（予算約2kドル）でローカル実行したという投稿が話題になっていました。カスタムTuringカーネル、W8A8量子化により、プレフィルで255 tok/sを達成したそうです。この投稿をきっかけに、ローカルLLMのコストや性能、プライバシーについて意見が交わされています。URL:

このトピックには19件の返信、6人の参加者があり、最後に名無しさんにより1年、 4ヶ月前に更新されました。

19件の返信を表示中（うち親返信10件）

投稿者

投稿
- 2025年2月19日 2:01 PM #62264 返信
  
  名無しさん
  
  海外のReddit、DeepSeek-V4を4枚のレガシーRTX 2080 Ti（予算約2kドル）でローカル実行したという投稿が話題になっていました。カスタムTuringカーネル、W8A8量子化により、プレフィルで255 tok/sを達成したそうです。この投稿をきっかけに、ローカルLLMのコストや性能、プライバシーについて意見が交わされています。URL:
- 2025年2月19日 2:03 PM #62265 返信
  
  名無しさん
  
  すごいな、2080Ti4枚でそんな性能が出るのか。電力消費はどうなんだろう？
  - 2025年2月19日 2:10 PM #62267 返信
    
    名無しさん
    
    2080TiのTDPは250Wだから4枚で1000W、電気代が半端ないな。
- 2025年2月19日 2:06 PM #62266 返信
  
  名無しさん
  
  プレフィル255 tok/sってのは凄いけど、実際の生成速度はどれくらいなんだろ？
- 2025年2月19日 2:17 PM #62268 返信
  
  名無しさん
  
  カスタムTuringカーネルって何？普通の2080Tiでも動くの？
  - 2025年2月19日 2:19 PM #62269 返信
    
    名無しさん
    
    どうやらCUDAカーネルをチューニングしてるみたい。OSSで公開されてるのかな。
- 2025年2月19日 2:23 PM #62270 返信
  
  名無しさん
  
  W8A8量子化ってのはINT8で重みとアクティベーション両方やるやつだね。精度落ちが気になる。
- 2025年2月19日 2:29 PM #62271 返信
  
  名無しさん
  
  この予算なら中古の2080Ti4枚で2kドルってとこか。日本円で30万くらい？
  - 2025年2月19日 2:38 PM #62272 返信
    
    名無しさん
    
    中古市場で1枚3万くらいだから4枚で12万、ケースや電源込みで20万くらいで組めるかも。
- 2025年2月19日 2:39 PM #62273 返信
  
  名無しさん
  
  DeepSeek-V4はパラメータ数いくつだっけ？671B？そんなの2080Tiで動くの？
  - 2025年2月19日 2:42 PM #62274 返信
    
    名無しさん
    
    量子化と分散推論でなんとかなってるんだろう。メモリは合計44GBだからぎりぎりか。
- 2025年2月19日 2:46 PM #62275 返信
  
  名無しさん
  
  やっぱりローカルで動かしたいよね。API使うとプライバシーが心配だし。
  - 2025年2月19日 2:52 PM #62276 返信
    
    名無しさん
    
    でもDeepSeekのAPI結構安いから、わざわざ2080Ti4枚用意するよりトークン単位で払ったほうがトータルコスト安い気がする。
    - 2025年2月19日 3:04 PM #62277 返信
      
      名無しさん
      
      初期投資で済むかランニングコストかだね。電気代も馬鹿にならない。
- 2025年2月19日 3:06 PM #62278 返信
  
  名無しさん
  
  Turing世代の2080TiってNVLink使えるんだっけ？メモリ統合できるなら面白い。
  - 2025年2月19日 3:09 PM #62279 返信
    
    名無しさん
    
    NVLink対応してるけど、2080Tiは2-wayまでしかサポートしてないから4枚だと通常のPCIe接続になる。帯域がネックかも。
- 2025年2月19日 3:13 PM #62280 返信
  
  名無しさん
  
  カスタムカーネルって部分が気になる。どんな最適化してるんだろう。
  - 2025年2月19日 3:21 PM #62281 返信
    
    名無しさん
    
    多分エキスパート分散とかTuringのテンソルコア活用してるんじゃないかな。でも2080Tiのテンソルコアは遅いって話もある。
- 2025年2月19日 3:23 PM #62282 返信
  
  名無しさん
  
  これって本当に実用的？実際にコード書かせたりするのに使えるレベル？
  - 2025年2月19日 3:27 PM #62283 返信
    
    名無しさん
    
    Redditの投稿ではコーディングに使えたって書いてあったけど、精度はFP16より落ちるから注意が必要かも。
投稿者

投稿

19件の返信を表示中（うち親返信10件）

返信先: DeepSeek-V4をローカルで動かす！4枚の2080Tiで2万円台の構成

あなたの情報:

お名前 (必須)

メール (非公開) (必須):

ウェブサイト:

関連するAIトピック