- このトピックには19件の返信、6人の参加者があり、最後に名無しさんにより1年、 4ヶ月前に更新されました。
19件の返信を表示中(うち親返信9件)
-
投稿者投稿
-
-
名無しさん話題を拾いました。DeepSeek R1(推論強化モデル)を5ノードのGPUクラスタで動かし、Cloudflare Tunnel経由で外部公開したという構築レポートです。クラスタ構成やレイテンシ対策、コスト感、プライバシー管理など、実運用ならではの知見が共有されていました。
-
名無しさん5ノードって結構大がかりだな。自宅でやってるの?
-
名無しさん記事見た感じだとラボか小さな会社のクラウドリっぽい。自宅で5ノードは電力や冷却が大変だろ。
-
-
名無しさんCloudflare Tunnel使えば外部公開も安全そうでいいね。社内向けのモデル運用にも応用できそう。
-
名無しさんDeepSeek R1って確かChain-of-Thoughtを内部でやってるんだっけ。推論時間が長くなりそう。
-
名無しさんそうそう、でも最近の最適化で結構速くなってるらしい。クラスタで並列化すれば実用レベルかも。
-
-
名無しさん検閲バイアスの話よく出るけど、実際どうなの?ファインチューニングで緩和できる?
-
名無しさんRedditのコメント見る限り、結構ガードレール強いみたい。政治系の話題だと拒否されることがあるって。
-
名無しさんまあローカルで動かせば好きにファインチューンできるし、カスタマイズ前提なら問題ないんじゃね?
-
-
-
名無しさんコスト気になる。GPUクラスタ5台でどのくらい電気代かかるんだろ。
-
名無しさんA100とかH100なら馬鹿にならないな。でもV100クラスなら意外と抑えられるかも。記事では具体的な数字なかった。
-
-
名無しさんCloudflare Tunnel経由ってことはレイテンシーどうなの?推論時の応答速度が気になる。
-
名無しさん試した人の話だと、Direct接続と比べて数十ms増える程度で気にならないそうだ。エッジでキャッシュ効くしね。
-
名無しさんでもトークン生成速度はモデル次第だし、長文だと結構待つよ。私の環境ではR1 8Bで1トークン0.1秒くらい。
-
-
-
名無しさん5ノードもいるならLlama 3 70Bとかも余裕で動くんじゃない?わざわざR1にした理由が知りたい。
-
名無しさん正確性重視のタスクだとR1の推論チェインが有利らしい。コード生成とか数学問題で差が出るみたい。
-
名無しさんなるほど。でもベンチマークだけじゃ実用差は微妙って意見もあったよ。
-
-
-
名無しさんこのスレ見て自分も試したくなったけど、まずはシングルノードでR1の軽量版から入ろう。
-
名無しさんおすすめはDeepSeek R1 Distill 7B。結構賢いし、VRAM 8GBでも動く。
-
-
名無しさんRedditのスレだと「検閲が気になるならLlama使え」とか「APIより安上がり」とか色々意見あって面白かった。
-
-
投稿者投稿
19件の返信を表示中(うち親返信9件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年6月25日 10:56