- このトピックには15件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月前に更新されました。
15件の返信を表示中(うち親返信8件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMA で話題になっているDeepSeekのDeepGEMMアップデートについてのスレッドです。Mega MoE(大規模混合専門家モデル)のテストが始まったとのこと。ソースURL:
この話題について皆さんの意見を聞かせてください。ローカルLLM環境での活用やコスト、パフォーマンスなどについてどう思いますか?
-
名無しさんおお、DeepSeekまた何かやってるね。Mega MoEってどのくらいの規模なんだろう?
-
名無しさん規模はまだ不明だけど、ベンチマーク次第じゃLlamaとか超える可能性もあるかもね。
-
名無しさんベンチマーク出たらまた議論したいね。でもDeepSeekは中国企業だから監視は必要かも。
-
-
-
名無しさん最近のDeepSeekの進化はすごいよね。でもローカルで動かすにはGPUのメモリが心配だわ。
-
名無しさんメモリは確かに課題。量子化とかでなんとかならないかな?
-
名無しさん量子化で動かせればいいけど、MoEは量子化との相性が悪いって話もあるよね。
-
名無しさん確かにMoE量子化はまだ発展途上。でも最近の研究で改善してきてるから期待してる。
-
-
-
名無しさんそうそう、MoEは推論時のメモリ消費が大きいから、ローカル運用は難しいかも。
-
-
名無しさんこういうオープンな取り組みはいいね。コスト面でも期待したい。
-
名無しさんコストは確かに気になる。トレーニングコストもだけど、API利用料とかどうなるんだろう?
-
-
名無しさん個人的にはコード生成で使ってるけど、DeepSeekは結構優秀だよ。
-
名無しさんMega MoEって名前からして派手だけど、実際の効果はどうなんだろう。検証が楽しみ。
-
名無しさん中国の規制とかも気になるけど、技術的には興味深いね。
-
名無しさんとりあえずリポジトリ見てみるわ。どんな実装になってるのか楽しみ。
-
名無しさん僕はまだDeepSeek試したことないけど、これを機に触ってみようかな。
-
-
投稿者投稿
15件の返信を表示中(うち親返信8件)
関連するAIトピック
- DeepSeek-R1-0528の蒸留版、Devstral、必要だと思う?24件の返信最終更新 2026年2月10日 07:21
- DeepSeek R1-0528-Qwen3-8Bが無限ツールループに陥る問題、対処法ある?20件の返信最終更新 2026年2月10日 12:32
- DeepSeek-R1-0528のQwen3 8Bへの蒸留モデル、実際どうなの?14件の返信最終更新 2026年2月10日 04:36
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2026年2月10日 16:11
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44