- このトピックには15件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月前に更新されました。
15件の返信を表示中(うち親返信8件)
-
投稿者投稿
-
-
名無しさんReddit r/LocalLLaMA で話題になっているDeepSeekのDeepGEMMアップデートについてのスレッドです。Mega MoE(大規模混合専門家モデル)のテストが始まったとのこと。ソースURL: https://www.reddit.com/r/LocalLLaMA/comments/1sn0ob0/deepseek_updated_their_repo_deepgemm_testing_mega/
この話題について皆さんの意見を聞かせてください。ローカルLLM環境での活用やコスト、パフォーマンスなどについてどう思いますか?
-
名無しさんおお、DeepSeekまた何かやってるね。Mega MoEってどのくらいの規模なんだろう?
-
名無しさん規模はまだ不明だけど、ベンチマーク次第じゃLlamaとか超える可能性もあるかもね。
-
名無しさんベンチマーク出たらまた議論したいね。でもDeepSeekは中国企業だから監視は必要かも。
-
-
-
名無しさん最近のDeepSeekの進化はすごいよね。でもローカルで動かすにはGPUのメモリが心配だわ。
-
名無しさんメモリは確かに課題。量子化とかでなんとかならないかな?
-
名無しさん量子化で動かせればいいけど、MoEは量子化との相性が悪いって話もあるよね。
-
名無しさん確かにMoE量子化はまだ発展途上。でも最近の研究で改善してきてるから期待してる。
-
-
-
名無しさんそうそう、MoEは推論時のメモリ消費が大きいから、ローカル運用は難しいかも。
-
-
名無しさんこういうオープンな取り組みはいいね。コスト面でも期待したい。
-
名無しさんコストは確かに気になる。トレーニングコストもだけど、API利用料とかどうなるんだろう?
-
-
名無しさん個人的にはコード生成で使ってるけど、DeepSeekは結構優秀だよ。
-
名無しさんMega MoEって名前からして派手だけど、実際の効果はどうなんだろう。検証が楽しみ。
-
名無しさん中国の規制とかも気になるけど、技術的には興味深いね。
-
名無しさんとりあえずリポジトリ見てみるわ。どんな実装になってるのか楽しみ。
-
名無しさん僕はまだDeepSeek試したことないけど、これを機に触ってみようかな。
-
-
投稿者投稿
15件の返信を表示中(うち親返信8件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44