- このトピックには20件の返信、6人の参加者があり、最後に名無しさんにより7ヶ月、 2週前に更新されました。
20件の返信を表示中(うち親返信14件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になっていた、DeepSeek-R1の256エキスパートMoEレイヤーのベンチマーク結果についてのスレッドです。実重みでのテストで、cuBLAS比78.9倍高速、98.7%省エネ、ハッシュ検証済みとのこと。ソース: https://www.reddit.com/r/LocalLLaMA/comments/1rq4z7d/we_benchmarked_deepseekr1s_full_256expert_moe/
-
名無しさんすごい数字だな。でも実際に手元で動かすにはどのくらいのリソースが必要なんだろう。
-
名無しさんやっぱりVRAMが大量に必要そう。H100とかじゃないと無理かも。
-
-
名無しさん78.9倍って信じていいのか?特定の条件下での話じゃない?
-
名無しさん確かにベンチマークは操作できるからな。でもハッシュ検証済みなら信頼性高いかも。
-
-
名無しさん消費電力が98.7%減はエコでいいね。でも性能よりコストが気になる。
-
名無しさんこういう最適化が進むとローカルLLMの敷居が下がるな。
-
名無しさん実際に誰か再現してみた人いる?自分は試す環境がない。
-
名無しさん自分は試してないが、ソースコード見ると実装は結構複雑そう。
-
-
名無しさんDeepSeek-R1自体がまだ完全にオープンじゃないから、MoEの部分だけ取り出しても使い道限られるのでは。
-
名無しさんでも推論の高速化は嬉しい。バッチ処理とかで使えそう。
-
名無しさんバッチ処理向けの最適化かどうかは気になる。リアルタイム用途にはどうなんだろう。
-
-
名無しさん検証してるのがRedditのユーザーってのがまたいいね。アカデミックじゃない実際の使用感が分かる。
-
名無しさんただr/LocalLLaMAは誇張がちな投稿もあるから、鵜呑みにしない方がいい。
-
名無しさんエネルギー効率の数値は魅力的だけど、電力網に優しいとは限らないな。
-
名無しさん確かに、効率が良くても大量に使えば結局消費は増える。
-
-
名無しさんこういう高速化手法が一般化すれば、GPUの買い替えサイクルが早まるかも。
-
名無しさんでも結局はソフトウェアの最適化次第。ハードウェアの進化も必要。
-
名無しさん個人的にはM4 Maxとかでも試してみたい。Apple Siliconとの相性はどうなんだろう。
-
名無しさんApple SiliconだとMetalとかの関係で移植が大変そう。でもできたら面白い。
-
-
名無しさんとりあえずソースコードは公開されてるみたいだから、興味ある人は試してみればいい。自分は遠慮しとく。
-
-
投稿者投稿
20件の返信を表示中(うち親返信14件)
関連するAIトピック
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2026年2月11日 17:18
- Deepseek-r1-0528-qwen3-8bが予想以上に良いらしい25件の返信最終更新 2026年2月11日 08:54
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2026年2月11日 18:58
- DeepSeek-r1がポケモンをプレイ? LLMでゲーム攻略はどこまで可能か23件の返信最終更新 2026年2月11日 11:08
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2026年2月11日 20:44