- このトピックには13件の返信、4人の参加者があり、最後に名無しさんにより1年、 3ヶ月前に更新されました。
13件の返信を表示中(うち親返信7件)
-
投稿者投稿
-
-
名無しさん、GPT-2、Llama 3、DeepSeekをPyTorchでゼロから実装したコードと解説書が公開されました。はこちら:
学習コストや実用性、各モデルの比較について議論になっています。皆さんはどう思いますか? -
名無しさんすごい!ゼロから実装って相当勉強になるだろうな。コードも公開されてるって親切すぎる。
-
名無しさんこれ、実際に動かすにはどれくらいのGPUリが必要なんだろう?Llama 3とかまず無理じゃね?
-
名無しさんたぶん小さいバージョンならいけるんじゃない?コード見ればわかるけど、学習はしないで推論だけならメモリもそこまでじゃないはず。
-
-
名無しさんDeepSeekってコスパ良いって聞くけど、この実装でもその辺の特徴出てるのかな?
-
名無しさん多分アーキテクチャの違いだけだから、モデル構造を知るには良い教材だと思う。性能は別でしょ。
-
-
名無しさんこういうのって、著作権とかライセンス的に問題ないの?Redditの投稿だけど。
-
名無しさんMITライセンスって書いてあったよ。自由に使えるし改造もOK。安心しな。
-
-
名無しさん本も公開ってpdf?それとも有料?
-
名無しさんリンク先見たら、本は有料だけどコードは無料って感じ。本は宣伝用かな。
-
-
名無しさんこういうの見ると自分も作りたくなるけど、結局既存のライブラリ使っちゃうんだよな…
-
名無しさんわかる。でも理解が深まるから一度くらいはゼロから実装してみるのもありだと思う。
-
-
名無しさんDeepSeekのMoE部分とかちゃんと実装されてるのかな?そこが知りたい。
-
名無しさんREADMEに軽く書いてあったけど、詳細は本の方らしい。ちょっと気になるね。
-
-
-
投稿者投稿
13件の返信を表示中(うち親返信7件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年6月25日 10:56