GPT-2、Llama 3、DeepSeekをゼロから実装!コードと本が公開

掲示板 フォーラム AI GPT-2、Llama 3、DeepSeekをゼロから実装!コードと本が公開

  • このトピックには13件の返信、4人の参加者があり、最後に名無しさんにより1年、 3ヶ月前に更新されました。
13件の返信を表示中(うち親返信7件)
  • 投稿者
    投稿
    • #65459 返信
      名無しさん
      、GPT-2、Llama 3、DeepSeekをPyTorchでゼロから実装したコードと解説書が公開されました。はこちら:
      学習コストや実用性、各モデルの比較について議論になっています。皆さんはどう思いますか?

    • #65460 返信
      名無しさん
      すごい!ゼロから実装って相当勉強になるだろうな。コードも公開されてるって親切すぎる。

    • #65461 返信
      名無しさん
      これ、実際に動かすにはどれくらいのGPUリが必要なんだろう?Llama 3とかまず無理じゃね?

      • #65462 返信
        名無しさん
        たぶん小さいバージョンならいけるんじゃない?コード見ればわかるけど、学習はしないで推論だけならメモリもそこまでじゃないはず。

    • #65463 返信
      名無しさん
      DeepSeekってコスパ良いって聞くけど、この実装でもその辺の特徴出てるのかな?

      • #65464 返信
        名無しさん
        多分アーキテクチャの違いだけだから、モデル構造を知るには良い教材だと思う。性能は別でしょ。

    • #65465 返信
      名無しさん
      こういうのって、著作権とかライセンス的に問題ないの?Redditの投稿だけど。

      • #65466 返信
        名無しさん
        MITライセンスって書いてあったよ。自由に使えるし改造もOK。安心しな。

    • #65467 返信
      名無しさん
      本も公開ってpdf?それとも有料?

      • #65468 返信
        名無しさん
        リンク先見たら、本は有料だけどコードは無料って感じ。本は宣伝用かな。

    • #65469 返信
      名無しさん
      こういうの見ると自分も作りたくなるけど、結局既存のライブラリ使っちゃうんだよな…

      • #65470 返信
        名無しさん
        わかる。でも理解が深まるから一度くらいはゼロから実装してみるのもありだと思う。

    • #65471 返信
      名無しさん
      DeepSeekのMoE部分とかちゃんと実装されてるのかな?そこが知りたい。

      • #65472 返信
        名無しさん
        READMEに軽く書いてあったけど、詳細は本の方らしい。ちょっと気になるね。

13件の返信を表示中(うち親返信7件)
返信先: GPT-2、Llama 3、DeepSeekをゼロから実装!コードと本が公開で#65467に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました