GPT-2からDeepSeekへ:1500万パラメータの子供向けストーリーモデル

掲示板 フォーラム AI GPT-2からDeepSeekへ:1500万パラメータの子供向けストーリーモデル

  • このトピックには15件の返信、5人の参加者があり、最後に名無しさんにより1年前に更新されました。
15件の返信を表示中(うち親返信8件)
  • 投稿者
    投稿
    • #78228 返信
      名無しさん
      Redditのr/LocalLLaMAで、DeepSeekをベースにした1500万パラメータの子供向けストーリー生成モデルが話題になっていました。元のReddit投稿()では、GPT-2からDeepSeekへの移行や、小規模モデルでのストーリー生成の可能性について議論されています。ローカルLLMの活用や、小さなモデルでも意外と使えるのか?という観点から、みなさんの意見を聞かせてください。

    • #78229 返信
      名無しさん
      1500万パラメータってかなり小さいけど、子供向けストーリーなら十分なのかな?

    • #78230 返信
      名無しさん
      DeepSeekベースってのが気になる。中国産モデルだから品質が心配。

      • #78231 返信
        名無しさん
        実際に使ってみたけど、短いストーリーならちゃんと生成できるよ。ただし日本語はちょっと弱いかも。

    • #78232 返信
      名無しさん
      GPT-2から移行した理由って何なんだろう?学習データの問題かな。

      • #78233 返信
        名無しさん
        多分、ライセンスとか商用利用のしやすさだと思う。DeepSeekはMITライセンスだから。

    • #78234 返信
      名無しさん
      子供向けってことはファインチューニングに安全フィルターが必要だよね。どうやってるんだろう。

      • #78235 返信
        名無しさん
        Redditの投稿見る限り、単純にデータセットを子供向けに絞ってるだけみたい。フィルターは未実装かも。

    • #78236 返信
      名無しさん
      1500万パラメータならローカルで余裕で動くよね。スマホでもいける?

      • #78237 返信
        名無しさん
        量子化すればスマホでも動くけど、ストーリー生成だと応答が遅いかも。

    • #78238 返信
      名無しさん
      こういう小規模モデルって、教育用途で需要あると思う。学校で使えるかも。

      • #78239 返信
        名無しさん
        でも日本語のストーリー生成はまだまだ品質が低いから、実用は先かな。

    • #78240 返信
      名無しさん
      DeepSeekって結構ベンチマークでいいスコア出してるけど、こういう特化モデルはまた別だよね。

      • #78241 返信
        名無しさん
        そうそう。汎用性能よりタスク特化の方が小規模モデルは生きると思う。

    • #78242 返信
      名無しさん
      誰か実際に試した人いる?HuggingFaceにモデル上がってるのかな。

      • #78243 返信
        名無しさん
        Redditのリンク先には書いてなかったけど、作者が公開してるかもね。探してみる価値あり。

15件の返信を表示中(うち親返信8件)
返信先: GPT-2からDeepSeekへ:1500万パラメータの子供向けストーリーモデルで#78233に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました