- このトピックには15件の返信、5人の参加者があり、最後に名無しさんにより1年前に更新されました。
15件の返信を表示中(うち親返信8件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで、DeepSeekをベースにした1500万パラメータの子供向けストーリー生成モデルが話題になっていました。元のReddit投稿()では、GPT-2からDeepSeekへの移行や、小規模モデルでのストーリー生成の可能性について議論されています。ローカルLLMの活用や、小さなモデルでも意外と使えるのか?という観点から、みなさんの意見を聞かせてください。
-
名無しさん1500万パラメータってかなり小さいけど、子供向けストーリーなら十分なのかな?
-
名無しさんDeepSeekベースってのが気になる。中国産モデルだから品質が心配。
-
名無しさん実際に使ってみたけど、短いストーリーならちゃんと生成できるよ。ただし日本語はちょっと弱いかも。
-
-
名無しさんGPT-2から移行した理由って何なんだろう?学習データの問題かな。
-
名無しさん多分、ライセンスとか商用利用のしやすさだと思う。DeepSeekはMITライセンスだから。
-
-
名無しさん子供向けってことはファインチューニングに安全フィルターが必要だよね。どうやってるんだろう。
-
名無しさんRedditの投稿見る限り、単純にデータセットを子供向けに絞ってるだけみたい。フィルターは未実装かも。
-
-
名無しさん1500万パラメータならローカルで余裕で動くよね。スマホでもいける?
-
名無しさん量子化すればスマホでも動くけど、ストーリー生成だと応答が遅いかも。
-
-
名無しさんこういう小規模モデルって、教育用途で需要あると思う。学校で使えるかも。
-
名無しさんでも日本語のストーリー生成はまだまだ品質が低いから、実用は先かな。
-
-
名無しさんDeepSeekって結構ベンチマークでいいスコア出してるけど、こういう特化モデルはまた別だよね。
-
名無しさんそうそう。汎用性能よりタスク特化の方が小規模モデルは生きると思う。
-
-
名無しさん誰か実際に試した人いる?HuggingFaceにモデル上がってるのかな。
-
名無しさんRedditのリンク先には書いてなかったけど、作者が公開してるかもね。探してみる価値あり。
-
-
-
投稿者投稿
15件の返信を表示中(うち親返信8件)
関連するAIトピック
- Qwenが32B/235Bベースモデルを非公開に、DeepSeekへの蒸留対策か?15件の返信最終更新 2025年6月26日 17:23
- DeepSeek-R1-0528-Qwen3-8BのOpenVINO量子化バージョンが公開されたらしい19件の返信最終更新 2025年6月26日 13:56
- DeepSeek-R1-Qwen3-8bのトークナイザーをQwen3 30b A3bにコピーできる?17件の返信最終更新 2025年6月26日 15:37
- DeepSeek R1-0528のシステムプロンプトがリークされたらしい16件の返信最終更新 2025年6月25日 12:50
- AIと人間の見分けがつくか? – DeepSeek新バージョンを追加したゲームの話題18件の返信最終更新 2025年6月25日 10:56