- このトピックには27件の返信、9人の参加者があり、最後に名無しさんにより7ヶ月、 3週前に更新されました。
27件の返信を表示中(うち親返信14件)
-
投稿者投稿
-
-
名無しさんRedditのr/LocalLLaMAで話題になっている、Chaperone-Thinking-LQ-1.0というモデルがオープン化されました。ベースはDeepSeek-R1-32Bで、4ビットGPTQ量子化とQLoRAによるファインチューニングを施し、約20GBのVRAMで動くそうです。MedQAのスコアが84%とかなり高いみたい。URL:
-
名無しさん84%はすごいね。でも医療用のベンチマークだから専門的すぎる気もする。
-
名無しさんそうだけど、汎用性能もそれなりにあるんじゃない?量子化してこの精度は珍しい。
-
-
名無しさん20GBで動くのはいいね。手持ちの3090で試せるかも。
-
名無しさんQLoRAってやっぱり効果あるんだな。ただファインチューニングのデータセットが気になる。
-
名無しさん公開されたデータセット使ってるっぽいよ。RedditのコメントによるとMedQAのトレーニングセットらしい。
-
-
名無しさんDeepSeek-R1って中国のモデルだよね?ライセンス的に大丈夫なのかな。
-
名無しさんMITライセンスで公開されてるから商用利用も可能のはず。
-
-
名無しさん4ビットってかなり落としすぎじゃない?PPLどれくらいなんだろう。
-
名無しさんでもMedQAのスコア見る限り、ちゃんと学習できてるみたい。他のベンチマークも見たいな。
-
-
名無しさんこれとLlama-3-70Bの4ビット版と比較したらどうなる?
-
名無しさんDeepSeekは推論に強いって言われてるから、思考チェーン系のタスクで差が出そう。
-
-
名無しさんVRAM20GBならMacのMチップでも動くのかな?ユニファイドメモリならなんとか?
-
名無しさんMacだとMetal経由で動くかどうか。変換が必要かも。
-
-
名無しさんHuggingFaceでモデルカード見てきたが、結構丁寧に書いてある。使いやすそう。
-
名無しさん実際にダウンロードしてみたけど、量子化済みでそのまま使える。これは楽。
-
-
名無しさんでも84%って、GPT-4とかより低いんじゃない?医療特化ならもっと上を目指せるのでは。
-
名無しさんローカルで動くモデルとして考えると十分だよ。GPT-4はAPI使うだけだし。
-
-
名無しさんOllamaで動かせるようにしてほしい。今のところ変換が面倒。
-
名無しさんGGUF版も出るんじゃない?Redditでリクエスト出てたよ。
-
-
名無しさんこのモデル、日本語はどうなんだろう。DeepSeekは日本語もそこそこできるって聞くけど。
-
名無しさん試しに日本語で質問したらそこそこ正確な答えが返ってきたよ。でもやっぱり英語の方がいいね。
-
-
名無しさん量子化モデルでこれは優秀。でもファインチューニングのコストはどれくらいかかったんだろう。
-
名無しさんRedditの投稿によると、A100を数日使ったらしい。個人では厳しいね。
-
-
名無しさんGDPRとか考えると、ローカルにモデル置けるのは安心。医療データ扱うなら特に。
-
名無しさんでも公開Wエイトをそのまま使うなら、ファインチューニングデータにも医療情報が含まれてないか要注意。
-
-
名無しさんMedQAってアメリカの医師免許試験だっけ?日本でも役立つのかな。
-
名無しさんして使えばある程度は使えるかも。でも日本の医療制度は違うから過信は禁物。
-
-
-
投稿者投稿
27件の返信を表示中(うち親返信14件)
関連するAIトピック
- NexusNetworkの学会リジェクトに関する議論26件の返信最終更新 2025年4月2日 10:10
- ML系学会の査読者、最初のスコアを下げることってどのくらいある?20件の返信最終更新 2025年4月3日 07:51
- 最近の話題について語ろう24件の返信最終更新 2025年4月2日 06:25
- 機械学習のアンラーニングとモデル編集ワークショップ(UME)について21件の返信最終更新 2025年4月1日 00:40
- ECCV 2026のリバッタル可視性問題について19件の返信最終更新 2025年4月1日 04:25