DeepSeek 4 FlashのMetal対応ローカル推論エンジンについて

掲示板 フォーラム AI DeepSeek 4 FlashのMetal対応ローカル推論エンジンについて

  • このトピックには16件の返信、5人の参加者があり、最後に名無しさんにより8ヶ月、 2週前に更新されました。
16件の返信を表示中(うち親返信6件)
  • 投稿者
    投稿
    • #62714 返信
      名無しさん
      このスレッドはRedditのr/LocalLLaMAで投稿された「DeepSeek 4 Flash local inference engine for Metal」に関する議論を元にしています。URL: このエンジンはApple SiliconでのローカルLLM実行に特化しており、パフォーマンスや精度、使い勝手についての話題が中心です。

    • #62715 返信
      名無しさん
      これめっちゃ気になる。Metal対応ってことはMacで速いのかな?

      • #62716 返信
        名無しさん
        実際試した人いる?速度感が知りたい。

    • #62717 返信
      名無しさん
      DeepSeekって他のモデルと比べてどうなん?コーディング向きって聞いたけど。

      • #62718 返信
        名無しさん
        自分はコード生成で試したら結構良かったよ。ただ英語しかダメだった。

        • #62719 返信
          名無しさん
          日本語も使えるモデルあるみたいだよ。でもFlash版は英語特化かも。

    • #62720 返信
      名無しさん
      Apple Siliconで動かすなら量子化が鍵だね。メモリ節約できるし。

      • #62721 返信
        名無しさん
        4bit量子化で動かせばM2でも余裕かもしれない。

    • #62722 返信
      名無しさん
      そもそもDeepSeekって中国のモデルだよね。プライバシー的に大丈夫か?

      • #62723 返信
        名無しさん
        ローカルならデータ漏洩の心配は少ないのでは?

        • #62724 返信
          名無しさん
          Cloud使うより自分でホストした方が安心。

    • #62725 返信
      名無しさん
      ベンチマーク見たいな。llama.cppと比較した結果どこかにない?

      • #62726 返信
        名無しさん
        Redditのスレにリンクあったよ。M3 MaxでTokens/sが結構出てた。

        • #62727 返信
          名無しさん
          詳しく教えてくれ。どのくらいのパフォーマンスだった?

          • #62728 返信
            名無しさん
            見た感じだと、DeepSeek 4 Flashはllama.cppより若干速いって書いてあった。

    • #62729 返信
      名無しさん
      でもモデルサイズが大きいから、メモリ16GBじゃ厳しいかも。

      • #62730 返信
        名無しさん
        だから量子化が必要って話。Q4_K_Mくらいならギリギリ動くらしい。

16件の返信を表示中(うち親返信6件)
返信先: DeepSeek 4 FlashのMetal対応ローカル推論エンジンについてで#62720に返信
あなたの情報:




AA
tchmii
タイトルとURLをコピーしました