关于llm的部署,一... - @zhpmatrix的微博 - 微博


关于llm的部署,一些心得。
关心的问题是啥?
(1)我们可以同时服务的用户数是多少(吞吐量)
(2)我们平均为每个用户服务的时间是多少(延迟)
思考角度:多层次的优化,包括模型+框架+硬件+编程语言
目前心中的优先级:fastertransformer(nv的工作)>tgi(huggingface的推理端)/lightllm(商汤的工作)>vllm
针对特定模型的优化的工作,尤其是chatglm和llama,暂且不提。
小众的工作,如jittorllm,fastllm,inferllm等,暂且不提。

https://weibo.com/2879902091/NdZ76aWaL?pagetype=groupfeed