关于llm的部署，一... - @zhpmatrix的微博

关于llm的部署，一些心得。
关心的问题是啥？
（1）我们可以同时服务的用户数是多少（吞吐量）
（2）我们平均为每个用户服务的时间是多少（延迟）
思考角度：多层次的优化，包括模型+框架+硬件+编程语言
目前心中的优先级：fastertransformer(nv的工作)>tgi（huggingface的推理端）/lightllm（商汤的工作）>vllm
针对特定模型的优化的工作，尤其是chatglm和llama，暂且不提。
小众的工作，如jittorllm，fastllm，inferllm等，暂且不提。

https://weibo.com/2879902091/NdZ76aWaL?pagetype=groupfeed

关于llm的部署，一... - @zhpmatrix的微博 - 微博

踏踏实实地把错别字识别检测这件事情做好！ QQ： 2035751490 , 欢迎在线咨询