EPAI模型服务中心支持大模型的一键配置化部署,并提供OpenAI API和EPAI API接口,能够兼容业内常见的大模型,方便用户部署各类大模型。
-
支持业内常见大语言模型:EPAI服务部署框架支持vLLM、transformer等服务推理框架,并针对常见模型进行了模板化处理,实现了各个模型的低代码部署。并提供标准的OpenAI API接口。同时,对于私有或定制化模型,提供了镜像部署方式,提供镜像文件和模型文件下,自定义推理服务启动命令即可部署推理服务。
-
提供基于服务质量与资源用量监控的自动化服务扩缩容能力,保证线上业务在不同调用量下的资源合理性分配。支持基于原生HPA指标、请求耗时与延迟、请求与排队数量、GPU缓存占用、PD阶段时间指标的自动扩缩容控制;同时支持自定义多个服务扩缩容指标接入。支持搭配不同的服务扩缩容指标设置扩缩容策略。该能力能够基于服务实际运行状态变化主动为服务提供所需的计算资源,释放过程同样无须手动操作。
-
平台同时提供分布式部署功能,支持ETH、IB、RoCE网络分布式模型部署配置。
在应用调用大模型服务前,需要将微调后的模型进行服务部署。以下是模型部署的主要流程。
1)发布模型
当大模型微调完成并自动生成新的模型到模型仓库后,需要先将新的模型进行发布。在“模型仓库”->模型版本列表中,选择对应的模型版本点击“发布”,确定后,模型版本状态为“已发布”。
2)模型部署
在“模型部署”页面,点击“立即部署”,打开模型部署页面,如下图所示。
- 基本信息:选择场景和模型;
- 资源配置:可选择快速配置或完整配置;选择服务部署的资源,包括CPU、内存、GPU、实例数、QPS和端口等
- 高级配置:根据业务要求灵活配置更多设置,如批处理、周期部署等
- 大模型推理参数:通过模型部署方式部署的大模型推理服务,可以在此设置服务预设参数以及服务信息,包括模型名(对应调用接口时传参)、最大上下文、最大响应以及各项do_sample默认值。
完成上述信息填写后,点击“部署”,即可完成部署,等待系统调用资源将服务进行部署和启动。
(3)查看服务详情
在“模型部署”列表页,选择业务名称,进入服务详情页,查看服务各项信息和运行情况,包括概述、服务监控、日志、shell链接、在线调试和AB测试。用户可根据自身业务要求查看服务对应的内容,或更新服务。
(4)服务发布
当服务已就绪且验证测试OK后,可选择将服务发布给应用开发中心。选择某个服务,点击“发布”,可将该服务进行发布,发布范围支持全局或部分用户
- 全局:应用开发中心的所有用户都可见该服务,都可调用该服务进行应用开发。
- 用户:支持从用户列表中选择或搜索单个或多个用户进行发布,被选中的用户可以调用该服务进行应用开发。
