为高质量支撑2024年客服大模型商用,中国移动构建了客服大模型“混合云”生产环境,确保大模型应用安全稳定运行、智算资源高效利用。面对当前跨云调用拓扑的复杂性,以及运维保障与业务运营中服务质量观测指标的缺失问题,多团队共同合作基于eBPF与Wasm技术构建客服大模型生产运行态可观测能力。
在基于基础大模型构建的客服大模型中,虽然这些基础模型在自然语言处理方面表现出强大的计算能力,但其训练、微调和推理的细节仍难以完全理解和控制。尤其是在行业应用中,这些模型在响应性能、准确性和数据安全性方面常常表现为“黑盒”。因此,亟需开发针对大型语言模型的可观测性解决方案,以实现模型的可感知、可维护、可评估和可信任,从而提升平台能力和服务质量。
当前,大模型的应用面临一些挑战。在业务稳定性方面,为避免对流量的影响,业务团队严格禁止安装APM探针。此外,由于不同团队负责多个大模型,统一拓扑和指标的协调难度较大。因此,在构建可观测性解决方案时,必须做到对业务的零侵扰。近年中国移动磐基PaaS平台已经携手DeepFlow借助eBPF技术实现了全栈且无侵扰的应用可观测性。磐基PaaS平台将eBPF数据与现有的可观测数据整合,提供了开箱即用的应用可观测性,全栈无盲点的调用链追踪等能力。
客服应用架构图
客服大模型上线磐基eBPF可观测性能力后,客服大模型立即具备了开箱即用的可观测性功能。这使得其能够快速获取全面的系统监控视图,实时追踪和分析复杂的调用链路,有效提升问题诊断和解决效率。同时,无需额外的代码插入,便可自动生成应用和网络性能指标,轻松实现资源优化和性能提升。
服务全景拓扑
应用/网络指标
应用/网络详情
全栈调用链追踪
大模型指标分类说明
通用指标说明备注吞吐量发送与接收字节的总和(Byte/s)现有指标TCP重传比例(TCP客户端重传+TCP服务端重传)/包数现有指标TCP建连-失败比例建连-失败次数/关闭连接数现有指标TCP建连时延采集周期内所有TCP建连时延的平均值现有指标TCP活跃连接数采集周期内活跃的连接数现有指标
通用指标说明备注请求速率平均每秒请求总数(req/s)现有指标累计服务端异常比例服务端异常/响应现有指标响应时延采集周期内所有应用时延的平均值现有指标
客户大模型流量解读
HTTP分块传输编码允许服务器将响应拆分为多个部分发送给客户端,而无需预先知道内容的总大小。
客户大模型与基础大模型之间的交互过程由请求和响应两部分组成。首先,客户大模型发起请求,基础大模型返回初始响应,该响应仅包含头部信息,无任何业务数据。随后,基础大模型逐步返回包含Token的响应。当所有Token传输完成时,发送一个标识完成的响应,称为Finish响应。基于交互过程则可确认业务指标的计算方式,如下:
数据交互图
以vllm/**/**/cm/as**st接口发起请求,报文详情如下:
报文详情
Wasm插件核心代码
这段Go程序实现了一个Wasm插件,专注于统计大模型HTTP流式请求的性能指标。它能够解析HTTP流请求和响应,以收集首Token延迟(TTFT)和每个输出Token的延迟(TPOT)。这种设计使得程序员可以高效地监控和优化大模型的性能表现。
Grafana指标展示效果
可视化展示
参考资料
eBPF零侵扰可观测性Meetup·上海站开始报名啦!本次活动主题为《大模型全生命周期管理与AI应用的全栈可观测性》,精彩议程大咖云集,欢迎扫描二维码锁定席位~