深度解析DeepFlow如何采集大模型服务的业务指标鸿蒙开发者社区|ocr识别公有云_宠物绝育

为高质量支撑2024年客服大模型商用，中国移动构建了客服大模型“混合云”生产环境，确保大模型应用安全稳定运行、智算资源高效利用。面对当前跨云调用拓扑的复杂性，以及运维保障与业务运营中服务质量观测指标的缺失问题，多团队共同合作基于eBPF与Wasm技术构建客服大模型生产运行态可观测能力。

在基于基础大模型构建的客服大模型中，虽然这些基础模型在自然语言处理方面表现出强大的计算能力，但其训练、微调和推理的细节仍难以完全理解和控制。尤其是在行业应用中，这些模型在响应性能、准确性和数据安全性方面常常表现为“黑盒”。因此，亟需开发针对大型语言模型的可观测性解决方案，以实现模型的可感知、可维护、可评估和可信任，从而提升平台能力和服务质量。

当前，大模型的应用面临一些挑战。在业务稳定性方面，为避免对流量的影响，业务团队严格禁止安装APM探针。此外，由于不同团队负责多个大模型，统一拓扑和指标的协调难度较大。因此，在构建可观测性解决方案时，必须做到对业务的零侵扰。近年中国移动磐基PaaS平台已经携手DeepFlow借助eBPF技术实现了全栈且无侵扰的应用可观测性。磐基PaaS平台将eBPF数据与现有的可观测数据整合，提供了开箱即用的应用可观测性，全栈无盲点的调用链追踪等能力。

客服应用架构图

客服大模型上线磐基eBPF可观测性能力后，客服大模型立即具备了开箱即用的可观测性功能。这使得其能够快速获取全面的系统监控视图，实时追踪和分析复杂的调用链路，有效提升问题诊断和解决效率。同时，无需额外的代码插入，便可自动生成应用和网络性能指标，轻松实现资源优化和性能提升。

服务全景拓扑

应用/网络指标

应用/网络详情

全栈调用链追踪

大模型指标分类说明

通用指标说明备注吞吐量发送与接收字节的总和（Byte/s）现有指标TCP重传比例（TCP客户端重传+TCP服务端重传）/包数现有指标TCP建连-失败比例建连-失败次数/关闭连接数现有指标TCP建连时延采集周期内所有TCP建连时延的平均值现有指标TCP活跃连接数采集周期内活跃的连接数现有指标

通用指标说明备注请求速率平均每秒请求总数（req/s）现有指标累计服务端异常比例服务端异常/响应现有指标响应时延采集周期内所有应用时延的平均值现有指标

客户大模型流量解读

HTTP分块传输编码允许服务器将响应拆分为多个部分发送给客户端，而无需预先知道内容的总大小。

客户大模型与基础大模型之间的交互过程由请求和响应两部分组成。首先，客户大模型发起请求，基础大模型返回初始响应，该响应仅包含头部信息，无任何业务数据。随后，基础大模型逐步返回包含Token的响应。当所有Token传输完成时，发送一个标识完成的响应，称为Finish响应。基于交互过程则可确认业务指标的计算方式，如下：

数据交互图

以vllm/**/**/cm/as**st接口发起请求，报文详情如下：

报文详情

Wasm插件核心代码

这段Go程序实现了一个Wasm插件，专注于统计大模型HTTP流式请求的性能指标。它能够解析HTTP流请求和响应，以收集首Token延迟（TTFT）和每个输出Token的延迟（TPOT）。这种设计使得程序员可以高效地监控和优化大模型的性能表现。

Grafana指标展示效果

可视化展示

参考资料

eBPF零侵扰可观测性Meetup·上海站开始报名啦！本次活动主题为《大模型全生命周期管理与AI应用的全栈可观测性》，精彩议程大咖云集，欢迎扫描二维码锁定席位～

THE END

深度解析DeepFlow如何采集大模型服务的业务指标鸿蒙开发者社区

深度解析DeepFlow如何采集大模型服务的业务指标鸿蒙开发者社区

2019人工智能案例TOP100

OCR图文识别系统

百度智能云OCR识别私有化部署平台OCR文字识别OCR自训练平台

中安OCR文字识别私有化部署文字识别人工智能云市场

各常见OCR图片文字识别对比总结独角马

ocr云服务器ECS

Umi

云从科技OCR新突破：端到端的深度学习文本检测框架Pixel

“无纸化”办公时代，百度智能云OCR如何加速推动碳中和？

教程：Python连接华为云接口，实现OCR文字识别Python教程

汉王云

翔云人工智能API

百度OCR对接才望云