服务器和软件服务

故障排查2023年09月-2024年05月

YAN1

案例介绍

1、问题确认：接口调用出现大量的超时，业务使用等待*响应超3秒，已经严重影响生产进行。

2、分析步骤：

2.1测试算法引擎性能：

2.1.1将测试包上传到*

2.1.2 unzip TPS测试.zip

2.1.3 把scenario_split复制到引擎的docker根目录
docker cp scenario_split 61d36ec3de06:/

2.1.4 把libClientSDK.so复制到引擎的/models/generalocr_asyn_infer.pipeline目录下

docker cp libClientSDK.so 61d36ec3de06:/models/generalocr_asyn_infer.pipeline

2.1.5 进入docker的根目录，运行命令chmod+x scenario_split，添加可执行权限
docker exec -it 61d36ec3de06 bash
cd /
chmod +x scenario_split

2.1.6 在容器中增加环境变量：
export LD_LIBRARY_PATH=:/models/generalocr_asyn_infer.pipeline:/models/generalocr_asyn_infer.pipeline/lib

2.1.7 在容器跟目录运行以下命令即可测试引擎的TPS：./scenario_split ./testimg.txt yycd single 16
注释：
1）./testimg.txt，为测试图片的全路径，比如一张图的路径复制了800份，总测试图片为800个。
例如：./xx/xx.png
2）table，为测试的功能，这里传入yycd。
3）16，为并发数量，16并发代表开启16个线程同时向引擎发送请求，每个线程发送50个请求。

2.1.8 测试结果：测试引擎，GPU能吃到97%，tps：9.8

3、修复方法和优化方法:
3.1在程序优化之前使用手动备份表数据，清空表记录方式进行临时处理。
3.2程序端需要优化：“AI服务-OCR”-->“OCR调用流水功能”。
3.2.1 该功能不能产生性能问题。
3.2.2 OCR调用流水功能：
1）包含字段：时间，系统名称（留空），交易流水号（随机生成，可以留下），模型名称（notename:yycd），状态。
2）增加记录ip和端口或者URL（含完整的ip和URL，ip：port/ocr/youchu/4in1）。
3)增加记录调用方的ip。
4）日志永久保留
5）可以通过读写分离设计（必须）OCR_INFO_TABLE。
6）数据量估计800w/月

上猪八戒网当能人

你有一技之长，就能大显身手赚大钱

主页

立即咨询