某科技公司隶属知名商学院管理集团,负责推动集团信息化进程。该集团因出色的企业管理培训闻名,汇集众多知名企业家资源,提供优质线上课程,深受欢迎,销售额高达数十亿,稳居行业领导地位。
该科技公司发挥信息技术专长,开拓多元化用户入口,涵盖热门社交平台和自建网站、APP等渠道,引流成效显著,加强与学员互动,精准满足需求,助力提升培训效果。得益于此科技公司的支持,商学院管理集团不断创新企业培训领域,以高质量培训和信息化建设吸引更多学员关注,持续提升品牌影响力和竞争力。
面临的问题及调整
客户原来使用某著名云厂商的日志服务产品,存在如下几点问题:
1. 通用组件的日志消费场景少,需要自己做相关的监控设置,配置成本高。
2. 无法将日志中关键的字段保存指标,每次的查询都需要对原始日志的检索,检索成本高。
3. 能够对接采集容器环境应用日志,但对于无法实现绘制链路关系,导致相关的应用日志关联查询困难,定位效率低。
4. 对线下的物理设备类的数据接入不便(如交换机、路由器等),无法联动云上和云下环境统一监控和管理。
5. 平台使用问题,以工单为主,沟通成本高,技术人员推进较慢,无法快速响应问题,使用感官较差。
项目建设目标
1. 实现云上与云下环境的统一日志监控和管理能力,同时,能够降低与云平台的耦合,避免上云无法下云的困境。
2. 能够依托商业产品能力,建设从应用->组件->容器->主机->网络设备的全场景日志数据消费能力,提升运维监控的感知能力。
3. 围绕日志、指标等数据环境,建设一套可以评估系统运行的服务SLA,并为此定义后续的运维目标,为拉起团队的行动目标提供关键的数据依据。
4. 从日志中提取不少于30个有效的指标,包括:关键业务指标、关键性能指标、关键状态指标等,进一步将日志变废为宝,同时,也可用于规范开发的日志输出规范。
日志平台建设思路
1. 利用溪数平台集成的各类组件日志模板,自动采集、解析日志并可视化展示。2. 整合迁移SLS日志至KetaOps平台,优化存储方案以节约用户成本。3. 深入利用日志数据,提取关键业务指标,配置告警规则,提高业务异常监测效率。4. 通过业务流水号关联日志,形成业务链路视图,分析性能瓶颈并告警。5. 提供丰富的可视化告警配置,及时推送异常信息并与ITSM联动处理。6. 采集云上云下设备监控数据,设定关键指标告警阈值并展示。7. 为客户提供个性化服务,包括培训和技术咨询,以增强平台粘性并提升产品价值。
日志平台建设优势
1. 支持多种数据对接能力,通过一套平台、一个agent实现日志、服务器、容器、硬件设备的性能数据及指标数据的采集,可完整覆盖基础设施、操作系统、应用、组件、业务日志及其他数据的采集需求;提供数据保存机制配置、日志分析工具,一站式实现数据采集-解析-分析-展示需求。
2. 提供“扶上马,送一程”的技术服务,除了标准工具交付外,结合用户需求不断寻找产品与运维、业务的契合点,帮助用户提升产品的性价比,增加用户粘性。
实施接入数据情况
当前已经完成153个告警规则的配置,平均每天告警量在350个左右,关键告警率超过89%。平均每日有45位用户登录到平台进行视图的分析、告警数据查看。
数据采集维度:已完成业务、应用、网络设备、组件、容器等对象的基础监控及日志数据采集。重要业务系统及其组件日志采集全覆盖。
(一条任务采集实现容器日志自适应采集能力)
结合某科技日志管理需求,全量对接原有SLS对接的日志数据源,并实现日志数据的分层管理,根据使用场景的不同配置个性化的冷热温存储策略,有效减少数据存储成本。为最大话利用数据价值,热数据存储1个月,冷数据存储2个月,合计日志数据存储三个月。
从日志中筛选关键信息,保存为指标。用户通过指标的可视化查看及告警规则配置即可覆盖大部分日志监控需求,提高了工作效率。同时,从日志维度生成的指标数据也为业务运营人员提供了有效的运营分析抓手,协助提高运营分析的效率和质量。(业务指标生成页面)
(业务指标查询页面)
提供8种告警规则配置方式供用户通过可视化页面结合异常发现需求进行告警规则的配置。目前已经完成多个业务告警规则配置(如统计营收异常、拉取广告异常等)、IT监控告警规则配置。从IT、业务两个维度为XX科技提供异常发现及告警能力。
(告警规则配置页)
(华为网络设备监控视图)
数据场景应用能力展示
场景一 漏单监测
某科技在小红书、抖音平台销售课程时,使用API抓取订单信息,但由于网络和平台问题,存在10%的订单漏拉取,导致较大业务损失。原本考虑自研校验程序需耗时两周。
在培训期间,溪数交付团队得知需求后,迅速在一个下午内实现了漏单检测功能。该功能通过对比各平台原始订单库与本地数据库,发现问题并立即发出告警及可视化提示,帮助快速发现和解决漏单问题,最大限度降低业务损失。(漏单信息可视化看板展示)
2024年年初,某集团举行了一场线上的课程直播,在直播期间,发现往线上推流的视频存在丢帧、画质不清晰的情况,同时该集团的运维同事也接收到了溪数日志平台发送的告警信息。运维人员快速进行了问题排查,最终利用网络设备的概览视图发现,核心交换机在该时间点【TCP尝试连接失败数】出现过陡增的情况。在定位到问题后,网络运维发现是由于交换机某个配置没有针对性调优导致的,最终通过配置调优解决此类问题。(故障时TCP尝试连接失败数数值变化趋势图)
溪数科技提供的日志管理平台数据采集能力丰富,操作简便,保证用户能够在两周内完成上线工作。强大的分析应用场景能力,极大的帮助了某科技公司提高系统异常感知能力。在交付过程中,溪数技术人员展现了良好的技术功底和客户服务素质,客户反馈:
溪数科技的日志管理平台整合各类应用、服务器、数据库日志,兼容性好、覆盖广,操作简易快捷,即使复杂环境下也能迅速接入数据,通常两周内即可完成系统部署,显著提升数据采集整合效率。
强大的分析应用场景
该平台具备强大的数据分析能力,智能解析海量日志,揭示潜在问题和业务洞察,助力我们企业实时感知系统异常、快速定位故障、提升运维响应速度,确保业务稳定运行。
专业的技术服务与客户关怀
溪数科技团队在项目交付中展现出深厚专业素养与高度责任感,坚持以用户需求为本,提供定制化解决方案,并耐心解答疑问,确保项目顺利推进。
持续合作与升级
鉴于溪数科技日志管理平台的良好表现,我们企业期待深化合作,携手探索更多应用场景,以适应业务发展需求。通过不断优化和扩展平台功能,不仅能提升产品实际效用,还将促进我们全面提升数字化运维管理水平。