添加微信
咨询电话
010-53381060
在线留言
返回顶部
在线留言
为您提供溪数KetaOps产品咨询服务
填写留言信息,我们会在1-3个工作日内联系您
填写留言信息
提交
企业动态
溪数科技赋能运营商客户,轻松驾驭海量日志数据,优化业务体验!
2024-03-20
Case background


案例背景


随着互联网技术的快速发展,中国移动某省份有限公司(以下简称“某某移动”)业务范围越来越广阔服务的用户数量也越来越多。最主要的业务包含移动通信、宽带、物联网服务等多个领域,服务覆盖省内以及非省内的上千万用户,支撑服务的设施数以万计,这些设施以及用户的业务交互每天都会产生海量的日志数据。这些日志记录了网络中各种设备的活动、性能问题、安全事件、用户行为、业务数据等信息。有效地收集、整理和分析这些日志对于确保网络的稳定运行、优化性能、提升用户体验、防范安全威胁以及提升业务价值都至关重要,为了更好的为用户进行服务,让业务增长有序,决策科学合理,该公司对数据的应用提出了更加具体的要求。





 Pain points



求分析


 1.1 面临的问题

该运营商实际IT运维情况如下:

  • 数据量大
    共具有数百套业务系统,物理机及虚拟机共计上万台,网络设备数万台,每天大约产生数十T的日志;
  • 数据分散

    日志分散在各个业务系统、服务器、网络设备上,虽然公司内部已建设大数据系统,但该系统仅负责数据的采集及存储,暂无应用场景,传统的运维及业务仍需通过运维逐台登录服务器进行日志分析,凭借经验进行排障或进行数据统计;

  • 数据不标准

    各系统均由不同外包公司、不同开发人员开发,数据格式及规范不统一,不标准,分析困难;

  • 非结构化

    日志数据均为非结构数据,可读性差,手动筛查数据难度大;

  • 无可视化技术
    缺乏日志关键指标提取以及可视化技术,难以评估故障范围或进行统计分析。


 1.2 项目建设目标

在业务支撑系统内部建设统一日志管理分析平台,实现如下需求:

  • 数据对接

    对接大数据系统所采集并存储的业支系统待分析的数据,类型包含给类IT及运营数据(网络日志、应用日志、业务日志等);

  • 数据可视化

    将各类数据进行分类管控,并根据业务需求将数据进行格式化,标准化,并对关键字段进行提取,生成指标,并构建对应的数据分析可视化报表;

  • 日志模式识别

    将多类原始日志数据与机器学习中的日志模式识别能力相结合,实现数据的趋势判断以及预测,提升日志的运维分析能力。


 Pain points



解决方案及思路


 2.1 建设思路

利用溪数科技自研的KetaOps平台以及算法模型作为数据分析的统一底座与数据计算中枢,对某某移动产生的IT数据实现统一对接,并进行数据价值的挖掘,完成数据的解析及字段提取、告警、可视化、日志模式识别等多种运维及运营场景。

  • 数据对接

    通过甲方指定的数据对接方式完成大数据系统所采集到的各类数据;

  • 数据解析

    利用丰富的数据解析手段实现日志数据的解析,提取关键业务指标,配置告警规则,实现业务的异常实施掌控;

  • 数据串联

    利用数据中的关键字段,例如手机号码、用户标识、业务流水号、渠道号等字段,实现多来源(集团及省内)、多系统日志的数据串联;

  • 数据可视化

    通过溪数KetaOps平台丰富的图表类型,结合业务需求实现自定义仪表盘及可视化能力,提升数据利用价值。

  • 日志模式识别

    通过对业务及运维诉求进行梳理,对多类型的日志进行日志模式识别,针对日志模式中的新增、突增、突降、消失等多种模式进行预警,实时感知日志的变化趋势,用以判断业务系统的运行状态。

 


Solution


效果呈现 

 3.1 关键业务指标提取及异常预警

某某移动公司1级BOSS日志日增3T,通过KetaOps平台,自动解析日志中的XML报文,精准提取号码、渠道、金额等核心数据(根据业务及账号管理需求可灵活进行脱敏及加密),计算交易时长并设置异常检测机制,一旦检测到异常情况,例如缴费时长过长,可及时确定受影响号码范围,及时进行响应采取相应服务进行补救。


 3.2 基于日志的业务趋势分析

隐患排查:系统初在某某移动上线,2月4号晚上,运维正常巡检1级BOSS服务时,发现业务交易及时率下降明显,通过魔法变量钻取(点击百分比97.20%)实现跳转至具体超时交易的明细,发现均是由于耗时不正常导致及时率出现异常,经排查发现是因为省数据库出现故障,导致交易数据无法正常入库,出现延时,经及时处理,将该故障及时进行解决,保证了该系统的正常服务。

 3.3 多数据源数据关联分析场景

用户在移动APP完整的一次缴费,会涉及多套业务系统,相关系统即涉及集团业务系统,也涉及省公司业务系统,在传统的运维方式中,需要通过关键ID,手动查询多套系统分别产生的日志,再进行关联分析,还需要熟悉相关系统的运维人员来进行操作,费时费力。

KetaOps系统可将多源日志进行关联聚合分析,通过编写SPL,自动实现同一业务ID的日志数据关联,减少人工投入,提升联调排障效率。当出现异常时,仅需将原始的报文信息提取出来,即可实现单一业务的故障排查。



 

 3.4 业务日志模式识别

用户在移动APP完整的一次缴费,会涉及多套业务系统,相关系统即涉及集团业务系模式聚类可以让具有相似结构的日志将被分组在一起,有助于在大量噪声模式的场景下检测和过滤出容易被忽略的异常日志。适合作为切入口发现当前系统异常动向。

1月18号8点移动营业厅开始营业后,服务出现大量报错,错误集中在跨区业务的办理系统。运维人员通过KetaOps及时发现对应时间段出现了大量的新增模式,具体查看发现主要是新增了很多异常报错。通过查看错误日志快速定位了故障,最终发现是因为某个主机上存在故障假死,及时采取应急措施解决了相关问题。



 Income



客户收益



溪数科技帮助某某移动公司取得了显著的运维成效:


 非结构化数据治理
针对日志这类非结构化数据实现有效治理,最终提升了数据的利用价值,为业务运营、运维提供更精准的数据支撑;


 数据串联可视化

将分散的数据通过关键字段,例如手机号码、用户标识、业务流水号、渠道号等字段,实现多来源(集团及省内)、多系统,不同服务器及目录日志的数据串联,实现一屏统揽,将排障时长由分钟级降至秒级,提升业务连续性;


 日志模式识别

将非结构化数据源文件与机器学习算法相结合,通过算法识别出日志中的固化字段以及可变字段,提炼出具备代表性的日志模板,在第一次提取出日志模板后,再进一步利用识别算法进行模板细化,提升模板的准确性,最终实现模式分类,对新增、突增、突降、消失等日志模式实现实时监控,第一时间为相关人员提供业务系统变动相关信息,从数据支撑层面提升业务稳定性与联系性; 


诚邀您来体验KetaOps产品
申请试用