添加微信
咨询电话
010-53381060
在线留言
返回顶部
在线留言
为您提供溪数KetaOps产品咨询服务
填写留言信息,我们会在1-3个工作日内联系您
填写留言信息
提交
企业动态
金融科技日志管理新篇章:溪数携手客户共创日志管理的道、法、术
2024-06-18
Case background


案例背景


近日,溪数又一次为头部金融科技集团客户搭建成熟的日志管理规范体系,实现低资源消耗的大规模数据采集和分析。其低代码平台轻松实现个性化数据应用,将日志转化为有价值的指标数据,用于数据分析。依托工具化能力,有效降低存储和计算成本,项目实施周期短。


某科技集团是一家头部的数据公司,主要为金融风控、品牌营销推广、精准投放等数据领域提供服务支撑。以人工智能、大数据、移动互联网和云计算等核心技术能力为支持,通过深度应用AI决策,自主研发一系列SaaS产品组合及数智某云平台,为相关行业客户提供端到端云原生科技解决方案。依托丰富的数据基础和强大的技术实力,市场占有率远高于同行。





 Pain points



需求分析


 2.1 面临的问题及调整

某科技集团致力于为客户提供金融云和产业云等全面解决方案,其核心系统主要部署在公有云主机上,为外界提供灵活的SaaS模式服务。鉴于其业务特性和客户需求的特殊性,该公司对平台的稳定性要求非常高。除了基础设施层面的常规监控外,公司还需通过深入分析日志数据,来补充监控的粒度,从而确保系统的稳定运行与高效服务。

目前,该公司内部运维的主机和组件数量庞大,尽管曾尝试使用开源的ELK组件来收集日志,但基于降本增效考虑下,日均高达10TB+的日志量使得ELK平台的资源消耗极为显著。此外,ELK平台在定制化、安全性以及运维便捷性等方面存在的局限,也使其在公司内部并未得到广泛应用。运维人员更倾向于直接登录机器,通过shell命令或python脚本方式,进行日志数据的查看、分析与问题定位,这种方式不仅效率低下,还缺乏集中统计分析和可视化的能力,显然无法满足日常系统运维与运营的实际需求。


 2.2 项目建设目标

  • 梳理并建立某金融科技集团日志管理规范,完成集团的日志统一采集管理、可视化分析及异常发现能力建设。
  • 本期项目实现34个一级业务系统100%的日志数据采集(包括业务、操作系统、组件等日志),二级系统及以下日志数据采集覆盖率达到75%;

  • 从采集数据中解析关键信息,利用可视化组件完成15个场景分析仪表盘的制作。并提供对应的培训服务,保证集团运维人员能够独立进行数据分析和仪表盘的配置;

  • 完善告警维度的监控粒度,梳理业务监控需求,补齐业务监控能力;从日志维度进行运维对象的异常发现能力,提高监控覆盖度。异常发现能力较之前提高30%。



Solution


解决方案




 3.1 日志平台建设思路

  • 从监控告警、运营等维度,结合该金融科技集团的运维、运营需求,协助该集团运维部门梳理了内部的日志打印、采集、存储的日志管理规范,并协助将此日志管理规范在内部推广。

  • 通过Agent、监听采集等多种方式实现日志数据的统一对接。结合该集团日志数据的分析查看需求,将数据对接和字段解析配置成开箱即用的模板,帮助运维人员快速实现数据的对接及可视化呈现。

  • 沟通IT运维及业务运营的数据查看分析需求,从海量日志数据中解析出关键信息,利用平台提供的可视化能力进行图表展示,建设了诸如金融云系统异常监控、健康度统计、业务实时请求监控大盘等与日常监控管理强关联的仪表盘,加快运维人员系统巡检、业务分析的效率和质量。

  • 深入调研客户系统,提供业内监控管理的最佳实践,结合平台提供的多种告警检测能力(如日志模式识别、异常检测等),对业务监控和IT对象进行监控覆盖,提升整体监控能力。


 3.2 日志平台建设优势

  • 通过成熟完善的日志管理规范体系,并将规范体系所需的平台功能落实到工具上,可快速帮助用户梳理当前的日志管理现状,并提供针对性的优化建议,推高内部团队的管理规范。

  • 完善灵活的日志采集管理配置,在采集的同时对服务器资源消耗较少,完美支撑了超过10TB+日增数据采集和分析。

  • 提供低代码的平台基础能力,通过简单的配置即可实现个性化的数据应用需求,结合平台提供的成熟模版,有效降低数据应用的难度。

  • 可依托工具化能力,能够将庞大的日志转为有价值的指标数据内容,并参与指标的分析、计算、算法检查,对于原始日志可进行归档存储,大大减少数据的存储、计算成本。

  • 基于成熟平台,项目实施周期短,从完成机器准备至项目上线,前后花费不足1个月。 



Achievement



成果展示


 ○ 4.1 日志数据采集覆盖,提升监控粒度

本次项目根据客户日志管理诉求,共配置了160余个日志采集任务,涵盖了包括阿里云、防火墙、组件日志(nginx、mysql、mongodb...)、K8S、业务日志在内的数据采集。实现34个一级业务系统100%的日志数据采集,二级系统及以下日志数据采集覆盖率达到78%。同时平台提供50余种日志数据采集模板,极大提高了日志数据对接及监管效率。

01.png

 4.2 数据场景应用能力展示

数据展示维度,帮助用户结合平台提供的可视化工具及采集数据,构建可视化仪表盘。交付阶段协助客户完成20个仪表盘的配置工作,后续通过培训赋能,由运维人员根据自身数据查看需求进行仪表盘的配置,目前的数据分析场景总数超过100个。


场景一  业务系统运行状况巡检
每天都需要进行核心系统的交易分析、业务系统异常情况的统计,以报告的形式进行输出。

图片

(金融云系统错误信息监控大盘,对金融云关键系统进行可视化分析)


场景二 联动监控数据快速发现和分析

与基础监控工具(覆盖了从系统、容器、到应用等各层面)数据联动,实现问题发现和定位的完整闭环流程。客户希望针对监控系统的数据分析找到当前监控的薄弱点,从而针对性进行运维改进。我们通过接口对接相关监控告警数据,并通过字段解析从告警数据中解析出告警对象、科室、告警等级等信息,并通过图表的形式展示出来,帮助用户发现当前运维的概况信息。

告警-科室分布曲线图,通过此图了解不同科室运维对象的运行情况

图片

服务器告警数量排名,快速发现服务器的异常次数,针对性重点调优

图片

原因统计分析表为客户快速简单回溯找到具体告警明细

场景三 CDN统计分析

客户购买了阿里云的CDN产品,为了监控提供CDN产品的性能,需要对CDN性能数据进行分析,当出现有异常情况时,需要及时发现并反馈给阿里云进行优化改善,保证全国各地的用户均能够流畅地使用客户的产品服务。

08.png

提供cdn全局命中率和实时pv总览,帮助客户运维快速了解当前提供CDN服务的好坏

09.png

10.png

可选择指定域名的过去7日下载速度 & 命中率变化比对,运维可快速一目了然全局cdn情况&方便回溯比对具体域名变化趋势




 Income



客户收益



溪数科技对该金融科技集团的业务运营与系统运维情况进行深度调研分析,通过建设智能日志管理分析平台,围绕业务运营与系统日志进行采集、存储、分析、可视化展示及监控告警等方面,帮助集团取得了显著的运维成效,客户反馈:

 降低企业培训成本

溪数科技的智能日志管理平台界面设计简洁明了,使客户能够快速上手,无需长时间培训和学习,降低培训成本。


 提高组织工作效率

平台的各项功能设计人性化,使得日志收集、存储、分析、展示等操作都能在短时间内轻松完成,提高工作效率。


 提供业务洞察支持决策

平台具备强大的数据处理能力,能够实时收集和分析大量日志数据,为客户提供丰富的业务洞察,有助于业务决策。


 数据可视化提高运营质量

数据可视化功能强大,使我们能够直观地了解业务运行状况,及时发现和解决问题,提高业务运营质量。


诚邀您来体验KetaOps产品
申请试用