溪数科技的智能日志管理平台界面设计简洁明了,使客户能够快速上手,无需长时间培训和学习,降低培训成本。
○ 提高组织工作效率
平台的各项功能设计人性化,使得日志收集、存储、分析、展示等操作都能在短时间内轻松完成,提高工作效率。
○ 提供业务洞察支持决策
平台具备强大的数据处理能力,能够实时收集和分析大量日志数据,为客户提供丰富的业务洞察,有助于业务决策。
○ 数据可视化提高运营质量
数据可视化功能强大,使我们能够直观地了解业务运行状况,及时发现和解决问题,提高业务运营质量。
近日,溪数又一次为头部金融科技集团客户搭建成熟的日志管理规范体系,实现低资源消耗的大规模数据采集和分析。其低代码平台轻松实现个性化数据应用,将日志转化为有价值的指标数据,用于数据分析。依托工具化能力,有效降低存储和计算成本,项目实施周期短。
需求分析
某科技集团致力于为客户提供金融云和产业云等全面解决方案,其核心系统主要部署在公有云主机上,为外界提供灵活的SaaS模式服务。鉴于其业务特性和客户需求的特殊性,该公司对平台的稳定性要求非常高。除了基础设施层面的常规监控外,公司还需通过深入分析日志数据,来补充监控的粒度,从而确保系统的稳定运行与高效服务。
目前,该公司内部运维的主机和组件数量庞大,尽管曾尝试使用开源的ELK组件来收集日志,但基于降本增效考虑下,日均高达10TB+的日志量使得ELK平台的资源消耗极为显著。此外,ELK平台在定制化、安全性以及运维便捷性等方面存在的局限,也使其在公司内部并未得到广泛应用。运维人员更倾向于直接登录机器,通过shell命令或python脚本方式,进行日志数据的查看、分析与问题定位,这种方式不仅效率低下,还缺乏集中统计分析和可视化的能力,显然无法满足日常系统运维与运营的实际需求。
本期项目实现34个一级业务系统100%的日志数据采集(包括业务、操作系统、组件等日志),二级系统及以下日志数据采集覆盖率达到75%;
从采集数据中解析关键信息,利用可视化组件完成15个场景分析仪表盘的制作。并提供对应的培训服务,保证集团运维人员能够独立进行数据分析和仪表盘的配置;
完善告警维度的监控粒度,梳理业务监控需求,补齐业务监控能力;从日志维度进行运维对象的异常发现能力,提高监控覆盖度。异常发现能力较之前提高30%。
解决方案
通过Agent、监听采集等多种方式实现日志数据的统一对接。结合该集团日志数据的分析查看需求,将数据对接和字段解析配置成开箱即用的模板,帮助运维人员快速实现数据的对接及可视化呈现。
沟通IT运维及业务运营的数据查看分析需求,从海量日志数据中解析出关键信息,利用平台提供的可视化能力进行图表展示,建设了诸如金融云系统异常监控、健康度统计、业务实时请求监控大盘等与日常监控管理强关联的仪表盘,加快运维人员系统巡检、业务分析的效率和质量。
深入调研客户系统,提供业内监控管理的最佳实践,结合平台提供的多种告警检测能力(如日志模式识别、异常检测等),对业务监控和IT对象进行监控覆盖,提升整体监控能力。
通过成熟完善的日志管理规范体系,并将规范体系所需的平台功能落实到工具上,可快速帮助用户梳理当前的日志管理现状,并提供针对性的优化建议,推高内部团队的管理规范。
完善灵活的日志采集管理配置,在采集的同时对服务器资源消耗较少,完美支撑了超过10TB+日增数据采集和分析。
提供低代码的平台基础能力,通过简单的配置即可实现个性化的数据应用需求,结合平台提供的成熟模版,有效降低数据应用的难度。
可依托工具化能力,能够将庞大的日志转为有价值的指标数据内容,并参与指标的分析、计算、算法检查,对于原始日志可进行归档存储,大大减少数据的存储、计算成本。
基于成熟平台,项目实施周期短,从完成机器准备至项目上线,前后花费不足1个月。
成果展示
本次项目根据客户日志管理诉求,共配置了160余个日志采集任务,涵盖了包括阿里云、防火墙、组件日志(nginx、mysql、mongodb...)、K8S、业务日志在内的数据采集。实现34个一级业务系统100%的日志数据采集,二级系统及以下日志数据采集覆盖率达到78%。同时平台提供50余种日志数据采集模板,极大提高了日志数据对接及监管效率。
数据展示维度,帮助用户结合平台提供的可视化工具及采集数据,构建可视化仪表盘。交付阶段协助客户完成20个仪表盘的配置工作,后续通过培训赋能,由运维人员根据自身数据查看需求进行仪表盘的配置,目前的数据分析场景总数超过100个。
(金融云系统错误信息监控大盘,对金融云关键系统进行可视化分析)
与基础监控工具(覆盖了从系统、容器、到应用等各层面)数据联动,实现问题发现和定位的完整闭环流程。客户希望针对监控系统的数据分析找到当前监控的薄弱点,从而针对性进行运维改进。我们通过接口对接相关监控告警数据,并通过字段解析从告警数据中解析出告警对象、科室、告警等级等信息,并通过图表的形式展示出来,帮助用户发现当前运维的概况信息。
(告警-科室分布曲线图,通过此图了解不同科室运维对象的运行情况)
(服务器告警数量排名,快速发现服务器的异常次数,针对性重点调优)
(原因统计分析表为客户快速简单回溯找到具体告警明细)
客户购买了阿里云的CDN产品,为了监控提供CDN产品的性能,需要对CDN性能数据进行分析,当出现有异常情况时,需要及时发现并反馈给阿里云进行优化改善,保证全国各地的用户均能够流畅地使用客户的产品服务。
(提供cdn全局命中率和实时pv总览,帮助客户运维快速了解当前提供CDN服务的好坏)
(可选择指定域名的过去7日下载速度 & 命中率变化比对,运维可快速一目了然全局cdn情况&方便回溯比对具体域名变化趋势)
客户收益
溪数科技的智能日志管理平台界面设计简洁明了,使客户能够快速上手,无需长时间培训和学习,降低培训成本。
○ 提高组织工作效率
平台的各项功能设计人性化,使得日志收集、存储、分析、展示等操作都能在短时间内轻松完成,提高工作效率。
○ 提供业务洞察支持决策
平台具备强大的数据处理能力,能够实时收集和分析大量日志数据,为客户提供丰富的业务洞察,有助于业务决策。
○ 数据可视化提高运营质量
数据可视化功能强大,使我们能够直观地了解业务运行状况,及时发现和解决问题,提高业务运营质量。