- 溪数首页
-
KetaOps产品
- 解决方案
探索未来驾驶:汽车科技创新领航者如何通过机器数据分析平台助力决策?2024-06-19Case background 案例背景 在汽车行业快速发展的今天,某汽车集团作为汽车科技创新的领航者,始终专注于汽车制造与销售的多元化业务。集团通过不断推进技术创新和品质提升策略,实现了连续九年的中国品牌乘用车年度销量冠军。凭借数百亿美元的营收,集团在《财富》世界500强榜单上占据一席之地,标志着集团已连续十一年稳居全球商业权威排名之列,且在中国民营汽车集团中独占鳌头。
该汽车集团所取得的傲人业绩,其背后动力源自持续不懈的科技创新。而科技创新的基石,则在于该集团扎实稳健的信息化建设举措。目前,集团在国内构建了十多个数据中心,数据日增量已达到 TB 级规模。面对海量数据统一、高效收集管理与监控分析的挑战,以及对系统运维、业务运营和网络安全事件快速响应的需求,实现全面深入的数据安全管理成为了集团亟待破解的核心问题。
为此,某集团与溪数科技紧密合作,通过深度调研集团当前的 IT 建设实况,并结合实际需求,双方联手打造并实施了《KetaDB 机器数据分析平台》项目。此平台凭借其强大的系统化能力,有力地应对并解决了一系列相关问题,从而提升了集团在大数据环境下的运维效率和安全保障水平。
Pain points 某汽车集团运维工作存在的痛点
○ 日志管理规范缺失
集团内部有上千套应用系统,不同的系统由不同的开发部门或者供应商承担,日志数据格式多种多样,从运维的需求角度以及集团审计与等保的角度出发,急需建立一个统一的数据采集及管理平台,并通过统一的日志采集规范、标准的采集手段、日志解析规则的规范化,将不同系统和数据源的日志数据统一管理。
○ 排障分析效率低下
出现业务故障或组件问题,运维工程师需登录服务器查看日志,导致定位故障时效低,风险增加。集团曾尝试用开源ELK平台进行日志收集管理与运维排障,但无法解决数据权限管控问题,无法为业务部门提供良好日志检索方案。当日志量增长迅速时,ELK平台在写入和检索性能上出现瓶颈。同时,ELK平台的学习和使用成本高,包括数据建模、数据收集和处理、数据可视化等。
○ 数据价值挖掘困难
由于当前技术手段还不具备日志数据关联分析的能力,只能人为通过单独的日志分析来对故障影响范围进行排查,无法以某一个错误日志事件为点,轻松辐射出整个业务系统的故障影响面,运维人员无法完成对运维的日志数据进行有效的关联分析。导致当运维人员收到一个告警后,无法很快地了解其对各个业务具体会产生多大影响。
Pain points 某汽车集团业务运营存在的痛点
○ 数据参差不齐
集团的业务复杂,系统繁多,其运营过程产生的数据来自不同的数据源,如数据库、API 接口、虚拟/容器化、Excel 文件等。这些数据源的格式、数据类型差异大,部分数据质量不达标,数据分析过程中如经常遇到数据重复、数据缺失、数据异常等。这些问题若不能被及时发现和有效解决,将导致数据处理和分析的难度增加,数据分析的结果不准确或无效。因此需要建立规范的数据治理流程和数据处理规范加以完善。
○ 数据分析工序复杂
集团内部运营数据采集、预处理等工作的周期普遍较长,业务数据的处理需要多种技能和工具,如数据清洗、数据转换、数据聚合等,这些处理过程可能需要耗费大量时间和人力,常规的开源工具配置项多,调试负责,处理效率低,无法快速挖掘整理出完善优质的数据属性供分析应用,导致数据分析的效率降低。
○ 数据安全难把握
良好的数据分析效果依赖于数据的可视化展示能力,往往需要专业的技能和工具,如数据报告编写,数据图表制作等。这些工作需要耗费大量时间和精力;而将数据可视化后又会遇到数据安全性和隐私问题。因为业务数据通常会包含敏感信息,如客户个人信息、公司机密等。这些信息既要能方便的进行分析展示,又需要得到妥善的保护,如何在保护数据安全和隐私的同时进行高效的数据分析是一个挑战。
Solution 解决方案
○ 数据统一采集、存储与备份管理
KetaDB 机器数据分析平台提供了近 300 多种采集数据源对接能力,针对不同类型的业务运营和系统运维数据,可以单独配置不同的仓库类型与存储策略,包括:业务运营数据(metrics、tracing),系统运维(logs、events)等几乎所有的数据类型。同时结合对某某集团的调研结果,输出统一的数据管理规范,针对超长周期存储要求的数据,平台还提供方便的备份导出功能,将数据归档至第三方存储以降低存储成本。
○ 界面化交互式搜索与高级搜索轻松切换
考虑到运维部门与运营部门用户的技术基础水平不一,平台针对非技术的业务运营人员与专业技术人员,分别提供了简单易用的界面交互式搜索能力与复杂的 SPL 高级搜索语言能力。运营人员可以通过界面点选的方式对日志数据进行快速的搜索,同时能实现简单的统计分析能力。另外平台还支持提供近百种功能强大的 SPL 分析算子面向专业的运维技术人员进行更详尽的数据分析。
○ RBAC的细粒度权限管控与数据脱敏配置
平台对接了集团内部的统一用户体系,同时针对登录到系统里的用户,可以通过部门和岗位角色,基于 RBAC 的权限体系来配置不同的角色以分配不同的功能列表权限、数据仓库管理权限和数据检索权限。同时针对运营场景的部分敏感数据可以配置脱敏规则,只有运营业务管理员才可以查看对应的敏感数据。
○ 模式聚类分析与关联分析能力
针对日增 TB 级别的海量运维日志数据,KetaDB 机器数据分析平台提供了专门针对半结构化数据的日志模式聚类能力,通过分析日志内容中的字段分隔模式和规律,将相似的日志模式聚集在一起,方便用户一眼便可纵观日志整体概况。同时平台还提供了强大的关联分析能力,可以通过关联数据库表、离线 excel 表、消息队列或第三方 API 等数据以丰富日志内容。
○ 强大的对接开放能力
平台自带开发 API SDK,用户可以通过调用平台的各个 API 来调用各功能模块,将工单审批、权限控制与平台功能完美结合成为一条自动化流程,以实现运维流程自动化,如:通过运维流程管理平台提交一份日志采集的申请工单,工单审批完成后通过脚本自动配置采集任务与数据存储仓库权限,大大提高了运维管理的效率。
Achievement 成果展示
○ 场景1 - 等保合规
通过平台统一数据存储管理能力,帮助集团通过严格的等保合规要求,将日志存储 180 天至 3 年不等,通过自身数据分析统计,集团内部数据日增平均为 10TB 左右,其中主要数据量来自网关及负载均衡等设备。
○ 场景2 - 数据统一规范输出
根据对集团内部数据情况的调研,编写数据统一采集管理解析规范,帮助客户解析不同类型数据源近百种,对数据进行统一约束和规范,对数据进行建模、清洗、转换、抽取等工作,为业务应用提供黄金数据,具体规范文档包括不限于如下内容:
操作系统(20+)
数据库(20+)
中间件(50+)
基础平台(10+)
网络及安全设备(15+)
○ 场景3 - 数据分析可视化展示部分效果图
日志数据统计分析
安全数据统计分析
○ 场景4 - 容器数据自动化采集
1. KetaDB支持容器日志自动化采集功能,同时支持docker、containerd、DRI-O等多种容器运行时
2. 通过平台上的步骤以Daemon Set模式给容器平台每个节点部署一个keta-agent的pod,这样可以保持对业务完全无侵入
3. 部署完成后,通过界面配置,可以全面支持Stdout、容器内、挂载卷各种日志场景,以及各种容器运行时,对日志打印方式无任何要求
4. 全面支持云原生的日志采集方式,支持复杂的标签复合筛选,精准对于业务进行日志分类
除此之外,平台还可以通过 agent 获取到整个容器化平台的基本信息进行数据统计及监控分析
○ 场景5 - 自动化流程对接
基于汽车集团内部的运维流程管理平台规范及要求,最大化地利用 KetaDB 的开放性原则,通过平台的自定义 SDK,调用 API 实现自动化运维流程调用系统的开发及落地,最终实现 KetaDB 与运维流程管理平台自动化的闭环。比如自动创建采集任务、自动同步用户对应的数仓权限等场景。
Income 客户收益
溪数科技对汽车集团的业务运营与系统运维情况进行深度调研分析,通过建设 KetaDB 机器数据分析平台,围绕业务运营与系统日志进行采集、存储、分析、可视化展示及监控告警等方面,帮助集团取得了显著的运维成效:
○ 数据统一管理规范
某某集团携手溪数科技,共同探讨并设计符合集团内部实际场景的数据统一采集管理分析规范,使得数据的采集分析存储和使用具备统一的标准与流程,提升了数据价值挖掘的效率,最终让数据更好地为某某集团的决策提供支撑。
○ 数据全生命周期管理,满足等保合规要求
在统一的数据管理规范下,通过采集集团多基地多部门多环境中的数据,对数据采集任务的运行状态实时监控,确保数据采集的安全性和准确性;数据存储采用热温冷分级压缩存储方案,在降低存储成本的同时满足政策监管和安全审计。
○ 数据实时分析,快速识别异常
通过提取数据中的关键内容信息,实时监控各环境各业务系统状态及系统资源使用情况,根据自定义告警规则进行数据监控,告警事件信息秒级查询, 帮助运营部门快速发现数据异常, 协助运维人员提高排障效率。
○ 数据可视化分析,辅助运营决策
通过 KetaDB 机器数据分析平台,对解析后的各类业务与系统数据进行可视化关联分析,并通过各类可视化组件进行展示,提升数据价值体现;同时将分析结果数据反哺至业务平台,满足不同部门的数据分析优化需求。
诚邀您来体验KetaOps产品申请试用 - 解决方案