智能运维新范式,天翼云以AI赋能大数据SRE自治助力企业数智化跃迁

近日,数据与AI领域极具影响力的年度盛会——Cloudera 2025 Data & AI Meetup(上海站)圆满落幕。本次大会汇聚大数据行业领袖与实践者,共同探讨数据驱动与人工智能融合的最新趋势与最佳实践。

会上,天翼云科技有限公司大数据产品线产品管理专家王海发表了题为《天翼云大数据平台:AI赋能的SRE自治实践》的演讲,向与会嘉宾展示了天翼云在大数据平台智能化运维领域的前沿探索与落地成果。

在AI技术迅猛发展的背景下,如何保障大规模、高复杂度的大数据平台的极致稳定与高效运行,成为行业共同面临的严峻挑战。传统的运维模式已难以满足企业高效管理需求,智能化、自动化、自治化成为SRE(站点可靠性工程)演进的必然方向。天翼云依托在智能运维领域的创新理念、技术突破与落地实践,为行业升级带来了新思路。

理念层面,从“被动响应”向“主动治理”。针对超大规模大数据平台在监控、告警、故障定位、资源优化等方面的痛点,以及AI技术带来的变革潜力,天翼云围绕对大数据PaaS平台运营体系从“被动响应”向“主动治理”跃迁的目标,进一步明确建立数据驱动、闭环管控、业务对齐的立体化运营能力,实现“监、管、控”三位一体,推动平台从“可用”到“可信”再到“智能”的持续演进。

技术层面,构建AI驱动的SRE自治引擎。天翼云大数据团队借助三层AI引擎架构构建“感知-决策-执行”闭环,实现从“人治”到“自治”的跃迁。 智能感知层(集群的“神经末梢”):天翼云利用先进的AI算法实现对大数据平台的海量监控指标进行实时异常检测,显著提升告警准确率,减少误报漏报。智能诊断层(故障的“超级大脑”):基于知识图谱与因果推理的根因定位技术,尝试在复杂分布式环境中快速、精准地找到问题源头,将平均故障定位时间(MTTD)大幅缩短。智能执行层(自治的“机械手臂”):天翼云通过翼MR Doctor产品在容量规划、风险预警中的应用,以及AI驱动的自动化修复工作流通过链路编排能力,划分接入层、检索层、生成层到反馈层四层体系,实现从“人工响应”到“系统自愈”的关键跨越。

实践层面,实现“自治闭环”的落地。天翼云大数据产品将AI能力深度融入运维流程,构建起涵盖“感知-诊断-决策-执行-反馈”的完整自治闭环体系,并结合详细的运管智能告警案例,在平台架构设计、模型迭代优化、人机协同机制等方面积累了丰富经验。

数字经济发展对算力与运维的敏捷性、稳定性提出更高要求,天翼云持续探索AIOps与SRE深度融合,聚焦可观测性、主动风险防御、跨域协同等关键领域,围绕健康度评分、日志解析、智能RAG知识库、跨域根因分析、自适应防御和参数自动优化等多方面构建智能化运维能力,实现以点带面的效果延展,进一步打造大数据SRE智能自治新范式,为千行百业提供更智能、更可靠的数字底座,助力数字经济高质量发展。