基于云原生的集群自愈系统 Flink Cluster Inspector阿里云计算平台事业部,实时计算&托管生态 SRE
摘要:本文整理自阿里云计算平台事业部,实时计算&托管生态 SRE 团队的许雷力(阿里云技术专家)和张韦杰(阿里云开发工程师),在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为三个部分: 业务背景与挑战 成本优化 - 热点处理 整体规划和未来方向 点击查看原文视频 & 演讲PPT 一、业务背景与挑战 1.1 实时计算集群现状 关于热点机器处理一直是阿里云 Flink 集群运维的一大痛点,不管在日常还是大促都已经是比较严重的问题,同时这也是分布式系统的老大难问题。而在今年整个阿里云成本控制的背景下,随着集群水位的逐步抬升,热点问题愈发严重。日均有上千次的热点机器出现,并且在晚上业务高峰期,整个热点持续时间会超过 60min,对于业务以及对于平台影响是比较大...阅读全文