Key Words : 阿里云,华为云,腾讯云,AWS,AZURE,VPC,ECS,EC2,租户虚拟机流量分析,性能监控,定位排障
对于公有云租户和运营商来说,最大的问题是如何在租户业务性能下降或虚拟机流量异常时,清晰的界定故障范围,准确的厘清事故责任。
尽管APM和日志分析解决方案能够准确定位业务和代码问题,但它们缺乏对更广泛的云组件,和基础设施的性能监控能力,遇到租户业务性能下降,租户和公有云运营商常常会限于无法定位事故责任,和故障域范围的尴尬。
我们需要一种能够适应运维、业务分离,责任归属不同责任方的监控方案,而贯穿于租户和运营方的流量分析和性能监控方案,则无疑是最佳选择。
它应该可以实现对虚拟机,Docker的采集和分析能力,并具有丰富的时间类和错误类性能指标,无感觉的资源消耗,7 * 24的可视化监控能力。
1. 产品构成:JsonFlow + VPM-SAAS
> JsonFlow部署在公有云租户的虚拟机或Docker中,负责将宿主机的流量特征,解析数据并实时发送给VPM;
> VPM负责收集、管理、统计和呈现JsonFlow收集的虚拟机或docker的数据。并对用户预先设置的阈值进行告警;
> 用户只需要通过浏览器,即可实时掌握公有云各个业务和网络的性能,并可通过手机收到性能或状态异常的告警邮件。
2. 只部署JsonFlow是否可以发挥价值?
即使只部署JsonFlow,也可以帮助租户在发生事故时,通过追溯JSON和PCAP两类开放格式数据,实现基本的故障域定位值。
1) 在虚拟机或服务器上安装JsonFlow,并保持7*24运行;
2) 打开JsonFlow的数据功能,为这两类数据文件提供尽可能多的本地存储空间(FIFO规则覆盖);
3) 事故发生后,用“五元组+时间”查询数据,对真实数据进行细粒度分析;
4) JsonFlow的数据中有丰富的性能指标和状态指标,可以帮助用户实现基本的定位功能;而PCAP则可以帮助用户深入研判安全风险。
3. 适用对象
适用于AWS,AZURE,阿里云,腾讯云,华为云,等主流公有云的所有Linux和Windows虚拟机,和Linux Docker.
对于Linux Docker,需要将JsonFlow预置在Docker Image。
4. 丰富的应用场景
> 事故责任界定:根据不同时延指标的含义和数值,帮助租户和公有云运营商,快速界定性能事故,特别是时延类性能事故的故障域范围;
> 性能下降预警:合理设置10种性能指标KQI的阈值,帮助运维部门预警业务、应用和网络性能下降,并定位至导致性能下降的通信会话;
> 流量异常预警:合理设置20种状态指标KPI的阈值,帮助安全部门预警业务、应用和网络的安全风险,并定位至导致安全风险的通信会话;
> 故障域定位:通过会话查询功能,帮助工程师定位用户投诉的每次异常访问,并进一步界定投诉的故障域范围;
> 运行可视化:通过对每个宿主机10种KQI,20种KPI的图形化回溯,帮助用户掌握业务、应用和网络的运行规律,发现潜在风险,优化资源容量;
> PCAP深入研判:通过调取存储在宿主机的PCAP文件,可以对各类疑难的运维和安全事故,进一步深度研判;
> JSON应用扩展:通过输出的JSON数据,可以简单快速的接入其他大数据分析平台,并开发出更加丰富的运维和安全应用场景。
北京协软科技有限公司 © 2015-2020 EULA, Infomation and Code Secunity Statement