2015年5月15日 网络

再次揭穿一个神话:高可用性仍然不是运营商级的

由查理·阿什顿

C.Ashton

差不多一年前,我写了一篇帖子关于“高可用性”和“运营商级可靠性”在电信网络中的区别。

刚刚发表的一份令人着迷的白皮书详细探讨了这一主题,所以现在似乎是讨论最近关于这一主题的一些讨论并将感兴趣的读者引向这一新的、深入的分析的合适时机。

在过去的12个月里,我们看到了网络功能虚拟化(NFV)的巨大进步。服务提供商已经超越了最初的概念验证(Proof-of-Concepts, PoCs),并开始在技术成熟且业务效益明确的用例中部署NFV,比如虚拟客户前提设备(Customer Premise Equipment, vCPE)功能。与此同时,ETSI NFV计划已经完成了阶段1,这是关于定义架构需求的。现在已经进入了第二阶段,工作小组将开发详细的规范,并处理一系列复杂的技术问题,这些问题必须得到解决,才能在多个级别上广泛部署基于开放标准的高可靠实现。当然,对于启动这项计划的服务提供商来说,所有这些工作的最终目标仍然是收入增长、运营成本降低和首席财务官们的微笑。

在最近的行业活动中就像旋风一样全球移动大会和不那么狂热的设置NFV & SDN峰会在美国,我们看到行业专家参与了冗长的讨论,讨论如何正确地保证对电信网络至关重要的可靠性和弹性。在一些领域有明确的共识,而在其他领域仍在争论。每个人似乎都同意的一点是,企业客户不会在他们所支付的服务的可靠性预期上妥协。对于基于物理设备的传统网络基础设施,服务提供商已经为其提供的服务设置了一个99.999%(5 - 9)可靠性标准(至少在重要的服务和客户情况下)。他们与企业客户签署严格的服务水平协议(sla),为一组已定义的服务保证5 - 9的可靠性。如果不能维持正常运行时间,这些sla将使他们承担重大的经济惩罚。

即使拥有当今高可靠的物理基础设施,全球的服务提供商仍然经历了足够多的服务中断,根据最近的一份Heavy Reading报告,宕机造成的损失占其收入的1%至5%,相当于整个行业每年约150亿美元。

(当然,普通消费者没有这些严格的sla的好处。你和我只是咒骂,重拨或重新连接,如果问题足够频繁,就切换到另一个提供商,徒劳地希望他们会做得更好。但那是另一个故事了.....)

有趣的争论是关于如何在基于NFV的网络上维持这种级别的服务正常运行时间。

一种学派认为解决方案是应用程序级高可用性(HA)。这个概念将确保服务级别可靠性的负担放在了应用程序本身上,在NFV实现中,这就是虚拟网络功能(VNFs)。如果可以实现,这是一个很有吸引力的想法,因为这意味着底层的NFV Infrastructure (NFVI)可以基于简单的开源或企业级平台。

尽管这些为IT应用设计的平台通常只能达到99.9%的可靠性,但如果应用程序本身能够从任何潜在的平台故障、电力中断、网络攻击、链接故障等中恢复,同时还能在服务器维护事件中维持其运行,那也是可以接受的。

不幸的是,应用程序级HA本身并不能实现这些目标。无论您选择哪种标准HA配置(主/备、主/主、负载均衡的N-Way Active),都不足以确保平台级的运营商级可靠性。

为了确保在NFV实现中交付的服务的5 - 9可用性,您需要一个能够保证的系统six-nines (99.9999%)平台级的正常运行时间,以便平台能够足够快地检测到故障并从故障中恢复,以维持服务的运行。这意味着平台需要处理大量应用程序无法处理的破坏性事件,因为它们没有适当的系统感知或平台管理能力。

从业务的角度来看,这是一个关键的概念。NFV本应提高服务提供商的收入,但如果我们在不够可靠的网络基础设施上部署NFV,收入实际上会受到影响,因为SLA罚款和处理中断的成本都会增加。这不是实现我们之前提到的微笑cfo最终目标的方法。

对于任何参与设计、开发或部署端到端NFV解决方案的任何部分的人,这份新的白皮书”NFV:应用级别HA的神话是必读书目。它对应用层HA和载波级平台之间的权衡进行了详细的技术分析,并为我们提供了一个明确的方向。

以前的你在持续集成方面做得怎么样?
下一个神话中的“一刀切”