任何网络系统都有出现故障的时候,可能发生在测试阶段,也可能发生在系统刚刚上线,还可能发生在已经稳定运行很多年的系统上。这些系统出现故障所带来的负面影响可大可小,小到一个终端的软件无法使用,大到整个网络瘫痪……
网络突发问题的例子比比皆是,2012年的双十一凌晨刚过,在第1分钟内,全国有超过1000万名独立客户“涌入”淘宝,淘宝总部的网络一度陷入瘫痪,遭到了网友们诟病,支付宝被”抢瘫”,好不容易进入支付过程,支付宝提示系统繁忙,经过反复尝试,花费用户很长时间实现支付。而京东当天流量暴涨,大量用户登录。结果京东商城的服务器被大流量冲垮,服务器也瘫痪。
作为以网络为主体的公司,难免会碰到各种各样的网络突发问题,如何解决这些问题已经成为所有企业都关注话题。本期IT大智慧就让笔者带大家了解一下常见网络突发问题的解决方案。
硬件损坏
服务器硬件故障是导致企业网络突发问题最大原因之一,由于X86服务器和台式机有着很多相似之处,无论是从前期部署、中期维护到后期管理都有着不少相同点。因此,X86服务器尽管有着成熟稳定的架构体系,也不免出现“罢工”。特别是企业负载应用得多了,遇到的故障是很平常的事情。较为常见的服务器硬件故障有处理器故障、内存故障、硬盘故障、线缆连接故障、电源、管理模块以及网卡故障等。而解决这些故障最简单的办法就是选择一些品牌质量过硬,服务较好的厂商.
目前,像戴尔PowerEdge 12G系列、联想ThinkServer系列,IBM System系列、HP ProLiant系列都能为企业用户提供经久耐用的产品,当然如果您的企业资金较为紧张,也可选用曙光等国产品牌服务器来满足您的需求。
而服务方面,能够提供金牌服务的戴尔应该算是最让人省心的服务器品牌,以戴尔PowerEdge 12G系列为例,其支持3年专业支持和 (7x24) 4小时上门服务和安装Dell PowerEdge服务器、Microsoft Windows操作系统服务,能够以最专业的服务和最快捷的上门服务快速解决企业用户服务器问题。
高温宕机
不少中小企业服务器由于需要控制成本并没有在机房托管,这也就带来一些不稳定因素,比如机房温度、断电、瞬间电流过大等情况。笔者认识一位IT运维人员,其在某企业担任系统工程师职位,在前不久,该公司发生了一次较大故障,故障成因很简单,就是由于空调物理机损坏,导致多台服务器过热,部分业务中断。在更换新的空调之后问题得以解决。当然,在没有更换之前,当时也采用了一些"笨办法",比如使用大功率的风扇、开启机房的排气窗等等,暂时缓解了空调损坏造成的不良影响。
出现故障的同时必然会造成一些业务的中断,可想而知,若是故障得不到及时的处理,那么公司网络将会处在一个"瘫痪"的状态,这将是很可怕的事情,后果不堪设想。那么如何解决类似于高温宕机这样的问题呢?
对于类似故障处理,大概遵循以下几个大的方向。首先,机房中应安装有温度报警系统,温度达到阀值后会直接报告给相关运维人员;其次需要IT运维人员收到报警巡检或定期巡检;再次,IT运维人员应检查是否误报;在确认报警内容属实进行相应处理;最后检查是否有预案,如有则按照预案处理,如无则尽快联系厂商处理,同时对此事备案。
在处理问题环节,如果在自身团队无法处理的时候,会及时和厂商联系,获取更专业的支持。
以戴尔新风冷却解决方案为例,其不仅具备高散热能力和可靠性等优势,还使得方案中的服务器、存储和网络设备允许用户在更高温度条件下安全、稳定的运行,避免因高温宕机“罢工”。
瞬间高流量压力
就像本篇一开始所说,由于瞬间流量过高导致的服务器宕机的例子比比皆是,就连耗资三亿多12306购票网站也在春节、国庆前后出现宕机意外,据不完全统计,每年春运时间仅铁道客运流量便高达4亿人次,如此高的瞬间流量难免让一个网站无法承受。
[Ok3w_NextPage]既然是全国交通购票系统网站,由国家铁道部亲自操刀主办,又投入如此大的经费,每每关键时刻出现问题,很多时候不得不让人心存疑虑。从技术角度而言,也许是因为服务器数量不足,技术不够完善等等。若说这一网站真正发挥功效的时候可谓屈指可数,十一和春节是中国最为重要的两个节日,也是人们出行高峰时节,但仅仅因为服务器数量原因而增加设备,难免在年中其它时间显得浪费。下面就让我们来一起看看网站瞬间高流量压力问题应如何解决。
首先我们先来熟悉一下这两个名词:负载均衡、应用交付。
负载均衡:(又称为负载分担),英文名称为Load Balance,其意思就是将负载(工作任务)进行平衡、分摊到多个操作单元上进行执行,例如Web服务器、FTP服务器、企业关键应用服务器和其它关键任务服务器等,从而共同完成工作任务。负载均衡设备不是基础网络设备,而是一种性能优化设备。
应用交付:就是指应用交付网络(Application Delivery Networking,简称ADN),它利用相应的网络优化/加速设备,确保用户的业务应用能够快速、安全、可靠地交付给内部员工和外部服务群。从定义中可以看出应用交付的宗旨是保证企业关键业务的可靠性、可用性与安全性。
采用负载均衡方案后,可实现支持海量并发访问、高可用、高扩展性与管理特性、高可靠性、智能负载、高伸缩性、安全性等多种优势集一身,可以较低成本解决较多瞬间高流量压力。
应用交付一方面能够在用户与应用之间建立一条快速、安全、稳定的访问通道,能保证众多的用户对应用系统的访问的稳定性的同时,还能够保证用户对应用访问的速度和安全性;另一方面,应用交付功能的复合和集中能够减少的企业的硬件的采购维护成本,同时提高了企业应用系统的运行效率,提高客户满意度。
其实对于12306网站而言,不止宕机一个问题存在,也同样不止可以通过负载均衡及应用交付等设备进行解决,这里仅仅只是挑选了其中一个问题点来进行说明,还有更多其它问题还需要相关人员进行分析处理,在这里就不做过多的讨论了。
黑客攻击
分布式拒绝服务攻击(DDoS)是目前黑客经常采用而难以防范的攻击手段。它的英文全称为Distributed Denial of Service。DDoS攻击的主要目的是让指定目标无法提供正常服务,甚至从互联网上消失,是目前最强大、最难防御的攻击之一。
目前DDoS攻击方式主要有三类,包括:
第一类以力取胜,海量数据包从互联网的各个角落蜂拥而来,堵塞IDC入口,让各种强大的硬件防御系统、快速高效的应急流程无用武之地。这种类型的攻击典型代表是ICMP Flood和UDP Flood,现在已不常见。
第二类以巧取胜,灵动而难以察觉,每隔几分钟发一个包甚至只需要一个包,就可以让豪华配置的服务器不再响应。这类攻击主要是利用协议或者软件的漏洞发起,例如Slowloris攻击、Hash冲突攻击等,需要特定环境机缘巧合下才能出现。
第三类是上述两种的混合,轻灵浑厚兼而有之,既利用了协议、系统的缺陷,又具备了海量的流量,例如SYN Flood攻击、DNS Query Flood攻击,是当前的主流攻击方式。
目前对于DDoS攻击,乃至其他类型的黑客攻击, SonicWALL网络安全设备能提供不错的多核UTM(统一威胁管理)解决方案,它提供了企业级深度包检测,并且不会明显影响网络吞吐量。可将强大的深度包检测防火墙与多层保护技术和一套高可用性功能相结合,为在分布式网络环境、校园网络和数据中心进行企业级部署提供了大范围的可扩展的解决方案。SonicWALL网络安全设备克服了现有安全解决方案的各种局限性,它能实时地对每一个数据包执行整体扫描,以检测当前出现的内部及外部威胁。NSA系列提供了入侵防御、恶意软件保护以及应用智能、控制和可视化功能,同时提供了突破性性能。对于DDoS等黑客攻击手段有着很好的防御效果。
[Ok3w_NextPage]对于网络突发问题,仅仅是解决还是不够的,预防才是正道之途。构建数据容灾备份系统,把发生网络突发问题后的损失降到最低,不管具体是什么突发问题,做好预案和备案最重要,以防止这种问题再次发生,或者再次发生后,也可以极为快速地去解决问题。总地来说,对网络突发问题,主要的工作是幕后积累。台上十分钟,台下十年功,没有充分的资源准备,没有足够的应急演练,没有丰富的处理经验,网络突发问题将是所有人的噩梦。