WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

技术文档 > 高密度服务器 > 正文
专家建议:实现服务器性能完整性的有效方法
作者: litao984lt编译 2018-06-15 13:42 【机房360】

现如今,企业用户满意度的提升、对于监管合规性以及服务级别协议的遵守均取决于服务器性能的完整性。但是,如若没有制定出一套适当的管理策略,那么企业业务的相关关键工作负载将会更容易受到宕机的影响。

在本文中,我们将帮助广大读者朋友们了解如何加强贵公司数据中心的服务器管理和监控策略,并还将通过帮助大家了解如何选择合适的性能监控工具,来提升服务器工作负载的可靠性。

服务器的管理显然是数据中心管理的核心职责之一。但是如果缺乏适当的监控策略,您企业的服务器可能会比您想象的更加脆弱。而当用户满意度的提升、对于监管合规性和服务级别协议的遵守全部都需要取决于服务器性能的完整性时,您的数据中心将根本无法承担起任何有效的责任。

强化您数据中心的服务器管理和监控策略

服务器管理和监控是数据中心管理的重要组成部分。其需要您企业数据中心的管理运营人员们对于相关的服务器有着全面的了解,并通过深思熟虑之后制定的监控策略,仔细准备好一旦服务器发生停机后第一时间应当如何应对。而且,在当下这样一个云服务和主机托管服务饱和的行业,对于服务器的管理越来越需要有一套万全的计划来迁移相关的设备。

如下,业界的专家们将为我们给出关于企业数据中心加强服务器的管理和监控策略的相关贴士,请务必充分结合考虑您企业自身的IT环境需求。

1、不要让记录文档变得毫无意义

为了实现对于您企业数据中心服务器的有效管理,您将需要收集整理相关的文档。并尽可能多地收集有关服务器的信息,包括诸如从服务器产品的序列号和型号到SCSI详细信息;乃至接口类型。如果其是虚拟化的服务器,则需要在记录文档清单中包含虚拟化的供应商、虚拟机管理程序产品和版本。

如果对于这些记录文档的收集是依靠人工手动完成的,那么此过程可能非常乏味,但是您企业可以通过使用自定义的脚本(例如Windows Server PowerShell中的自定义脚本)来自动捕获服务器的配置和清单。实施一套全面的变更管理策略,防止任何导致意外中断其他系统的系统更改。例如,微软的PowerShell Desired State Configuration (DSC)可确保每款硬件或软件组件不会从其已知状态而改变。

2、监控是预防资源浪费的关键

根据Uptime Institute称,虽然整合和虚拟化技术已经帮助当今企业的数据中心减缓了空间紧张的问题,但仍然有30%的服务器被认为是“休眠服务器(comatose server) ”或“僵尸服务器(zombie server)”。这些服务器消耗了大量昂贵的资源但却并不提供任何用处。直接或间接地,僵尸服务器不必要地耗费了大量的电力和冷却能源。

谨慎的服务器管理和监控对于对付僵尸系统是至关重要的。首先,企业需要选择数据中心基础设施管理(DCIM)平台,配置管理数据库或自制的自动化工具。使用您企业所选择的工具,监控CPU的利用率和功耗情况,然后确定未被使用的资源,以发现并消除僵尸服务器。另一种选择方案是指派一名专门的工作人员定期测量和测试服务器的利用率。

3、实施升级还是更换策略?

任何服务器监控和管理策略的最为关键的部分是决定:到底是应该升级老旧的服务器还是完全替代老化的系统。简单的升级通常更具成本效益,但还有其他方面的因素需要考虑,例如增长曲线和性能。如果对于您企业服务器内存或存储的升级无法维持到您企业的下一个预算周期,那么采取升级策略最终甚至可能导致更加昂贵的费用开销。

如果您的服务器可以容纳固态驱动器,则从旋转磁盘驱动器中对其实施迁移可以显著的提高性能。但是,这种升级可能会引起性能方面的问题。同样,系统某个部分的改进可能会迫使其他部分尝试跟进,这可能会造成瓶颈问题。

当涉及到采取升级策略时,不同类型的服务器的具体升级策略会有所不同。刀片式服务器有着强大的供应商锁定,这使得添加商用现货(COTS)组件成为了一大难题。有时候,对刀片服务器实施升级并不是一种选择,因为供应商可能不会继续生产该刀片系列产品。

而另一方面,机架式服务器则更容易升级。机架式服务器的使用寿命一般为3至4年,属于大多数企业的更新周期范围内。此外,添加COTS组件的选项通常更适用于机架式服务器,这可以使升级更容易。

4、准备迁移并使迁移顺利完成

在对您数据中心的服务器实施管理和监控的过程中,您可能需要计划从企业内部部署环境迁移到托管设施——这是一个需要大量准备工作的过程。提前计算好您将要迁移的服务器所需的功率、空间和散。由于许多主机托管设施都有自己的预接线机架,因此您企业可能需要以不同的方式分配服务器,并为您的设备创建新的物理部署规划图。

确定您企业业务是否能够承受在搬迁过程中的停机中断。如果可以的话,请将那些专用于特定工作负载的服务器关闭,在迁移完成之后重新开启。如果不是的话,则可以考虑使用虚拟化服务器在子系统上运行作业,以便在迁移过程中关闭部分服务器。指定一名“迁移管理员”来负责识别和沟通出现的任何问题会很有帮助。

在迁移当天,关闭或迁移应用程序到其他虚拟机,然后关闭服务器。系好或捆扎好内部和光纤电缆以将其保持在位。聘请专业的电脑搬迁服务公司可能是值得的。但无论采用哪种方式,您企业数据中心都应该使用气垫面包车来运输服务器,避免路上的颠簸。在负责迁移的人员将服务器设备交付和安装完毕后,连接电源、冷却系统、交换机和路由器,然后进行目视检查,以确保没有任何松动或突兀。

服务器性能监控软件采购指南

服务器性能的监控和管理不仅仅只是指标的收集。服务器的性能可以直接影响到企业工作负载的性能。这会影响业务标准,例如用户的满意度,以及对于服务级别协议和监管法规的遵从。

服务器性能通过软件工具进行监控,但选择最佳的服务器性能监控软件则可能是一个复杂而耗时的过程。市场上有许多的服务器性能监视软件产品可供选择,并且涵盖了一系列成本、复杂性和功能各不相同的产品。故而企业数据中心在选择新的服务器性能监控平台时请务必考虑以下几点:

1、性能监测软件的特点和功能

选择服务器性能监控软件时要克服的最困难的障碍之一是首先确定所要监控的内容。

现代服务器性能监控工具远远超越了传统工具(如微软的PerfMon)仅仅对于CPU、内存和I / O度量数据的收集。预先建立工具的监控范围将使您能够更轻松地过滤过于简单或过于复杂的产品,以满足您企业的监控需求。

考虑对于重要的基础性技术的支持,如虚拟化。例如,该工具应支持Hyper-V和ESXi等主流的虚拟管理程序,并且应能够报告物理和虚拟服务器的运行状况和性能。许多工具提供了复杂的功能,涵盖特定于应用程序的监视以及对网络、存储和其他基础架构的监控。

诸如SolarWinds Worldwide, LLC.公司的服务器和应用程序监视器这样的平台可以抽象出基本的硬件指标,以支持应用程序级别的监控。其可以映射基础架构的依赖关系,以帮助执行诸如容量规划和根本原因故障排除等任务,并且可以提供对200多款企业应用程序或应用程序平台的详细监控。服务器和应用程序监视器还可以跟踪服务器存储卷、磁盘使用情况和容量,并且可以将监控扩展到公共云和混合云的网络行为。

2、考虑同质或异构数据中心硬件环境

考虑您企业数据中心所选择的工具所将支持的硬件环境。围绕同质硬件环境所构建的数据中心通常使用供应商建议的管理和监控工具。例如,超融合基础设施(HCI)平台通常使用HCI供应商的监控和管理工具,但更传统的异构数据中心可能使用通用的服务器性能监控软件效果更好。

例如,思科的HyperFlex系列HCI平台使用思科HyperFlex Connect平台提供最佳的管理效果,而Nutanix平台用户可能会选择使用本地Prism工具进行HCI的管理。在这两种情况下,该软件工具均针对硬件平台进行量身定制,从而提供更方便和准确的报告。

通过混合供应商的产品和平台所构建的更传统的数据中心通常具有更多的监控和管理软件选项;评估工具所收集的度量标准和其他数据的准确性和细粒度非常重要。

必须容纳更多异构系统的工具更容易忽视、省略或误报更多系统细节。这可以强制系统管理员们使用多款工具来适应任何不兼容或集成的缺陷。理想情况下,管理员应该为系统管理任务寻找一款单一的平台,例如服务器性能监控。采用多款工具在不同系统上执行相同的工作是不可取的。

3、数据收集机制

评估每款服务器性能监控软件所使用的数据收集方案,并考虑这些方案对数据中心日常运营的影响。一款工具应该能够从本地收集每个系统的数据,而无需补充数据收集机制。这种无代理操作对于那些针对底层系统量身定制工具的同质环境而言是司空见惯的。该工具是为了从有限范围的硬件和软件中收集特定数据而编写的,因此不需要额外的机制。不幸的是,这些工具无法支持超出预期范围的系统和软件。

软件代理支持更广泛的系统和软件。代理是一些小型软件应用程序,适合在特定系统上运行,收集所需数据(如性能指标和依赖关系),并将数据报告回中央存储库(如监控服务器)。该中央存储库可组织,处理和可视化数据。代理对于监控异构环境而言非常的普遍,并且它们可以针对几乎任何系统进行量身定制。代理提供了多功能性,但它们也带来了IT管理员必须管理和维护的额外工作负载。错误可能发生,管理员必须定期应用修补程序和更新。这增加了系统管理员必须定期处理的工作量管理任务。

插件或管理包(安装在工具内,并通过附加系统扩展其功能)是代理的替代方案。插件通常用于支持特定的应用程序或环境。

例如,Microsoft System Center Operations Manager(SCOM)使用插件进行扩展,以管理AWS公共云中的资源。同样,SCOM可以使用管理包来支持思科统一计算系统平台。 ManageEngine OpManager提供了一款应用程序性能管理插件,可监控应用程序的可用性,运行状况和性能。

系统性能数据收集的另一种方法是使用API​​。系统或软件平台收集某些数据,并通过预先定义的API进行公开,开发人员创建包含SDK或其他能够通过这些API访问和交换数据的库的软件。

因此,API通常用于集成多款软件工具,而不是直接从服务器或其他硬件访问和收集数据。不过,管理员在选择和评估任何依赖于API的工具时必须考虑API的版本和兼容性问题。

4、存储和网络

服务器性能监控软件可以以度量和日志的形式生成大量的数据。这可能会对网络和存储产生重大需求。

例如,数百台实时提供高分辨率指标的服务器产生的流量可能会造成有限的网络带宽压力。考虑代理的带宽需求是非常重要的,特别是当代理商在虚拟化系统中激增时,并评估在环境中收集数据的最佳方式。例如,一些工具可能会在本地收集数据,并且只会定期将批量的数据通过网络迁移到中央服务器进行处理和报告。

此外,原始指标和日志必须存储在一个支持数据库(如SQL)中。必须根据现行的监管政策对存储的数据进行处理,可视化,并最终进行数据的保存和保护。

所有这些存储和保存都需要充足的磁盘容量和对存储子系统性能的关注。

例如,服务器性能监控平台可能需要RAID卷才能满足存储I / O需求。大型服务器环境可能需要对存储容量和数据保护进行额外的投资,以支持全面的服务器性能监控部署。

5、工具集成

管理员必须处理的工具越多,每项任务所耗费的时间和发生错误的几率就越多。尽管单一面板管理对于许多企业来说仍然是一个难以捉摸的目标,但是通过API和插件等机制系统地改进了工具集成。

这些集成允许工具共享数据和报告,以创建更加无处不在的管理环境。管理员必须考虑他们所选择的服务器性能监控软件如何与其操作运营中可能存在的其他监控和管理工具进行互操作。

很少有集成是本地的或自动的,管理员应该预料到工具的集成会涉及到一定程度的工作,以解决数据格式或通信首选项中的细微差别。例如,管理员可能希望通过简单的网络管理协议消息传递来集成两个工具,但可能需要一些其它的工具来配置这些工具,以确定它们如何解析或处理消息。

6、云支持

许多企业都采用了公共云和混合云,但公共云提供商通过API公开基础架构详细信息——例如资源调配,使用情况和关键性能指标。因此,服务器性能管理工具可以访问和报告用户帐户数据。

例如,SolarWinds服务器和应用程序监视器可以监视本地基础架构以及AWS和Microsoft Azure中的基础架构。即使企业计划在未来某个时候使用公共云,也可能通过选择包含云支持的监控工具来确保新工具的价值。

7、供应商支持

供应商的响应能力和所提供的支持的质量这一问题往往被忽视,直到产品出现问题时为止。但是当企业客户的基础设施依赖于监控工具时,通常值得对供应商的支持选项进行调查和比较。

评估供应商所提供的电话、电子邮件和基于Web的支持。查看它们的培训材料和指南。查看发行说明和产品规划图。就算是世界级的工具,如果不奏效,就是没用的。

8、自定义选项

服务器性能监控软件必须能够以有用的方式为管理员提供所需要的信息。对于每家企业而言,所需的信息是不同的,因此重要的是要考虑每款预期工具所提供的自定义设置。将所需数据点打开或关闭的功能;改变每个数据点的位置或重点,例如使重要的KPI图大于不太重要的图;或者选择其他显示样式:例如条形图与饼图 - 可以使相关性能信息的可读性带来巨大差异。

例如,Zabbix LLC公司提供可视化元素的大量定制,例如显示布局、图形、网络地图、甚至幻灯片,可在各种配置屏幕之间自动切换。

9、部署选项

IT部署了传统的服务器性能监控软件,但越来越多的工具可用作基于云的服务。例如,思科AppDynamics平台可用于企业内部部署或SaaS部署,而Anturis监控服务则仅用于监控服务器、应用程序、网站和网络的SaaS工具。

企业内部部署环境为企业提供了更多的控制权和所有权,但也使得企业需要承担该工具及其运营的所有责任和成本。采用该工具作为服务会产生月度成本,而该成本可能会根据其所监控的基础架构规模的不同而有所不同。故而评估预期工具时,考虑每个部署选项的优缺点非常重要。

10、成本

最终,服务器性能监控软件的选择还需要考虑价格成本因素。商业软件的成本通常包括预付许可费用,其次是支持和更新的额外成本。但是,精明的买家可能会与渴望获得或扩大企业存在的供应商达成有吸引力的交易。通过与供应商的谈判可以获得更好的许可和支持条款。

当然,市场上也有流行的开源监控替代品。开源工具没有前期采购成本,但企业可能会为经过测试的企业级构建寻求高级支持。例如,Nagios公司提供了一系列年度维护和支持计划,可提供软件升级、电子邮件支持、论坛、培训和下载服务。


标签:高密度服务器 

LecVideo