您好,欢迎来到飒榕旅游知识分享网。
搜索
您的当前位置:首页浅谈数据中心的运维管理

浅谈数据中心的运维管理

来源:飒榕旅游知识分享网
第1期(总第158期) 2016年3月 四川地震 EARTHQUAKE RESEARCH IN SICHUAN No.1 Mal-.2016 浅谈数据中心的运维管理 林 洋,张颖 (四川省地震局,四川成都610041) 摘要:数据中心是信息化的核心,其运维管理涉及整个运行、维护的全过程,涉及大量的设施、设备和不同的技术 领域。结合四川省地震局数据中心的情况,对运维对象进行了梳理,并从制度管理、信息管理和运维保障工作方面 进行了分析和探讨,以期能对数据中心的运维管理工作提供借鉴。 关键词:数据中心;运维管理;分析 中图分类号:TP393 文献标识码:B 文章编号:1001—8115(2016)O1—0022—03 DOI:10.13716/j.cnki.1001—81 15.2016.01.005 随着信息技术(IT)及其应用的不断发展,数据中心成为了信息化社会的IT基础设施,作为信息系统的 通信中心、运营中心、测试中心和灾备中心,承担着核心业务运营、信息资源服务、关键业务计算、数据存储和 备份,确保业务连续性等重要任务。近年来,无论是芯片、架构、系统还是软件都取得了很大进步,刀片系统、 多核技术、虚拟化应用、冷却技术、智能管理软件等新技术层出不穷,业务集中、数据集中化已经成为信息化 建设的主流趋势,也是管理集约化的必然要求,是优化业务流程的必要手段Llj。数据中心是整个信息化的 核心,因此,数据中心运维管理问题越来越得到业内的广泛重视。四川省地震局经过多年的建设,已初步建 成数据中心,形成了四川省地震行业网络通信中心和业务运营中心。四川省地震局采用虚拟化技术,建立了’ 统一的数据存储,承载了地震监测、应急、震防等业务系统及信息服务系统。为加强数据中心的运维管理工 作,确保数据中心安全、可靠、持续与高效运行,为业务系统稳定运行和信息资源综合利用提供坚实的基础支 持,这里就四川省地震局数据中心的运维管理工作进行了思考和分析。 1数据中心的基本组成 数据中心一般由主机房、辅助区、支持区、管理区等功能区组成 。数据中心是一套复杂的设施,它不 仅仅包括计算机系统和与之配套的设备,例如通信和存储系统,还包含冗余的数据通信连接、环境控制设备、 监控设备以及各种安全设施。总体来说,数据中心的组成主要包括机房基础设施和信息化基础设施。机房 基础设施又主要包括机房、弱电系统、安防系统、电气系统和空调系统等。信息化基础设施主要包括通信网 络、主机、存储和安全等系统。 2数据中心的运维管理 数据中心是信息系统运行的物理载体,只有运维好一个数据中心,才能发挥其作用,使其能更好为业务 系统提供强大的支持能力。数据中心的运维在于精确控制,加上管理水平和服务质量的不断提高,其运维目 标是确保数据中心正常而可靠地运行,并能使系统不断得到改善。影响可维护性的主要因素是:对数据中心 运维对象可理解性、可预见性、可修改性。这三个因素密切相关,只有清晰、准确理解各个对象,才能进行恰 当的修改;只有具备准确的可预见的目标,才能保证修改的正确。 2.1运维对象 目前,四川省地震局数据中心的运维对象主要包括机房基础设施、信息化基础设施和应用软件系统。 (1)机房基础设施 机房基础设施主要指为保障数据中心所管理的IT设备正常运行所必需的布线系统、供配电系统、安防 收稿日期:2015—09—21 作者简介:林洋(1979一),男,四川省西昌市人,高级工程师 2016年3月 林洋,等:浅谈数据中心的运维管理 ·23· 系统、空调系统等。这部分设备对于业务用户来说几乎是透明的,因为用户一般只会关注业务是否正常,并 不会关注到基础设施部分,但是,这类设备对数据中心的重要性是毋庸置疑的,如果发生意外,对依托在其上 的IT应用来说,产生问题的后果将是致命的,而且对数据中心而言就是灾难。试想一下,如果机房的供电系 统出现故障,势必会导致设备的断电、宕机,造成业务中断。所以,在机房建设时应该考虑供电的冗余和备用 供电方式。 (2)信息化基础设施 信息化基础设施主要指提供业务运营服务所需要的各种IT设备,包括网络、服务器、存储、安全等硬件 资源。这类设备在向用户提供IT服务过程中提供了通信、计算、存储及安全等功能,是IT服务最直接的物 理载体。随着虚拟化、云技术的应用,对于数据中心而言,信息化基础设施会越来越集中化、简约化,也就是 说我们的业务系统会由以前各自部署在独立的服务器上,逐步转变为集中部署和运行在少量的高性能的物 理设备上,特别是网络、主机和存储设备。而随着业务应用越多,连续性要求越高,信息化基础设施的重要性 就不言而喻了,尤其是核心设备及共用设备,也必须关注其可靠性、冗余性或适当的备份。 (3)应用系统 应用系统包括操作系统、数据库、中间件、应用软件及业务数据、配置文件、日志等。这类对象是IT服务 的逻辑载体,也是业务服务的最终表现。是业务系统运行和使用的直接表现。业务系统之间通常会有信息 传递和数据交互,业务系统的正常运行是运维管理的最终目标。 2.2运维管理 数据中心的运维管理主要包括制度管理、信息管理和具体运维保障管理。制度管理用以规范运维操作, 信息管理是对数据中心的各种基础信息和运行信息的管理和分析,运维保障工作是在制度管理下,在准确、 详细的信息基础上开展具体的运维工作。同时,运维工作会导致运维信息的变化,促进运维经验的积累,长 期管理之后就能反映管理制度的优劣,能够促使管理制度优化,三方面的工作是相辅相成的。 (1)制度管理 数据中心的设施、设备较多,线缆复杂,参与数据中心的运维人员也较多,如IT运维人员、各系统管理 员、数据中心管理人员及各服务商等。而正因为数据中心这种人员多和设备较多以及其线缆复杂性,使得数 据中心危机四伏,任何一个没有注意到的隐患都可能引发故障。如设施、设备和线缆故障,运维人员维护操 作中无意识的触碰,对设备参数的调整等,都存在产生故障和影响数据中心业务正常运行的风险。因此,应 建立切实可行的数据中心管理制度、规范和流程,规范数据中心机房、设备及应用系统的管理,严格控制人员 对环境和设备的影响,避免控制人员在管理和操作上的随意I生,规避误操作,有效应对和处置核心设备、网络 和应用系统故障等。 (2)信息管理 数据中心的运维工作是对数据中心机房基础设施、信息化基础设施和应用系统的运维,最终体现在业务 应用和服务上。而保障运维工作有效开展,促进运维管理水平和服务质量不断提高的基础是全面、清晰地掌 握运维对象的信息及其相关性。数据中心的运维信息主要包括两类,即基础信息和运维工作信息。基础信 息主要指数据中心机房基础信息、信息化基础信息和应用系统信息,这些信息基本上是固定的,在一定时间 范围内不会发生变化。机房基础信息是指描述机房布线系统、供配电系统、安防系统、精密空调系统等方面 的信息,主要包括机房位置、功能分区、设备及布局、供配电设施及图纸、综合布线、管道敷设等资料;信息化 基础信息主要包括通信资源(通信线缆类别、带宽、线路编号、端接设备、安装位置、用途等)、设备(设备名 称、品牌型号、配置、用途等)、网络(网络结构、区域划分、IP规划、路由策略、访问策略、物理连接情况等)、网 络安全(安全设备部署结构、安全区域划分、详细安全策略等)、虚拟化平台(虚拟化平台结构、物理连接情 况、存储分配信息、虚拟机部署和应用信息)等资料;应用系统信息包括系统部署的服务器(性能参数、网络 配置、用户和密码等)、应用系统(部署位置、支撑软件、数据存储位置、使用或访问方式)、关联信息(与其他 系统之间的关联情况)等。 运维工作信息是指运维管理过程中的各种工作记录。日志记录:机房人员出入记录,设备、网络和应用 系统维护日志等;故障处理:各种故障情况描述、处理过程记录、处理结果;设备变化:设备新增、调整、更换记 录等;配置调整:网络配置、安全配置、服务器及应用系统调整等;监控数据:主要设备运行监控数据、网络安 全监控数据等。 信息管理的好坏,直接影响到运维工作的开展,有效地对信息进行管理,就能够清楚了解不同设备、不同 ·24· 四川地震 2016年第1期 应用间的逻辑关系和辩证关系,能够在进行设备或系统调整、变更时做出准确的预判,或出现异常及故障时 能够快速确定其影响内容及范围。而通过运维工作信息的积累和管理,逐渐建立起运维相关的知识库或经 验库,也有利于运维工作的开展。特别是当数据中心的管理人员和运维人员发生变动时,能够提供丰富、全 面的信息,有利于对数据中心情况的全面熟悉和掌握。 (3)运维保障工作 运维保障工作,其最终目标就是保障业务和服务的正常开展,而业务和服务的正常开展依赖于数据中心 的各种设施、设备、网络和应用系统的正常运行等,因此各方面的运维保障能力尤为重要。运维保障能力体 现在长期有效保障业务系统的连续、正常运行,在系统中断时能够及时进行恢复。而促进运维保障能力提升 的关键因素是运维技术能力的高超,这种技术能力体现在运维人员技术水平和得力的运维管理工具。 人员是数据中心运维管理的基础,也是数据中心运维管理的核心。一个好的数据中心运维管理框架,少 不了合格的技术和管理人员。只有具备相应知识背景与管理经验的人,才能有效地整合数据中心的各种资 源,提供高质量的IT服务。运维管理工具包括安防监控、环境监控、IT监控、告警平台等,是帮助管理者更高 效地管理数据中心的各种对象或工具。通过这些工具,管理者可以直观感受和分析数据中心IT相关资源的 状况,对异常进行及时告警,从而间接地提升IT的可用性与可靠性。 就目前地震行业而言,普遍存在的问题是运维保障人员少,而且几乎全是业务系统管理员,重点关注于 业务系统的运行管理和建设,对于数据中心基础设施、设备、网络及安全等的运维技术能力相对较低,同时缺 乏有力的运维管理工具,对数据中心IT资源监控力度小,对监控数据的统计分析能力较差,对异常或故障的 发现不够及时。因此,一旦发生一些比较棘手的故障时,必须依靠专业的服务商,而现实存在的情况往往是 与服务商缺乏长期的合作机制,导致服务的不及时,因而影响系统的正常连续运行。 3 结束语 数据中心运维管理涉及整个运行、维护的全过程,涉及大量不同种类的设施、设备,而IT技术的发展促 使了数据中心基础设施技术的不断变化,新技术的发展也意味着设施、设备更新换代的周期缩短,随着数据 中心容量的增加、规模的扩大以及新型设备与技术的引入,数据中心运行与维护的难度也在加大,导致自有 人员不能够完全承担所有的技术问题处理和管理工作。数据中心应该结合业务实际,建立完善的运维管理 体系,分析不同故障的危害程度,结合对业务和服务中断的容忍度,综合考虑提高数据中心各方面的保障力 度。因此要加强数据中心运维投入,以期通过采用适当的技术措施,提升基础设施、核心设备和应用的可靠 性、冗余性,加强运行监控和信息分析,建立与专业服务商的合作,获取专业的IT运维技术服务等,从而有效 加强数据中心的运维保障能力,最终实现运维目标。 参考文献 [1]顾大伟,郭建兵,黄伟,等.数据中心建设与管理指南[M].北京:电子工业出版社,2010 [2]GB 50174—2008.电子信息系统机房设计规范[s]. Discussion on the operation and maintenance management of seismic data center of Sichuan Province Lin Yang,Zhang Ying (Earthquake Administration of Sichuan Province,Sichuan Chengdu 610041,China) Abstract:Data center iS the core of information technology.Maintenance and management of data center involves the entire operation and maintenance.It also involves a large number of equipment.facilities and different technical areas.Based on speciifc situation of the data center in the Earthquake Administration of Sichuan Province.this pa— per analyzes the operation and maintenance objects such as the aspects of system and information management in or- der to provide a reference for the operation and maintenance management of data centers in the future. Key words:data center;operation and maintenance management;analysis 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sarr.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务