您的当前位置:首页正文

服务器运维管理手册

2022-10-07 来源:年旅网
服务器运维管理手册

XXXX有限公司

服务器运维管理手册

XXXX有限公司 运维服务部 2012/8/30

1

服务器运维管理手册

一、 文档简介 ............................................................................... 3 二、 文档目的 ............................................................................... 3 三、 文档范围 ............................................................................... 3 四、 事件处理流程 ........................................................................ 4 五、 具体操作说明 ........................................................................ 4 1) 2)

服务器硬件管理 .................................................................... 4 服务器系统管理 .................................................................. 10 1. Windows系统管理 ........................................................... 10 2. Linux系统管理 ................................................................. 12 六、 相关文档 ............................................................................. 15

2

服务器运维管理手册

一、 文档简介

本文档根据桑菲消费通信服务器硬件设备与系统应用管理需求,针对日常维护内容进行技术归类于总结,描述具体操作步骤与操作方法,积累服务器事件处理能力,使之服务运维能力更为主动可控。

二、 文档目的

标准服务器故障处理方法指引,服务器管理知识库积累。

三、 文档范围

服务器硬件故障判断与标准处理操作 服务器系统日常性能检测与标准检测

3

服务器运维管理手册

四、 事件处理流程

五、 具体操作说明 1) 服务器硬件管理

1.检查与故障判断:

服务器硬件的主动检查方式主要分三种: 设备面板指示灯检查 硬件系统日志检查

4

服务器运维管理手册

第三方工具检查 (一)面板指示灯检查

IBM服务器上面有,电源指示灯,硬盘/IDE设备活动指示灯,网卡指示灯,系统过热报警灯.硬盘槽还有硬盘指示灯。HP服务器上面指示灯一般为UID,内部和外部健康灯,其他就是电源网口灯了,DELL的机种有的上面有风扇,内存,CPU,指示灯情况,图标都是很直观的,其它服务器与IBM,HP的差不多。

图示说明

详细描述:

5

服务器运维管理手册

6

服务器运维管理手册

7

服务器运维管理手册

(二)系统日志检查 检查内容 硬件历史异常报错信息 计算机管理->系统工具->事件查看器,查看系统日志 重点关注:红色高危事件信息、日常频繁硬件报错信息 备注:查看硬件历史异常故障情况,分析硬件性能与使用生命周期 (三)第三方检测工具检查 检查内容 硬件历史异常报错信息 HP 诊断工具: 打开开始——程序——HP System Tools——HP Insight Diagnostics online Edition for Windows——HP Insight Diagnostics online Edition for Windows。 DELL诊断工具: 第三方硬件设备诊断工具 IBM诊断工具: IBM Systems Director 、 IBM Systems Director Active Energy Manager、IBM ServerGuide 相关图解:

进入诊断网页,在第一选项卡Survey中,上部有2个下拉项,左侧选择Advanced,右侧选择All,会显示出更多硬件信息,点击右下的Save按钮保存。

8

服务器运维管理手册

此界面可以看到服务器所有硬件信息。

2.硬件设备变更操作标准:

判断并确定最快恢复时间 判断是否有做冗余设置 判断是否需要关机操作

磁盘设备检测并确定阵列信息,确定有做数据备份 是否对其它关联应用有影响

制定回退方案,保证数据与应用的可用性 设备变更操作 设备兼容性测试 应用系统运行测试 设备变更后正式应用

9

服务器运维管理手册

3.相关巡检记录单:

备注:《服务器信息列表》 《服务器指示灯巡检表》

服务器信息列表.xl服务器指示灯巡检sx表.xlsx

2) 服务器系统管理

服务器系统管理主要分为:

Windows系统管理 Linux系统管理

1. Windows系统管理

1.1. 磁盘空间使用

计算机管理——磁盘管理

磁盘空间使用率是否已经到达80%

1.2. 进程监控

任务管理器——进程

查看进程的CPU使用率和内存使用率是否超阀值

1.3. CPU性能

任务管理器——性能

查看CPU最高峰值与一般使用率是否超阀值

10

服务器运维管理手册

1.4. 内存性能

任务管理器——性能

查看内存最高峰值与一般使用率是否超阀值

内存使用率是否超过70%或者其他定义阀值 1.5. 网络查看

任务管理器——联网

检查是否能正常访问站点页面 1.6. 日志

记录错误报警信息

11

服务器运维管理手册

——应用程序日志

由应用程序或者系统程序记录的事件 ——安全性日志

查看有效和无效的登录尝试事件,以及资源使用相关的事件 ——系统日志

Windows系统组件记录的事件

2. Linux系统管理

2.1. 平均负载(uptime)

描述:

uptime命令过去只显示系统运行多久。现在,可以显示系统运行多久、当前有多少的用户登录、在过去的1,5,15分钟里平均负载时多少。

2.2. 磁盘空间使用率(df -h)

描述:

Filesystem 文件系统 Size 文件系统容量 Used文件系统已经使用的容量 Use%文件系统使用百分比 Mounted on挂载的目录

12

服务器运维管理手册

2.3. 进程监控(ps –ef | grep java)

查看应用程序启动进程数是否正常

2.4. 内存监控(free -m)

描述:

total:总计物理内存的大小 used:已使用多大 free:可用有多少 shared:多个进程共享的内存总额 buffers/cached:磁盘缓存的大小。 第三行(-/+ buffers/cached):

used:已使用多大。free:可用有多少。

2.5. CPU占用率(top)

描述:

top提供一个当前运行系统实时动态的视图,也就是正在运行进程。在默认情况下, CPU使用率最高的任务排在第一行,并每5秒钟刷新一次。

13

服务器运维管理手册

2.6. I/O监控(vmstat 2 10)

process:

– r: 等待runtime的进程数 memory:

– b: 在不可打断的休眠状态下的进程数

– swpd: 虚拟内存使用量(KB) – free: 闲置内存使用量(KB) – buff: 被当做buffer使用的内存量(KB) swap:

– si: swap到磁盘的内存量(KBps) – so: 从磁盘swap出去的内存量(KBps) IO:

– bi: 每秒读取的块数 (blocks/s) 系统:

in: 每秒中断数,包括时钟中断 CPU(以百分比表示):

us: 用户进程执行时间(user time) id: 空闲时间(包括IO等待时间)

– bo: 每秒写入的块数 (blocks/s) cs: 每秒上下文切换数。

sy: 系统进程执行时间(system time) wa: 等待IO时间

2.7. 日志系统

——系统日志(cat /var/log/messages | grep ‘Jul 23’ | grep error) 记录报警信息

——硬件启动日志(dmesg | grep error) 记录系统启动错误信息

14

服务器运维管理手册

——应用系统日志

服务器各个应用的日志系统,比如: /var/log/httpd/error_log等等

备注:《系统主机信息表》《系统主机巡检表》《系统事件记录表》

系统主机信息表.xl系统主机巡检表.xl系统事件记录表.xlsxsxsx

六、 相关文档

《系统主机信息表》

《系统主机巡检表》 《系统事件记录表》 《服务器指示灯巡检表》 《服务器信息列表》 《IDC环境管理制度》

15

因篇幅问题不能全部显示,请点此查看更多更全内容