1、接触过哪些服务器运维操作?
- • 系统部署与配置:通过U盘、光驱、PXE(预启动执行环境)批量安装CentOS、Ubuntu、Windows Server等系统,并配置网络、内核参数、安全基线。
- • 硬件巡检与维护:检查服务器指示灯状态(电源、硬盘、网卡),更换故障硬盘、内存、风扇、电源模块;使用IPMI(智能平台管理接口)/iDRAC/iLO查看硬件健康状态(温度、电压、风扇转速)。
- • 存储与RAID管理:使用MegaRAID Storage Manager或命令行工具(如
storcli)创建、管理RAID阵列(0/1/5/10),定位并替换故障硬盘,执行一致性检查。 - • 日常监控与优化:配合Zabbix、Prometheus监控CPU、内存、磁盘IO、网络流量;分析日志(
/var/log/messages、dmesg),排查性能瓶颈,调整内核参数或应用配置。 - • 备份与恢复:配置定时任务(cron)配合rsync、tar进行数据备份;演练系统及数据库的恢复流程。
- • 自动化运维:编写Shell/Python脚本实现日志清理、服务状态自检、自动告警;使用Ansible进行批量命令执行和配置下发。
2.处理过的服务器故障?
- • 磁盘故障:服务器告警硬盘黄灯,通过RAID管理工具定位故障磁盘位置(如Slot 0),确认该盘属于RAID 5阵列,热备盘自动顶替或手动更换新盘并重建,期间业务无中断。
- • 系统负载过高:
top发现CPU软中断(si)异常高,排查发现网卡单队列软中断集中在CPU0,通过设置RPS(接收包导向)或调整网卡多队列后恢复。 - • 内存溢出(OOM):业务进程无故被kill,
dmesg出现Out of memory错误,定位为Java应用堆内存设置不合理,调整JVM参数并增加swap空间。 - • 服务器无法远程连接:机房巡检发现服务器死机(显示器无输出),强制重启后检查
/var/log/messages,发现某内核模块bug导致kernel panic,升级内核或禁用该模块后解决。 - • RAID卡电池故障:RAID卡提示“BBU(备份电池单元)学习周期失败”或“电池电量低”,导致写策略从Write Back降级为Write Through,IO性能骤降。更换RAID卡电池或强制启用Write Back(存在数据风险,需评估)。
3.RAID等级,RAID0 RAID5 之间的区别?
| 特性 | RAID 0 | RAID 5 |
|---|---|---|
| 别名 | 条带化(Striping) | 分布式奇偶校验(Distributed Parity) |
| 最少硬盘数 | 2块 | 3块 |
| 数据冗余 | 无 | 有(允许坏1块盘) |
| 容量利用率 | 100%(N块盘容量之和) | (N-1)/N(如3块盘利用率约66.7%) |
| 读性能 | 很高(并行读写) | 较高(有校验开销,但借助缓存提升) |
| 写性能 | 很高 | 较低(需要计算奇偶校验并写入数据盘+校验盘,存在“写惩罚”) |
| 故障恢复 | 不可恢复:一块盘坏则所有数据丢失 | 可热替换故障盘,自动重建数据 |
| 典型应用 | 临时数据、日志、对性能要求极高但允许丢失的数据(如视频剪辑缓存) | 通用服务器(文件服务器、数据库从库、Web服务器) |
面试加分点:可以补充RAID 10(先镜像再条带,兼顾性能与冗余,但容量只有一半)和RAID 6(允许坏2块盘)。另外,RAID 5在重建期间如果另一块盘也坏(特别是大容量SATA盘),整个阵列会崩溃,所以重要数据建议用RAID 6或RAID 10。
4.接触过的服务器型号,有没有接触过中兴服务器?
- • Dell PowerEdge:R720/R730/R740/R750(主流机架式),T640(塔式)
- • HP ProLiant:DL380 Gen9/Gen10,DL360 Gen10
- • Lenovo ThinkSystem:SR650/SR630
- • Huawei FusionServer:RH2288H V3/V5
- • 浪潮(Inspur):NF5270M4/M5,NF5280M5
- • 超微(Supermicro):自行组装的X11系列主板服务器
关于中兴服务器:
- • 真实情况:我目前直接接触过的主要是Dell/HP/浪潮等品牌,暂未在实际生产环境中操作用过中兴服务器(如实回答,不造假)。
5.服务器挂了的排查思路?
- 1. 观察物理状态:电源灯、故障灯(Amber)、风扇是否转动。
- 2. 连接BMC:查看系统事件日志(SEL)、传感器读数、电源状态。
- 3. 看串口/VGA输出:如果还在POST,看卡在哪个检测项(内存、PCIe设备等)。
- 4. 强制重启:通过BMC或拔电。若能进系统,检查
dmesg、/var/log/messages、应用日志。 - 5. 最小化测试:拔掉所有非必要硬件(额外内存、PCIe卡、背板线缆),只留1 CPU + 1内存 + 1系统盘。
- 6. 更换硬件逐一排除:先换内存、再换CPU、再换主板。
- 7. 日志分析:若完全没反应,可能主板或BMC损坏,需送修。
6.客户服务器挂了,对接客户的流程?
- 1. 确认故障现象和影响:客户报修→问清现象(不开机?频繁重启?丢盘?业务中断范围?)。
- 2. 收集基础信息:客户名称、机房位置、IP或BMC地址、服务器型号、序列号。
- 3. 远程初步诊断:尝试SSH或BMC登录,查看日志和状态。如果不能远程,协调现场人员。
- 4. 告知处理方案和SLA:如“预计30分钟内给出诊断结果,如需换件,2小时备件到达。”
- 5. 现场处理或远程指导:如需现场,带好备件(硬盘、内存、电源等)、工具包、标签纸、拍照记录。
- 6. 维修后验证:业务恢复、性能测试、检查告警是否消失。
- 7. 输出服务报告:故障原因、处理动作、更换部件SN、建议(如“定期升级固件”)。
- 8. 客户确认:签字或邮件确认关闭工单。
7.用过的批量装机的方法?
- • PXE + DHCP + TFTP + HTTP/NFS(经典方式):
- • 原理:客户端网卡启动,从DHCP获取IP,从TFTP下载pxelinux.0引导文件,再通过HTTP/NFS拉取内核(vmlinuz)和initrd,最后使用Kickstart(RHEL/CentOS)或Preseed(Debian/Ubuntu)无人值守应答文件完成安装。
- • 优点:无需介质,可标准化分区、软件包、网络配置。
- • 我用过的工具链:
dnsmasq(集成DHCP+TFTP)+httpd+syslinux。
- • Cobbler(上层自动化工具):
- • 相当于PXE的封装,支持多发行版(CentOS、Ubuntu、Windows),提供Web界面和CLI,自动管理镜像、profile、system记录。
- • 适用场景:中小数据中心,50-500台规模。
- • 厂商专用批量部署:
- • Dell iDRAC with Lifecycle Controller:通过远程ISO挂载+RAID配置模板,使用Dell OpenManage Enterprise批量部署。
- • 华为 iBMC + eSight:类似,支持模板化部署。
- • 中兴服务器:理论上通过IPMI over LAN挂载ISO + PXE或定制化应答文件实现,原理相同。
- • 镜像克隆方式(较小规模):
- • 使用Clonezilla(再生龙)制作母盘镜像(包括系统和预装软件),然后通过PXE启动Clonezilla Server模式进行多播克隆(类似Ghost)。适合系统完全一致的场景(如无盘站、教室)。
1、IBMC这方面的问题,系统安装有几种方式;
iBMC(Integrated Baseboard Management Controller,中兴/华为等服务器使用的带外管理芯片)支持的远程系统安装方式主要有:
- • 方式一:iBMC虚拟光驱挂载ISO安装(最常用)
通过iBMC Web界面,将本地的操作系统ISO镜像挂载为服务器的虚拟CD/DVD,然后通过KVM(Keyboard Video Mouse)重定向窗口,从虚拟光驱引导,像本地一样安装系统。支持Windows、Linux等任意系统。 - • 方式二:iBMC远程ISO重定向 + PXE
在iBMC中设置下一次启动为PXE(网络启动),同时结合网络中的DHCP+TFTP+HTTP服务器,实现无人值守批量安装(如Cobbler或自定义Kickstart)。iBMC只负责选择启动项,实际安装文件从网络获取。 - • 方式三:iBMC挂载软盘镜像或USB镜像
对于老旧系统或驱动加载场景,可通过iBMC挂载虚拟软驱(.img文件)或USB直通(需硬件支持),加载RAID卡驱动后再从光驱或硬盘安装。 - • 方式四:iBMC配合硬件存储(如SD卡/USB DOM)
将系统镜像预先写入服务器内部的SD卡或USB DOM,通过iBMC设置从该设备启动。适用于嵌入式系统或轻量级虚拟化宿主机(如ESXi)。 - • 方式五:iBMC远程电源控制 + 本地介质
如果现场有人,可指挥现场人员插入U盘或光盘,然后通过iBMC远程重启、选择启动顺序,实现远程辅助安装。
2、处理过哪几种经常性的故障;
- • 硬盘故障(频率最高)
- • 现象:RAID卡告警,硬盘指示灯黄色/红色,系统日志出现“Media error”、“Offline”、“Rebuild failed”。
- • 处理:通过
storcli或MegaRAID Storage Manager定位坏盘,热插拔更换新盘,自动重建RAID。
- • RAID卡电池/缓存故障
- • 现象:RAID卡日志“BBU (Battery Backup Unit) failed”或“Learn cycle pending”,写性能骤降(Write Back→Write Through)。
- • 处理:更换RAID卡电池;若紧急且数据重要,可强制启用Write Back(风险高,需确保UPS供电)。
- • 内存ECC错误/内存故障
- • 现象:系统
dmesg出现“EDAC: MC: x CE error”,或突然重启/死机;iBMC事件记录“Uncorrectable ECC”。 - • 处理:定位故障内存条(通过iBMC或
dmidecode -t memory),替换后运行Memtest86验证。
- • 现象:系统
- • 电源模块故障
- • 现象:电源指示灯异常,风扇全速运转(冗余电源失效单路供电),iBMC告警“PSU redundancy lost”。
- • 处理:更换故障电源模块,同时检查供电线路和PDU。
- • 风扇故障/转速异常
- • 现象:服务器噪音突然增大或某个风扇不转,温度升高,系统主动降频或关机。
- • 处理:替换风扇模组,检查iBMC风扇策略(是否被错误设置到全速模式)。
- • 网络链路闪断或丢包
- • 现象:业务间歇性中断,
ifconfig看到大量error/drop,ethtool显示链路不稳定。 - • 处理:更换网线/光模块,更新网卡固件,检查交换机端口状态;如果是网卡硬件故障则更换网卡。
- • 现象:业务间歇性中断,
- • 系统假死(Kernel panic / 死锁)
- • 现象:远程无响应,但硬盘灯偶尔闪,通过iBMC的SOL(串口重定向)看到“Kernel panic”。
- • 处理:分析
/var/crash或kdump文件,回退内核驱动或升级内核。
3、哪种RAID做得多,有几种配置方式;
我实际生产环境中做的最多的是 RAID 10 和 RAID 5,其中 RAID 10 用于数据库、虚拟化等IO密集型且对可靠性要求高的场景;RAID 5 用于文件服务器、备份服务器等容量优先的场景。
RAID配置方式(以LSI MegaRAID或PMC卡为例)主要有:
- • 方式一:BIOS/UEFI配置
服务器启动时按特定键(如Dell Ctrl+R、HP F8、华为/中兴Ctrl+C或Ctrl+H)进入RAID配置界面,通过图形化或文本菜单创建阵列、选择硬盘、设置条带大小、热备盘等。适合部署阶段。 - • 方式二:带外管理(iBMC / iDRAC / iLO)配置
通过iBMC的Web界面,调用RAID卡接口进行远程配置。中兴服务器的iBMC支持“存储”选项卡,可查看磁盘状态、创建RAID、指派热备盘。无需进BIOS或操作系统。 - • 方式三:操作系统内命令行工具
- • 使用
storcli(LSI卡通用):例如storcli /c0 add vd r5 size=all drives=1:0,1:1,1:2 - • 使用
hpssacli(HP服务器)或perccli(Dell)。 - • 用于批量部署、脚本化配置。
- • 使用
- • 方式四:操作系统图形化工具
如MegaRAID Storage Manager(Windows/Linux均可),适合运维人员手工操作,提供图形化的阵列创建、重建、巡检功能。 - • 方式五:自动部署工具(Ansible + storcli模块)
编写playbook,批量对新上架的服务器统一配置RAID级别、热备盘、缓存策略。适合大规模云环境。
4、RAID降级后处理方式。硬件出现故障后判断方法;
RAID降级通常指阵列中有一块或多块硬盘故障(但尚可工作,如RAID 5缺失一块,RAID 10缺失一块镜像对)。
处理步骤:
- 1. 确认降级状态:通过RAID管理工具(
storcli show、MegaRAID界面)查看“Degraded”状态,记录故障盘位置(如Enclosure:0 Slot:2)。 - 2. 判断是否有热备盘:
- • 有热备盘:阵列应自动开始重建,监控重建进度。
- • 无热备盘:需手动指派热备盘或插入新盘。
- 3. 更换故障硬盘(支持热插拔):
- • 定位故障盘物理位置(通过
storcli /c0/e0/s2 show亮灯或看指示灯)。 - • 拔出旧盘,等待15秒(部分背板需放电),插入同型号、同容量或更大容量的新盘(注意:同容量最佳,更大容量需确认RAID卡支持)。
- • 定位故障盘物理位置(通过
- 4. 触发重建:新盘插入后,RAID卡通常会自动识别并开始重建(状态变为Rebuilding)。若未自动开始,执行手动命令:
storcli /c0/e0/s2 add hotsparedrive或直接在管理界面将新盘设置为热备盘并替换坏盘。 - 5. 监控重建过程:检查重建速度和预估时间,避免高负载IO影响重建。可使用
storcli /c0/v0 show rebuild查看进度。 - 6. 完成后验证:状态恢复为“Optimal”,同时确保系统日志无新错误。
注意:RAID 5降级后仍可读写,但性能下降且无冗余,需尽快处理;RAID 6降级(坏一块)类似,但容忍第二块故障。
(二)硬件故障判断方法
分层判断法(从外部到内部):
- 1. 视觉/听觉检查:
- • 服务器前面板指示灯:电源(绿)、硬盘(绿/黄/红)、系统故障(橙)。
- • 后面板:网口指示灯、电源模块指示灯(绿/灭/橙)。
- • 声音:报警蜂鸣声(如连续短鸣=内存,长鸣=电源/主板)。
- 2. 带外管理(iBMC)检查(最准确):
- • 登录iBMC Web界面 → “系统信息” → “硬件健康”。
- • 查看CPU、内存、硬盘、电源、风扇、温度传感器的状态(正常/告警/严重)。
- • 查看“事件日志”或“SEL(系统事件日志)”,过滤“Error”、“Critical”。
- 3. RAID卡/硬盘诊断:
- • 使用
storcli /c0 show all查看PD(物理盘)状态:Online/Hotspare/Offline/Failed。 - • 查看S.M.A.R.T信息:
storcli /c0/e0/s2 show smart,关注Reallocated Sectors、Pending Sectors。
- • 使用
- 4. 操作系统层辅助诊断:
- •
dmesg -T | grep -i error - •
smartctl -a /dev/sda(需安装smartmontools) - •
edac-util(查看内存ECC错误) - •
ipmitool sensor(通过操作系统访问BMC传感器)
- •
- 5. 替换法定位:
- • 若怀疑某个部件(如内存),用已知良好的备件替换,观察故障是否消除。
- • 最小化测试(见第6题)进一步缩小范围。
5、BIOS IBMC升级固件的方法;
(一)升级iBMC固件(带外管理)
- • 方法1:Web界面在线升级(推荐)
- 1. 登录iBMC Web → “系统管理” → “固件升级”。
- 2. 上传iBMC固件镜像(如
ibmc_firmware.hpm或.bin文件)。 - 3. 点击升级,等待约5-10分钟,期间iBMC会重启,网络会短暂中断。
- 4. 升级完成后重新登录验证版本。
- • 方法2:命令行CLI(通过SSH/串口)
- • SSH登录iBMC命令行(用户名一般为root或Administrator),执行
ipmcset -d upgrade -v <tftp_server_ip> <filename>,从TFTP服务器下载升级。 - • 或使用
ipmcupdate命令(取决于厂商实现)。
- • SSH登录iBMC命令行(用户名一般为root或Administrator),执行
- • 方法3:iBMC带外批量升级(通过厂商工具)
- • 中兴的“ZTE iBMC Upgrade Tool”或华为的“FusionServer Tools”可批量扫描IP段并刷写固件。
(二)升级BIOS(需配合iBMC)
- • 方法1:通过iBMC挂载BIOS升级镜像
- 1. 下载BIOS升级包(通常是一个可启动ISO或EFI文件)。
- 2. 在iBMC中挂载该ISO为虚拟光驱,重启服务器并从该ISO引导。
- 3. 进入DOS或UEFI Shell环境,运行刷写脚本(如
update.bat或Flash.nsh)。 - 4. 刷写完成后重启,进BIOS确认版本。
- • 方法2:操作系统内升级(需要供应商提供工具)
例如运行./bios_updater --update(Linux),或Windows下的WinFlash。注意升级过程中CPU负载不宜过高。 - • 方法3:iBMC直接刷BIOS镜像(部分新型服务器支持)
在iBMC“固件升级”页面中,直接选择BIOS固件(.bin),上传后iBMC会自动完成BIOS刷写并重启,无需人工介入。
注意事项:
- • 升级顺序通常:iBMC → BIOS → 其他固件(如RAID卡、网卡)。
- • 升级后务必恢复配置(如启动顺序、VT-x、电源策略等),因为BIOS升级可能重置为默认值。
6、服务器最小化测试;
服务器最小化测试是一种硬件故障隔离方法,用于快速定位是哪个硬件组件导致服务器无法启动、频繁死机或报错。其核心原则是“去掉所有非必要部件,仅保留最核心的一套组件,逐步添加直至故障复现”。
- 1. 物理最小化:
- • 保留:1颗CPU(如果多路服务器,保留CPU0)、1根内存条(插在指定的DIMM A1槽)、主板、电源(冗余电源保留一个模块)、前面板(电源开关)。
- • 移除:其他CPU、所有其他内存条、所有硬盘(包括背板信号线)、RAID卡、网卡、HBA卡、GPU、USB内置设备、光驱、风扇(仅保留CPU散热风扇和必要的机箱风扇)。
- 2. 外设最小化:
- • 断开所有外部连接,仅保留:电源线、VGA显示器、USB键盘。
- • 如果服务器有集成网卡,可以先保留(但断开网线)。
- 3. 启动测试:
- • 通电开机,观察能否进入BIOS/UEFI界面。
- • 如果能进入BIOS,说明CPU+主板+单内存+电源基本正常。
- • 如果不能,则故障大概率在这几个核心部件中,依次替换:先换内存条(换另一根已知好的,插不同槽位),再换CPU,最后换主板/电源。
- 4. 逐步添加组件:
- • 依次添加内存(每次加一根,并测试)、添加第二颗CPU(需配齐对应内存)、添加RAID卡(不接硬盘看能否识别)、添加硬盘(先接一块)、添加其他PCIe设备。每添加一个组件就重启测试一次,直到故障复现,则最后一个添加的组件就是故障源。
- 5. 特别注意:
应用场景:
- • 新装机无法点亮。
- • 服务器随机死机、蓝屏、重启。
- • 硬件升级后出现不兼容问题。
- • 现场只有很少备件时快速定位。
-
- • 某些主板需要至少一个风扇接在CPU_FAN口,否则会因风扇转速检测失败而拒绝启动。
- • 如果最小化时故障消失,但加上所有部件后正常(未复现),可能是之前部件接触不良(如内存氧化),重新插拔所有部件即可。
7、raid更换硬盘操作;
准备工作
- • 确认故障盘位置:通过RAID管理工具(
storcli /c0 show或 MegaRAID Storage Manager)获取Enclosure ID、Slot号。 - • 确认新硬盘:同品牌、同型号、同容量(或容量≥故障盘且同转速)。
- • 通知业务方:RAID重建会占用IO资源,可能导致性能下降,建议在低峰期进行。
操作步骤
1. 标识故障盘
- • 命令行亮灯:
storcli /c0/e0/s2 start locate(故障盘指示灯闪烁) - • 或通过Web界面点亮磁盘LED。
- • 物理确认:打开机箱前面板,观察闪烁的橙色/红色指示灯。
2. 离线故障盘(如果RAID卡未自动标记为Failed)
- • 有时坏盘还处于Online但状态异常,需手动设为Offline:
storcli /c0/e0/s2 set offlinestorcli /c0/e0/s2 set missing(强制让RAID卡认为盘已拔出)
3. 热拔出故障盘
- • 按下硬盘托架解锁按钮,缓缓抽出。
- • 等待15秒(部分背板需要放电)。
4. 插入新硬盘
- • 将新硬盘安装到同一个槽位,推到底并锁紧。
- • 等待10秒左右,RAID卡应检测到新盘。
5. 触发重建
- • 自动重建情况:如果RAID卡设置了全局热备盘或该阵列配置了Auto-rebuild,新盘会被自动识别为热备并开始重建。
- • 手动触发:
- • 方法A:将新盘设置为热备盘,然后指派给降级阵列:
storcli /c0/e0/s2 add hotsparedrivestorcli /c0/v0 set spare=1(如果阵列配置了专属热备) - • 方法B:直接替换坏盘:
storcli /c0/e0/s2 insert dg=X array=X row=X(需知道阵列的DG/Array信息,较复杂,通常用热备方式更简单)
- • 方法A:将新盘设置为热备盘,然后指派给降级阵列:
6. 监控重建进度
- • 命令:
storcli /c0/v0 show rebuild - • 输出示例:
Rebuild Progress: 45%,预计剩余时间。 - • 重建期间避免对阵列进行高强度IO操作。
7. 重建完成后的验证
- • 状态变为Optimal:
storcli /c0/v0 show - • 检查系统日志无新错误:
dmesg -T | tail - • 观察硬盘指示灯变为绿色常亮(无故障闪烁)。
8. 特殊场景处理
- • RAID卡不支持热插拔:需关机断电后更换硬盘。
- • 新盘容量大于旧盘:重建后会保留原阵列容量,剩余空间无法使用(除非RAID卡支持在线扩容,但一般生产环境不推荐)。
- • 重建速度慢:可通过
storcli /c0 set rebuildrate=30(百分比,如30%后台重建速度)动态调整,但会占用更多CPU。
提示:更换硬盘后建议执行一次storcli /c0 show patrolread(巡读)检查一致性,确保数据完整。
1、平时处理过那些故障。
- • 硬件故障:硬盘坏道/离线(最频繁)、RAID卡电池失效、内存ECC错误、电源模块损坏、风扇异常、网卡丢包。
- • 系统故障:Kernel panic、根分区写满、OOM(内存溢出)、启动文件损坏(GRUB丢失)、文件系统只读。
- • 性能故障:CPU软中断过高(网卡队列不均)、磁盘IO等待高(RAID重建或坏道)、内存泄漏。
- • 网络故障:链路闪断、光模块老化、交换机端口错误配置。
- • 固件/驱动问题:BIOS版本不兼容导致无法识别大容量硬盘,BMC假死导致远程失联。
2、服务器有那几种操作系统安装方式,安装过那些操作系统。
- • 光盘安装:传统方式,需要外部光驱和安装光盘
- • USB安装:目前最常用的方式,需要使用工具(如Rufus、UNetbootin或Etcher)将ISO镜像文件写入U盘
- • 网络安装:适合大规模部署,需要配置PXE(Preboot eXecution Environment)服务器和TFTP/DHCP服务
3、服务器主板,硬件是否独立拆装过。
是的,我独立拆装过服务器内部几乎所有硬件,包括:
- • 主板:在机架式服务器(如Dell R730、华为RH2288H)上更换主板,需拆卸电源线、前面板线、风扇模组、CPU及散热器、内存、RAID卡、所有PCIe卡,然后拧下主板固定螺丝整体取出,再反向装回。
- • CPU:涂抹导热硅脂,注意防呆缺口和针脚保护(LGA插槽)。
- • 内存:按槽位顺序安装,注意不同类型(RDIMM/LRDIMM)混插限制。
- • 硬盘/背板:更换故障硬盘背板或SAS线缆。
- • 电源/风扇模组:热插拔更换冗余电源和风扇。
- • RAID卡/网卡:PCIe插槽更换,注意固件匹配。
注意事项:操作前必须断电(拔掉电源线),佩戴防静电手环,记录每个接口位置(拍照或标签),尤其前面板USB/VGA排线方向。
4、服务器主板 BIOS,BMC 等固件如何还原。
BIOS 还原
- • 方法1(临时还原):开机进BIOS(按Del/F2/F10等),按F9(默认Load Optimized Defaults)或F5(Load Fail-Safe Defaults),保存退出。
- • 方法2(清除CMOS):
- • 跳线清除:主板上找到CLR_CMOS跳线(如两针短接),断电后短接几秒。
- • 抠电池:拔掉主板纽扣电池(CR2032),等待1-5分钟,再装回。
- • 方法3(刷新回滚):通过iBMC或操作系统内刷写旧版本BIOS固件(需厂商提供回滚包)。
BMC(iBMC)还原
- • 恢复出厂设置:登录iBMC Web → “配置管理” → “恢复出厂配置”;或CLI命令:
ipmcset -d factoryreset。 - • 固件回滚:如果新版BMC有问题,通过Web“固件升级”页面重新刷写旧版本固件(注意:部分厂商禁止降级,需先解锁)。
- • 重置BMC:物理方法:按服务器上的BMC复位按钮(通常带小圆孔,用回形针按压),或短接BMC复位跳线。
5、是否遇到过涉及范围比较大的软,硬件问题。包括主板缺陷,固件版本bug等等,以及遇到时如何处理。
2.换主板流程;
准备阶段:
- • 确认备件型号完全匹配(包括硬件版本、背板接口)。
- • 通知业务方停机窗口,备份重要数据(如有RAID卡,建议导出RAID配置)。
- • 准备工具:防静电手环、十字/一字螺丝刀、导热硅脂、拍照设备。
操作步骤:
- 1. 关机断电:正常关机,拔掉所有电源线,按开机键放电10秒。
- 2. 标记线缆:拍照记录所有线缆连接(前面板线、电源线、SAS/SATA线、风扇线)。
- 3. 拆卸组件:依次取下所有PCIe卡(RAID卡、网卡、GPU)、内存条、CPU散热器及CPU(注意保护针脚)、风扇模组、电源背板线缆,最后拧下主板固定螺丝。
- 4. 取出旧主板:轻轻抬起主板,注意背面接口(如VGA、USB)无卡扣。
- 5. 安装新主板:放入机箱,对齐I/O挡板,拧上螺丝。
- 6. 逆向装回:先装CPU(清洁并涂抹新硅脂)、散热器、内存(按原槽位)、PCIe卡。连接所有线缆(对照照片)。
- 7. 通电测试:先不上硬盘,进BIOS检查CPU、内存容量、启动顺序、时间日期是否正确。然后装回硬盘,导入原RAID配置(或自动识别)。
- 8. 系统验证:引导进入操作系统,检查日志无错误,业务验证。
注意事项:
- • 部分服务器(如HP)主板与机箱有“序列号绑定”,换主板后需重新输入序列号或激活授权。
- • RAID卡如果未换,通常会自动识别原阵列,但最好提前备份配置(
storcli /c0 show all > raid_backup.txt)。
3.处理工单的流程,需要提前准备哪些工具;
工单处理标准流程(ITIL风格):
- 1. 接收工单:查看工单系统(如Jira、OTRS),确认客户信息、故障描述、紧急程度、服务器位置(机房/机柜/U位)。
- 2. 远程初步诊断:先尝试SSH/iBMC登录,收集日志,判断是否可远程解决。若不能,准备现场。
- 3. 准备工具包(见下文)。
- 4. 到达现场:登记机房出入记录,找到服务器位置。
- 5. 操作执行:按SOP进行更换硬件、重启、重装系统等操作,并实时记录步骤。
- 6. 验证恢复:业务验证+监控确认,与客户/报修人确认解决。
- 7. 关闭工单:填写处理详情(故障根因、更换部件、耗时),附上日志截图。
- 8. 回访(可选):次日确认业务正常。
需提前准备的工具:
- • 硬件工具:十字/一字螺丝刀(带磁性)、防静电手环/手套、镊子、塑料撬棒、头灯/手电筒。
- • 替换备件:对应型号的硬盘、内存、电源、风扇、RAID卡电池、网卡、线缆。
- • 软件/存储:U盘(含PE/ISO镜像,如CentOS、WinPE)、硬盘盒(用于数据导出)、标签纸、笔。
- • 网络工具:网线、串口线(RJ45转DB9)、笔记本(带网口和USB转RJ45)、远程桌面工具(TeamViewer等)。
- • 文档:机房机架图、服务器SN清单、管理员账号密码本(加密)、厂商技术支持电话。
4.处理工单有啥需要注意的;
- 1. 安全第一:断电操作必须拔电源线,而非只按关机键;佩戴防静电手环;谨慎搬运(机架式服务器重约20-30kg)。
- 2. 确认业务影响:热插拔硬盘/电源前,确认RAID有冗余;重启服务器必须得到业务方书面同意(尤其是数据库、核心交易系统)。
- 3. 先备份后操作:任何可能破坏数据的操作(如重装系统、刷固件、换RAID卡)前,务必全量备份或快照。
- 4. 记录现场:操作前后拍照(尤其是线缆连接、坏件标签、SN号),便于复盘和报销备件。
- 5. 避免静电和异物:拆机时螺丝拧出后妥善放置,防止掉入主板短路;不穿毛衣操作。
- 6. 不要强行物理操作:插拔内存/PCIe卡遇到阻力时检查是否完全打开卡扣,不要蛮力。
- 7. 不要忽视日志:更换硬件后,务必查看BMC SEL和系统日志,确保没有新错误。
- 8. 沟通节奏:每隔15-30分钟向工单发起人同步进展(尤其超预期时),避免客户焦虑。
- 9. 坏件管理:换下的故障件贴上标签(故障时间、现象),按公司流程返还备件库或返修。
- 10. 遵守机房规定:不擅自连接外网设备,不拍照上传互联网,不泄露客户信息。
5.一个月处理故障工单的数量,面对从几百台服务器到成千上万台服务器的维护,你如何应对;
| 规模 | 挑战 | 应对方法 |
|---|---|---|
| 几百台 | 手工操作为主,响应慢 | 引入集中监控(Zabbix/Prometheus)+ 远程带外管理(iBMC批量IP配置) |
| 几千台 | 故障重复性高,人工疲于奔命 | 自动化运维(Ansible批量执行命令、自动巡检脚本)、硬件标准化(统一型号/固件) |
| 上万台 | 故障并发、难以追踪 | – 智能化告警:基于SRE原则,设置“事件降噪”和“聚合报警” – 自助修复:常见故障(如磁盘坏道)由监控触发自动更换脚本(调用API自动派发备件通知) – CMDB+流程:资产全生命周期管理,工单自动路由到对应责任人 – 大数据分析:统计硬盘/内存失效率,提前预警批量更换 |
具体方法:
- • 建立故障知识库:将常见故障(30%高频问题)的解决方案做成自动化脚本或自助文档,减少人工介入。
- • 批量操作工具链:使用
ipmitool批量设置BMC IP、storcli批量巡检RAID状态、Ansible批量升级固件。 - • 预测性维护:分析S.M.A.R.T数据,提前迁移数据并更换即将失效的硬盘;监控内存CE错误率,提前更换。
- • 梯队化响应:一线(电话客服)处理简单问题(重启、重置BMC),二线(现场工程师)处理硬件更换,三线(专家)处理疑难杂症。
ssh的端口号,用过什么服务器远程软件?
- • PuTTY(经典轻量级,Windows 上常用)
- • Xshell / SecureCRT(功能丰富,支持标签会话)
- • MobaXterm(集成 SFTP、X11,适合远程运维)
- • Termius(跨平台,界面现代,支持移动端)
- • Windows 自带 OpenSSH(Win10/11 内置,直接
ssh user@host) - • FinalShell(国产,带服务器状态监控)
- • Electerm(开源,支持多协议)




暂无评论内容