1.1. 服务等级协议(SLA)
1.1.1. 简介
服务等级协议(简称:SLA,全称:service level agreement)。是在一定开销下为保障服务的性能和可用性,服务提供商(也可以是企业内部)与用户间定义的一种双方认可的协定,通常这个开销是驱动提供服务质量的主要因素。
首先,SLA的概念,对互联网公司来说就是网站服务可用性的一个保证,例如业务连续性99.99%,可用性9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。
这么多9是怎么计算的呢?全年拿365天做计算吧,看看几个9要停机多久时间做能才能达到!
1年 = 365天 = 8760小时
99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟
从以上看来,全年停机5.26分钟才能做到99.999%,即5个9。依此类推,要达到6个9及更多9,可说是非常难了吧,怎么做到更多的9每个公司对几个9的定义都不一样,互联网公司至少都是99.99吧。像一些政府网站,如社保公积金等,经常故障服务不可用,能做到99.9就不错了。
如果我们提供的服务可用性越低,意味着造成的损失也越大,别的不说,如果是特别重要的时刻,或许就在某一分钟,你可能就会因服务不可用而丢掉一笔大的订单,这都是始料未及的。所以,只要尽可能的提升SLA可用性才能最大化的提高企业生产力。
要做到更多的9,就要不断的监控自己的服务,服务挂掉能及时恢复服务。就像开车出远门,首先得检查轮胎,同时还得准备一个备胎一样的道理。
1.1.2. SLA范例
服务范围
为客户提供生产、测试、预发、容灾环境IAAS层基础维护服务。
服务等级指标
服务可用性按照服务周期进行统计,按照如下方式计算:
服务可用性 = ((服务周期总分钟数 – 服务不可用分钟数) / 服务周期总分钟数) × 100%。
SLA指标:99.95% (整体平均)
服务周期:一个服务周期为一个自然年。如不满一月则以当月的累计服务时间作为一个服务周期。
服务周期总分钟数:按照每年12月每周七(7)天每天二十四(24)小时计算。
不包括以下原因所导致的服务不可用时间:
(1)IAAS平台预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;
(2)任何IAAS平台所属设备以外的网络、设备故障或配置调整引起的;
(3)客户的应用程序受到黑客攻击而引起的;
(4)客户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;
(5)客户的疏忽或由客户授权的操作所引起的;
(6)客户未遵循IAAS平台使用文档或使用建议引起的;
(7)不可抗力引起的。
服务功能
应用运维提供的服务项:服务器申请、dnspod一级二级域名配置、svn账号申请、svn组权限管理、Jenkins发布数据配置、nginx代理配置、配置系统监控、配置性能监控、系统优化配置、应用和操作系统安全加固、生产、预发、容灾、测试环境问题排查、线上故障协查
网络运维提供的服务项:公网域名备案、网络监控与网络抓包、负载均衡配置、外联网络策略、数据中心和VPN、网络支持、BaaS技术支持、物理服务器故障处理、gitlab支持、内部容器平台支持、线上故障网络协查
DB运维提供的服务项:数据订正、表结构变更、程序发布数据库配置、数据查询和导出、数据同步、新建数据库、数据库权限申请、大数据同步查询支持、压测环境数据配置和同步、数据迁移、数据归档、测试环境数据库搭建和数据同步、线上故障协查
故障不适用SLA,出现故障可电话联系处理
接受工单方式:OA工单(IT基础设施资源申请),JIRA工单
IDC服务组 |
服务项 |
服务可用时段 |
服务响应时间 |
服务解决时限 |
应用 |
服务器申请 |
5X8 |
2H |
2D |
|
dnspod一级二级域名配置 |
5X8 |
2H |
1D |
|
svn账号申请 |
5X8 |
2H |
1D |
|
svn组权限管理 |
5X8 |
2H |
1D |
|
Jenkins发布数据配置 |
5X8 |
2H |
1D |
|
nginx代理配置 |
5X8 |
2H |
1D |
|
配置系统监控 |
5X8 |
2H |
1D |
|
配置性能监控 |
5X8 |
2H |
1D |
|
系统优化配置 |
5X8 |
2H |
1D |
|
应用和操作系统安全加固 |
5X8 |
2H |
1D |
|
生产 预发 容灾 测试环境问题排查 |
7X24 |
1H |
2D |
|
线上故障协查 |
7X24 |
即时响应 |
|
网络 |
公网域名备案 |
5X8 |
2H |
2D(备案结果一般为20工作日) |
|
网络监控与网络抓包 |
5X8 |
2H |
1D |
|
负载均衡配置 |
5X8 |
2H |
1D |
|
外联网络策略(支付) |
5X8 |
2H |
1D |
|
数据中心和VPN |
5X8 |
2H |
1D |
|
大数据网络支持 |
5X8 |
2H |
1D |
|
BaaS技术支持 |
5X8 |
2H |
1D |
|
物理服务器故障处理 |
5X8 |
2H |
1D |
|
gitlab支持 |
5X8 |
2H |
1D |
|
内部容器平台支持 |
5X8 |
2H |
1D |
|
线上故障网络协查 |
7X24 |
即时响应 |
|
DB |
数据订正 |
5X8 |
2H |
1H |
|
表结构变更 |
5X8 |
2H |
大表的表结构变动需要提前一天申请 |
|
程序发布数据库配置 |
5X8 |
2H |
1H |
|
数据查询和导出 |
5X8 |
2H |
1H 数据导出需要相关领导审核。 |
|
数据同步 |
5X8 |
2H |
1D |
|
新建数据库 |
5X8 |
2H |
新建数据库涉及代理配置,IDB配置,资源调配 要求提前一周申请 |
|
数据库权限申请 |
5X8 |
2H |
1H |
|
大数据同步查询支持 |
5X8 |
2H |
1D |
|
压测环境数据配置和同步 |
5X8 |
2H |
1D(跟数据大小有关) |
|
数据迁移 |
5X8 |
2H |
1D(跟数据大小有关) |
|
数据归档 |
5X8 |
2H |
1D(跟数据大小有关) |
|
测试环境数据库搭建和数据同步 |
5X8 |
2H |
1D(跟数据大小有关) |
|
线上故障协查 |
7X24 |
即时响应 |
|
服务用户
目前服务于各相关业务。
服务性能
应用
Nginx代理服务: 单机性能 20000并发
内部dns服务: 单机性能170000 QPS
DB
参数 压测数据库sas硬盘
响应时间(ms) 29
TPS(个/s) 16590
运行次数 10000
并发虚拟用户数 500个
cpu的load average值小于逻辑CPU数(现在物理机一般是32核)
磁盘使用量不超过80%
常InnoDB存储引擎缓冲池的命中不应该小于99%。
网络
虚拟机网络服务:
内部网络同机房带宽:
旧虚拟化平台理论上限2Gbps,平均50Mbps,同主机下虚机网络共享
新虚拟化平台理论上限20Gbps,平均500Mbps,同主机下虚机网络共享
内部网络同机房SLA服务等级:99.9995%
内部网络跨机房带宽:
理论上限带宽 2Gbps,所有同一机房服务器共享该带宽进行跨机房访问
内部网络跨机房SLA服务等级:99.95%
外部网络带宽:
电信、移动、联通三线总共300Mbps上限带宽
外部网络SLA服务等级:99.95%
负载均衡:
吞吐:40Gbps L4层流量,18Gbps L7层流量
请求:L7请求1百万/秒,L4请求7百万/秒
连接:最高24000000同时连接
SSL TPS:4000(目前线上环境平均40)
SLA可用性服务等级:99.95%
服务器主机存储:
生产环境:
普通服务器(web层、中间件层)硬盘raid5,7.5k转速 SAS盘,旧虚拟化平台随机读/写 iops 1534/945,新虚拟化平台 随机读/写 iops 2451/1181,可以承受单硬盘故障
DB服务器 线上主用数据库:硬盘三组raid10,15k转速;次要数据库硬盘两组raid10,7.2k转速,SATA盘,可以承受单硬盘故障
SLA 可用性服务等级:99.95%
测试环境:
少量服务器raid5,7.5k转速SAS盘,可以承受单硬盘故障
其余服务器为raid0,单硬盘故障可能导致数据丢失或者系统故障
SLA 可用性服务等级:暂无
服务可维护性
服务日志
堡垒机审计日志:有
服务可监控性
堡垒机审计监控:通过堡垒机登录服务器的所有操作都会被堡垒机记录
故障恢复能力及紧急预案
运维组为用户的服务提供7×24小时的故障运行维护,可以在OA工单(IT基础设施资源申请),JIRA工单、飞书、QQ、微信、邮件和电话等方式提供技术支持。
出现故障时电话联系运维人员进行故障解决恢复。
服务安全
所有人员操作都是通过堡垒机审计
注意事项
无
其他
无