第四章、IT基础架构建设-服务等级协议(SLA)

1.1.  服务等级协议(SLA)

1.1.1. 简介

服务等级协议(简称:SLA,全称:service level agreement)。是在一定开销下为保障服务的性能和可用性,服务提供商(也可以是企业内部)与用户间定义的一种双方认可的协定,通常这个开销是驱动提供服务质量的主要因素。

首先,SLA的概念,对互联网公司来说就是网站服务可用性的一个保证,例如业务连续性99.99%,可用性9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。

这么多9是怎么计算的呢?全年拿365天做计算吧,看看几个9要停机多久时间做能才能达到!

1年 = 365天 = 8760小时

99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时

99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟

99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟

从以上看来,全年停机5.26分钟才能做到99.999%,即5个9。依此类推,要达到6个9及更多9,可说是非常难了吧,怎么做到更多的9每个公司对几个9的定义都不一样,互联网公司至少都是99.99吧。像一些政府网站,如社保公积金等,经常故障服务不可用,能做到99.9就不错了。

如果我们提供的服务可用性越低,意味着造成的损失也越大,别的不说,如果是特别重要的时刻,或许就在某一分钟,你可能就会因服务不可用而丢掉一笔大的订单,这都是始料未及的。所以,只要尽可能的提升SLA可用性才能最大化的提高企业生产力。

要做到更多的9,就要不断的监控自己的服务,服务挂掉能及时恢复服务。就像开车出远门,首先得检查轮胎,同时还得准备一个备胎一样的道理。

1.1.2. SLA范例

服务范围

为客户提供生产、测试、预发、容灾环境IAAS层基础维护服务。

服务等级指标

服务可用性按照服务周期进行统计,按照如下方式计算:

服务可用性 = ((服务周期总分钟数 – 服务不可用分钟数) / 服务周期总分钟数) × 100%。

SLA指标:99.95% (整体平均)

服务周期:一个服务周期为一个自然年。如不满一月则以当月的累计服务时间作为一个服务周期。

服务周期总分钟数:按照每年12月每周七(7)天每天二十四(24)小时计算。

不包括以下原因所导致的服务不可用时间:

(1)IAAS平台预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;

(2)任何IAAS平台所属设备以外的网络、设备故障或配置调整引起的;

(3)客户的应用程序受到黑客攻击而引起的;

(4)客户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;

(5)客户的疏忽或由客户授权的操作所引起的;

(6)客户未遵循IAAS平台使用文档或使用建议引起的;

(7)不可抗力引起的。

 

服务功能

应用运维提供的服务项:服务器申请、dnspod一级二级域名配置、svn账号申请、svn组权限管理、Jenkins发布数据配置、nginx代理配置、配置系统监控、配置性能监控、系统优化配置、应用和操作系统安全加固、生产、预发、容灾、测试环境问题排查、线上故障协查

网络运维提供的服务项:公网域名备案、网络监控与网络抓包、负载均衡配置、外联网络策略、数据中心和VPN、网络支持、BaaS技术支持、物理服务器故障处理、gitlab支持、内部容器平台支持、线上故障网络协查

DB运维提供的服务项:数据订正、表结构变更、程序发布数据库配置、数据查询和导出、数据同步、新建数据库、数据库权限申请、大数据同步查询支持、压测环境数据配置和同步、数据迁移、数据归档、测试环境数据库搭建和数据同步、线上故障协查

故障不适用SLA,出现故障可电话联系处理

接受工单方式:OA工单(IT基础设施资源申请),JIRA工单

 

IDC服务组

服务项

服务可用时段

服务响应时间

服务解决时限

应用

服务器申请

5X8

2H

2D

 

dnspod一级二级域名配置

5X8

2H

1D

 

svn账号申请

5X8

2H

1D

 

svn组权限管理

5X8

2H

1D

 

Jenkins发布数据配置

5X8

2H

1D

 

nginx代理配置

5X8

2H

1D

 

配置系统监控

5X8

2H

1D

 

配置性能监控

5X8

2H

1D

 

系统优化配置

5X8

2H

1D

 

应用和操作系统安全加固

5X8

2H

1D

 

生产 预发 容灾 测试环境问题排查

7X24

1H

2D

 

线上故障协查

7X24

即时响应

 

网络

公网域名备案

5X8

2H

2D(备案结果一般为20工作日)

 

网络监控与网络抓包

5X8

2H

1D

 

负载均衡配置

5X8

2H

1D

 

外联网络策略(支付)

5X8

2H

1D

 

数据中心和VPN

5X8

2H

1D

 

大数据网络支持

5X8

2H

1D

 

BaaS技术支持

5X8

2H

1D

 

物理服务器故障处理

5X8

2H

1D

 

gitlab支持

5X8

2H

1D

 

内部容器平台支持

5X8

2H

1D

 

线上故障网络协查

7X24

即时响应

 

DB

数据订正

5X8

2H

1H

 

表结构变更

5X8

2H

大表的表结构变动需要提前一天申请

 

程序发布数据库配置

5X8

2H

1H

 

数据查询和导出

5X8

2H

1H 数据导出需要相关领导审核。

 

数据同步

5X8

2H

1D

 

新建数据库

5X8

2H

新建数据库涉及代理配置,IDB配置,资源调配

要求提前一周申请

 

数据库权限申请

5X8

2H

1H

 

大数据同步查询支持

5X8

2H

1D

 

压测环境数据配置和同步

5X8

2H

1D(跟数据大小有关)

 

数据迁移

5X8

2H

1D(跟数据大小有关)

 

数据归档

5X8

2H

1D(跟数据大小有关)

 

测试环境数据库搭建和数据同步

5X8

2H

1D(跟数据大小有关)

 

线上故障协查

7X24

即时响应

 

 

 

服务用户

目前服务于各相关业务。

服务性能

应用

    Nginx代理服务: 单机性能 20000并发

    内部dns服务: 单机性能170000 QPS

DB

    参数 压测数据库sas硬盘

    响应时间(ms) 29

    TPS(个/s) 16590

    运行次数 10000

    并发虚拟用户数 500个

    cpu的load average值小于逻辑CPU数(现在物理机一般是32核)

    磁盘使用量不超过80%

    常InnoDB存储引擎缓冲池的命中不应该小于99%。

 

网络

虚拟机网络服务:

内部网络同机房带宽:

旧虚拟化平台理论上限2Gbps,平均50Mbps,同主机下虚机网络共享

新虚拟化平台理论上限20Gbps,平均500Mbps,同主机下虚机网络共享

内部网络同机房SLA服务等级:99.9995%

内部网络跨机房带宽:

理论上限带宽 2Gbps,所有同一机房服务器共享该带宽进行跨机房访问

内部网络跨机房SLA服务等级:99.95%

外部网络带宽:

电信、移动、联通三线总共300Mbps上限带宽

外部网络SLA服务等级:99.95%

负载均衡:

吞吐:40Gbps L4层流量,18Gbps L7层流量

请求:L7请求1百万/秒,L4请求7百万/秒

连接:最高24000000同时连接

SSL TPS:4000(目前线上环境平均40)

SLA可用性服务等级:99.95%

服务器主机存储:

生产环境:

普通服务器(web层、中间件层)硬盘raid5,7.5k转速 SAS盘,旧虚拟化平台随机读/写 iops 1534/945,新虚拟化平台 随机读/写 iops 2451/1181,可以承受单硬盘故障

DB服务器 线上主用数据库:硬盘三组raid10,15k转速;次要数据库硬盘两组raid10,7.2k转速,SATA盘,可以承受单硬盘故障

SLA 可用性服务等级:99.95%

测试环境:

少量服务器raid5,7.5k转速SAS盘,可以承受单硬盘故障

其余服务器为raid0,单硬盘故障可能导致数据丢失或者系统故障

SLA 可用性服务等级:暂无

 

服务可维护性

服务日志

堡垒机审计日志:有

服务可监控性

堡垒机审计监控:通过堡垒机登录服务器的所有操作都会被堡垒机记录

故障恢复能力及紧急预案

运维组为用户的服务提供7×24小时的故障运行维护,可以在OA工单(IT基础设施资源申请),JIRA工单、飞书、QQ、微信、邮件和电话等方式提供技术支持。

出现故障时电话联系运维人员进行故障解决恢复。

 

服务安全

所有人员操作都是通过堡垒机审计

注意事项

其他

第四章、IT基础架构建设-服务等级协议(SLA)

发表回复

滚动到顶部