基础设施监控和预警
目前计划是,先利用云平台服务商自身提供的监控预警手段,如果达不到要求,则再考虑其它方法。
设置监控预警的步骤
- 登录云服务器管理控制台;
- 到左侧边栏展开
运维与监控
,找到云监控平台; - 在云监控平台页面左侧找到报警服务;
- 添加联系人,也就是告警消息接收人,这里支持电话、手机短信、邮件、钉钉等通知;
- 添加报警规则(选择阈值报警)、设置阈值和通知方式,这里支持的规则已经很全;(还支持回调函数,这个方便故障恢复);
注意事项
- 告警电话不是免费的,我了解到的阿里云服务实例类型 xn4,75 RMB 包 6 个月 500 通电话;
- 短信免费 1000 条 / 月,这个对于简单的场景应该足够;
(备注:这里的短信或者电话等额度可在云监控平台页的资源消耗那里查看到。)
推荐监控和预警实施方式
- 消息发送方式采用短信和邮件;
- 监控项目和阈值
- 公网流出带宽使用率;
- 内存使用率;
- 磁盘使用率;
- CPU 使用率(Host.cpu.total);
- 恢复动作
- 人工干预(这个待补充,因为之前出现的两次问题原因还不明确,如何恢复的也还不了解);
- 自动化恢复(这个待补充,需要在
1
明确后进行);
监控和预警设置的权限
阿里云平台有个 RAM (Resource Access Management) 权限管理台,可以新建 RAM 账户,给 RAM 账户设置权限,例如,单独给云监控的权限对应 AliyunCloudMonitorFullAccess
(对应有个云监控只读权限)。
待确定的内容
- 监控项目和阈值;
- 预警消息接收人;
- 人工干预恢复之前是怎么恢复的?