随着公司的发展,需要越来越多的工具,随着工具的增加,越来越多的报警和过程中断。很快,每个系统和工具的报警听起来都像一场嘈杂的葡萄酒派对,每个人都在谈论自己不同的话题。因此,安全和运行维护团队正逐渐对报警失去敏感性,甚至系统标记了真正的异常活动,也可能因为报警疲劳而被忽视。
你需要的是唱诗班那样和谐悦耳的警报,一切协调运作,只有真实的事件才会发出高音。那么,如何达到这个水平呢?Threat Stack 工程副总裁克里斯·杰维斯,还有VictorOps,有七种 *** 可以避免警报疲劳。
1. 所有警报都有上下文环境和可操作性
筛选无上下文的无意义警报来确定行动过程是非常疲惫的。有效的警报有两个关键特征:
- 上下文:匹配整个系统的数据点来描述完整的视图,包括操作手册、图表、日志、注释和其他与解决问题有关的细节。
- 源细节:指向系统中任何受影响的问题源和其他区域,从根本上解决问题。
2. 减少冗余报警
显然,不断收到同一问题的警报无疑是无效的,尤其是当问题甚至不被称为问题时。这会导致警报疲劳***其中一个因素。无论是常规工程工作的报警,还是第三方的报警App不必要的报警并不重要:所有这些例子都会导致报警疲劳。准确调整每个工具的报警协议可以减少和合并报警。更好的是,将所有安全功能集成到一个单一的平台上,可以统一的报警配置和生成。
3. 指定单一的报警源或时间线
每个工具都发送自己的警报(大部分直接发送到你的邮箱),这使得连点成线很难发现真正的问题——即便真的在邮件堆中对这些警报投以关注。不能依赖邮件警报作为单一的真相来源。采用Slack如开放式通信频道无缝连接报警,提供团队范围的可见性,允许开放讨论解决问题,要好得多。
无缝连接安全功能(威胁情报、漏洞管理、亚马逊云跟踪服务CloudTrail等等)到单个平台,安全报警也可以统一整合。
4. 调整异常检测阈值
由于日常忙碌,许多团队忘记了定期调整基准线。这导致了更无用的报警,进一步恶化了报警疲劳。解决方案***噪声报警是一个很好的开始,但更好的解决方案是使用可以随时从系统基线学习的工具,可以随着公司的扩张而调整,这样安全团队就不需要手动调整。
5. 确保向正确的人/团队发出警报
随着团队成长的另一个突然问题是确保团队中的每个人都能收到相应的警报来采取行动。作为持续改进过程的一部分,每个团队成员都应该决定收到警报的方式、频率和主题。
6. 定制个人通知/寻呼
工程师和运维人员被深夜叫来处理根本不严重的警报是很常见的。这不仅会让团队疲惫,还会让他们不再相信日间警报!因此,应确保只有高度严重的警报才会触发“深夜呼叫”。所有其他警报都可以在第二天早上处理。
7. 定期审查和调整
以上六项建议不应仅仅是一次性工作;您必须定期重新审查,以确保系统正常运行。以下问题应在事后分析和定期团队会议上提出:
- 警报信噪比调整全队都知道吗?
- 警报精调是不断改进的一部分吗?
- 团队是否被授权安排工作优先级,处理报警疲劳相关因素?
- 报告过程明智有效吗?
- 能否将更多数据集成到报警中,提供适当的上下文进行决策?
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。