今天看啥  ›  专栏  ›  InfoQ

Cloudflare 在 11月发生重大故障,导致日志丢失

InfoQ  · 公众号  · 科技媒体  · 2024-12-16 13:30
    

主要观点总结

Cloudflare于11月14日发生日志丢失事件,影响了大多数客户并暴露了处理意外流量激增的弱点。文章介绍了事件背景、发生的原因以及Cloudflare团队的应对措施和未来的承诺。同时,文章还讨论了自动化安全机制的复杂性以及实现无缺陷的安全代码的困难。

关键观点总结

关键观点1: Cloudflare日志丢失事件

Cloudflare发生了一起影响大多数客户的事件,导致日志在3.5小时内丢失了55%。事件由配置错误引发,暴露了处理意外流量激增的弱点。

关键观点2: Logpush服务和Buftee服务的角色

Cloudflare开发了Logpush服务,旨在收集日志并将其推送到可预测的文件大小。Buftee服务为Logpush作业提供缓冲区。这次事件中的一个问题出在Buftee的配置上。

关键观点3: 事件的影响和后果

事件影响了Cloudflare的日志处理,导致巨大的增长和过载,使系统出现无响应。尽管团队迅速发现并修复了缺陷,但这次事件对系统造成了重大影响。

关键观点4: 专家评论和观点

ESET高级企业网络安全顾问Nermin Smajic强调了网络安全的重要性,指出不仅要防止外部威胁,还要维护强大的内部系统以抵御复杂的技术挑战。同时,Airbnb的软件工程师Lorin Hochstein赞扬了Cloudflare公开故障报道的质量。

关键观点5: Cloudflare的回应和承诺

Cloudflare承认错误和错误配置是不可避免的,并承诺将实施更多监控预警以确保这些特定的错误配置不会被忽略。他们的目标是使所有Cloudflare系统以可预测和优雅的方式应对问题。


文章预览

作者 | Renato Losio 译者 | 刘雅梦 策划 | 丁晓昀 Cloudflare 最近证实,在 11 月 14 日,他们发生了一起影响 Cloudflare 日志 的事件,在 3.5 小时内丢失了 55% 的日志。 该事件影响了使用该服务的大多数客户,配置错误引发了一系列系统故障,并暴露了处理意外流量激增方面的弱点。Jamie Herre、Tom Walwyn、Christian Endres、Gabriele Viglianisi、Mik Kocikowski 和 Rian van der Merwe 解释道: 通常,Cloudflare 每天向客户发送大约 4.5 万亿个单独的事件日志。尽管这只占需要处理的 50 万亿个客户事件日志总量的不到 10%,但在构建可靠且容错的系统时,它带来了独特的规模挑战。 为了提供来自全球 330 多个城市的数万台服务器的日志,Cloudflare 开发了 Logpush,这是一种 Golang 服务,旨在收集日志并将其推送到可预测的文件大小,同时根据使用情况自动扩缩。内部 Buftee 服务为每 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览