主要观点总结
文章介绍了《Streaming System》这本书及其相关内容,包括作者在Cisco构建分布式数据平台Nimble的经历、流式数据处理的技术细节,以及该书对工业界的影响。
关键观点总结
关键观点1: 书籍介绍与翻译
《Streaming System》由Flink团队的陈守元老师翻译成中文,英文版之前受到推荐,对于ScaleUP上的争议,这本书有很大的参考价值。
关键观点2: 构建分布式数据平台Nimble
作者在Cisco构建Nimble系统时,参考了《Streaming Systems》这本书,并基于Golang构建了一个系统,能够处理大量流数据并分析特征,最后达到了在嵌入式平台上支持1M records/s的处理能力。
关键观点3: 流式数据处理技术细节
文章详细描述了流式数据的处理,包括Window如何构建(如TumblingWindow、Slide Window或SessionWindow),Event如何Trigger,以及Evictor的设计等内容。
关键观点4: 工业界的影响与争议
书的内容对工业界产生了很大影响,特别是在设计NetDAM和TTPoE的实现中得到了应用。文章对于ScaleUP网络的问题和流式系统的逻辑进行了探讨,并对争议表达了看法。
关键观点5: 书籍推荐
最后,文章再次推荐了这本书,并附上了军华老师的推荐。
文章预览
最近有一本书《Streaming System》由Flink团队的陈守元老师翻译成中文了, 英文版前面好几年渣B都一直在推荐, 而对于如今ScaleUP上的一些争议,这本书也有很大的参考价值. 渣B是在2018年的时候给Cisco构建一个分布式的数据平台Nimble时, 对于大量的流数据分析例如各种交换机的Hardware Telemetry, Yang Telemetry, 路由器的Netflow/IPFIX和防火墙的日志等... 对于这些无穷无尽的数据流, 通常需要对其进行某一列的数据在某一个时间段构成一个向量进行分析和特征抽取, 并打分评估网络服务质量或者是否有安全违规. 正好最近在Linkedin上看到下面这图, 引起了共鸣. 当时就是一个很偶然的机会搜索到了该书作者的streaming processing 101这样的blog, 然后就读了这本书. 然后也了解到了Flink这样的项目, 只是当时在Cisco的很多嵌入式平台上是ARM架构, Flink的java runtime相对较重, 而且那个时候
………………………………