专栏名称: InfoQ 架构头条
InfoQ运维领域垂直号。常规运维、亦或是崛起的DevOps,探讨如何IT交付实现价值。努力为技术人呈现有实践意义的内容~
目录
相关文章推荐
今天看啥  ›  专栏  ›  InfoQ 架构头条

阿里云可观测智能化探索——从智能告警到利用LLM实现自然语言转PromQL

InfoQ 架构头条  · 公众号  · 运维  · 2024-07-24 15:00

主要观点总结

本文介绍了阿里云在AIOps领域的实践和创新,特别是在异常检测、故障根因定位、PromQL查询生成等方面的应用。文章还探讨了使用大语言模型(LLM)在可观测性领域的机遇和挑战,并介绍了团队建设的LLMOps产品。

关键观点总结

关键观点1: AIOps在异常检测中的应用

阿里云采用融合多种模型的检测方法进行异常检测,包括基于指标的异常检测算法、基于日志的异常检测算法和基于trace的异常检测算法等。通过综合使用多种算法,可以大幅减少误告警,并明确定位到具体的异常原因。

关键观点2: AIOps在故障根因定位中的应用

阿里云通过利用指标关系、调用链路等信息,采用多种算法进行故障根因定位。实践表明,这种方法可以快速地定位到问题的根源,准确率可以达到80%以上。

关键观点3: 自然语言转PromQL智能机器人的应用

阿里云使用大模型实现自然语言转PromQL的智能机器人,解决了PromQL语法复杂、指标名不一致等问题。通过逐步推理的方法,生成的PromQL查询具有很强的泛化能力,准确率超过80%。

关键观点4: LLMOps产品的应用

阿里云团队建设的LLMOps产品,针对大模型应用的可观测性,提供定制化的埋点收集信息,为研发人员提供优化应用和系统的依据。这个产品将在不久的将来面向外部客户开放。


文章预览

作者|陈昆仪 博士 编辑|薛梁   随着 IT 系统的复杂性日益增加,运维和监控领域面临的挑战也随之增长。AIOps 已成为解决这些挑战的有力工具,能够帮助自动化和优化监控流程,并显著提高效率。 在 6 月的深圳 ArchSummit 架构师峰会上,来自阿里云高级算法工程师陈昆仪博士,分享了关于阿里云在可观测智能化上的探索与实践,探讨了智能算法在系统异常检测和故障根因定位方面的应用,如推荐告警阈值、时序预测算法、定位异常服务以及分析错误或缓慢的调用链。此外,还将介绍如何利用 LLM 将自然语言自动转换为 Prometheus 查询语言(PromQL)的技术,简化了查询构建的过程。(以下是演讲整理)   首先,非常感谢大家的到来。我是来自阿里云可观测团队的高级算法工程师,我将从算法工程师的视角来介绍整个 AIOps 在阿里云可观测中的落地 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览