欢迎来到云栖网

免费注册

数据库性能监控 让应用程序健康状况尽在掌握

云栖网 2021-05-07 17:53 来源:云栖网

文:SolarWinds首席极客 Thomas LaRock

数据库性能监控 让应用程序健康状况尽在掌握

云栖网:云原生(Cloud Native)是云计算领域的一个新兴概念。云原生应用从设计之初就可以针对云环境的规模和性能进行优化。它们基于微服务架构,使用托管服务,充分利用持续交付的优势来实现可靠性和更快的上市时间。根据云原生产业联盟2020年7月发布的《2020年云原生发展白皮书》,2019年中国云原生市场规模已达350.2亿元人民币。云原生应用的快速发展,一方面带来更多业务创新的机会,另一方面也对应用监控提出新的挑战。而应对的办法,可以从数据库监测当中找到答案。

当今的大多数商业应用和定制应用都依赖于数据库,当数据库的性能不佳时,应用的性能就会受到影响。传统意义上的数据库和应用程序监控,主要是针对单一地点的一个数据中心中的单个服务器。虽然我们已经发展到云原生应用阶段,但是相应的监控工具的发展还没有跟上。直到现在,许多监控工具依然是围绕单个数据中心和单一节点的理念构建的。当我们查询数据库或服务器数据记录时,以往的监控工具并不知道我们到底在找什么,甚至都不知道有多少个节点和数据中心存在。我们能拿到的只有日志,要靠自己努力把所有的信息拼在一起。

好在有新型的数据库性能监控(DPM)和应用程序性能监控(APM)工具,我们可以借助其获得洞察并解决相应的问题。数据库性能和应用程序性能指标之间存在特定的联系,对其中一项指标的洞察会影响另一项指标和结果。

新世界

那么,如何让应用程序性能监控(APM)和数据库性能监控(DPM)在新环境下相互配合呢?传统数据库性能监控可以提供出色的洞察,但是只针对特定的数据库,所以还需要追踪数据库以外的指标和性能。云原生应用会向全球分发信息,因此不能只做特定查询,而是要查看整个工作负载来进行数据库调优。这就需要同时监控现场数据库和云原生应用程序。

数据库性能监控(DPM)和应用程序性能监控(APM)可以帮助我们查看广义的指标和用户体验,告诉我们数据库、网络或基础设施是否存在问题。

阅读指标

谷歌的站点可靠性工程师总结出四个对更好的提供服务非常关键的黄金指标,分别是延迟、流量、错误、饱和度。这些指标反映了接收响应所需的时间、网络上的请求数量、错误率和网络负载大小。数据库性能监控可以通过这四个黄金指标来更好地了解整个工作负载。

工作负载的可视化可以帮助你了解数据库和应用程序的运行状况,并提供用户体验相关的智能指标。例如,如果网站页面的加载时间延长,这应该是数据库出现问题,还是网站的访问量超出了正常情况?这四个黄金指标可以帮你确定是数据库出现了错误还是访问网站的用户数量过大。使用四个黄金指标来找到问题的常见原因,可以帮你更快地找到问题的根源。

深入细节

查看工作负载并发现整体问题之后,我们就可以深入细节来找到问题的真正根源。过去我们完全对目标没有概念,只能多翻看不同的查询来寻找问题所在。这种做法不仅耗费时间,也容易让人灰心。从顶层开始查看工作负载就可以解决这个问题,让你更深入地了解问题的根源。它还可以更具体地告诉你问题为什么会发生,而不仅仅是如何发生的。

指标的快速可视化还可以让你未雨绸缪,在状况出现之前发现并修复问题。大多数数据库监控工具出了问题才发出警报,工作起来比较被动。现在通过跟踪用户体验,你可以提前发现问题。响应速度已经成为企业能否立足的重要因素,因此快速解决问题非常有必要。

通过数据库和应用性能监控工具搭配工作,可以优化数据库性能,更好地了解应用的运行状况,加快解决问题的速度。这既保证了业务连续性,也能带来更高的用户满意度,为企业获得更好的发展机会。