Docker 简单监控

1056 查看

Docker 简单监控

标签(空格分隔): Docker 监控 Monitoring


作者是 LE JOURNAL DE CHRISTOPHE,原文地址是 Simple Monitoring for Docker (Part I)

从 VM 迁移到 Docker 容器是非常容易的,除了监控部分。一个简单的方法,运行一个数据收集客户端(比如 Zabbix 客户端),绝对不是一个好的解决方案,因为它与 Docker 的每个容器中只有一个清楚明确任务的哲学相悖,并且也因为它要求使用定制的镜像。从收集 LXC 和 Docker 容器的指标开始,我用一个基于系统的简单脚本来收集来自于 Docker 容器的指标。

我使用 Zabbix 来汇总性能指标,因此该脚本将被设计成用在 Zabbix 客户端的 user parameter。一个 user parameter 是一个被 Zabbix 运行并且返回某些信息的基本脚本。User parameters 不得不被定义在客户端的配置文件中,但可能接收参数是为了单个脚本的多个信息。

主机指标

这些指标在 Docker 主机级别生成,而不是容器级别。这是一个热身,一个概念验证或者是一个冒烟测试用于断言在我的监控系统,一切都是正确安装的。目前是收集一些与容器相关的指标。

  1. 正在运行的容器数量
  2. 已经定义的容器总数量
  3. 崩溃的容器数量 即多少个已经停止的容器以非 0 返回码退出。

以下是一个简单的 shell 实现:

#!/bin/bash

function countContainers() {
    docker ps -q $1 | wc -l
}

function countCrashedContainers() {
    docker ps -a | grep -v -F 'Exited (0)' | grep -c -F 'Exited ('
}

TYPE=${1-all}

case $TYPE in
    running) COUNT_FUNCTION="countContainers"; shift;;
    crashed) COUNT_FUNCTION="countCrashedContainers"; shift;;
    all) COUNT_FUNCTION="countContainers -a"; shift;;
esac

$COUNT_FUNCTION

然后对 Zabbix 做一些配置后,会生成看起来像这样的图:

因为我有 9 个容器长期运行,3 个数据容器和一个容器以定时每小时启动一次,这是符合我期望的。

一个类似的脚本可以被写的用于收集镜像的指标,比如镜像的总数量以及多少是 dangling 的。

容器指标

首先我想收集每个容器的以下指标:

  1. 容器的 IP 地址
  2. 容器的状态(running, paused, stopped, crashed)
  3. user 和 system CPU time
  4. 容器进程的内存使用
  5. 网络活动(in 和 out)

IP 地址和容器状态

这些可以在 docker inspect <container-id> 发现。IP 地址被发现在 NetworkSettings.IPAddress 以及我从以下获取到的 State 计算状态:

  • 0 -> Running
  • 1 -> Paused
  • 2 -> Stopped
  • 3 -> Crashed (即以非零返回码退出)

CPU 和 Memory

cpu 和 内存可以在 /sys/fs/cgroup/docker 目录下 cpuacct.statmemory.stat 文件检索到。

Network activity

根据博客文章,目前检索 network activity 比检索 CPU 或 Memory 更复杂并且我不喜欢在文章中提到的方法。尽管如此,这些数据可以十分容易的从容器中检索到的,通过在容器实例运行一个简单的 ifconfig eth0 命令或是从 /sys 层次结构中查看。感谢 Docker 1.3 中引进的 exec 命令,运行这个命令进入一个运行着的容器是十分容易的,不需要任何定制镜像或者在启动容器时指定任何命令。

脚本

#!/usr/bin/env python

__author__ = 'Christophe Labouisse'

import argparse
import re
import os

from docker import Client
from docker.utils import kwargs_from_env


def display_cpu(args):
    detail = c.inspect_container(args.container)
    if bool(detail["State"]["Running"]):
        container_id = detail['Id']
        cpu_usage = {}
        with open('/sys/fs/cgroup/cpuacct/docker/' + container_id + '/cpuacct.stat', 'r') as f:
            for line in f:
                m = re.search(r"(system|user)\s+(\d+)", line)
                if m:
                    cpu_usage[m.group(1)] = int(m.group(2))
        if args.type == "all":
            cpu = cpu_usage["system"] + cpu_usage["user"]
        else:
            cpu = cpu_usage[args.type]
        user_ticks = os.sysconf(os.sysconf_names['SC_CLK_TCK'])
        print(float(cpu) / user_ticks)
    else:
        print(0)


def display_ip(args):
    detail = c.inspect_container(args.container)
    print(detail['NetworkSettings']['IPAddress'])


def display_memory(args):
    detail = c.inspect_container(args.container)
    if bool(detail["State"]["Running"]):
        container_id = detail['Id']
        with open('/sys/fs/cgroup/memory/docker/' + container_id + '/memory.stat', 'r') as f:
            for line in f:
                m = re.search(r"total_rss\s+(\d+)", line)
                if m:
                    print(m.group(1))
                    return

    print(0)


def display_network(args):
    detail = c.inspect_container(args.container)
    if bool(detail["State"]["Running"]):
        ifconfig = c.execute(args.container, "ifconfig eth0")
        m = re.search(("RX" if args.direction == "in" else "TX") + r" bytes:(\d+)", str(ifconfig))
        if m:
            print(m.group(1))
        else:
            b = c.execute(args.container, "cat /sys/devices/virtual/net/eth0/statistics/"+("rx" if args.direction == "in" else "tx")+"_bytes")
            if re.match(r"\s*\d+\s*", b):
                print(b)
            else:
                print(0)
    else:
        print(0)


def display_status(args):
    detail = c.inspect_container(args.container)
    state = detail["State"]
    if bool(state["Paused"]):
        print(1) # Paused
    elif bool(state["Running"]):
        print(0) # Running
    elif int(state["ExitCode"]) == 0:
        print(2) # Stopped
    else:
        print(3) # Crashed


parser = argparse.ArgumentParser()

parser.add_argument("container", help="Container name")

subparsers = parser.add_subparsers(title="Counters", description="Available counters", dest="dataType")

cpu_parser = subparsers.add_parser("cpu", help="Display CPU usage")
cpu_parser.add_argument("type", choices=["system", "user", "all"])
cpu_parser.set_defaults(func=display_cpu)

ip_parser = subparsers.add_parser("ip", help="Display IP Address")
ip_parser.set_defaults(func=display_ip)

memory_parser = subparsers.add_parser("memory", help="Display memory usage")
memory_parser.set_defaults(func=display_memory)

network_parser = subparsers.add_parser("network", help="Display network usage")
network_parser.add_argument("direction", choices=["in", "out"])
network_parser.set_defaults(func=display_network)

status_parser = subparsers.add_parser("status", help="Display the container status")
status_parser.set_defaults(func=display_status)

c = Client(**(kwargs_from_env()))

args = parser.parse_args()
args.func(args)

延伸