监视 Linux 裸机服务器
您可以通过在服务器中配置监视代理程序,使用 IBM Cloud Monitoring 来监视裸机服务器。 监控代理使用访问密钥(令牌)来验证 IBM Cloud Monitoring 实例。 监控代理充当数据收集器。 它会自动收集度量值。 您可以通过网络用户界面查看指标。 您可以监视 IBM Cloud,内部部署和其他云中的 Ball 金属。
缺省情况下,此代理程序收集可用于监视主机的核心基础结构和网络时间序列。 有关收集的度量的列表,请参阅 可用于非编排环境的度量。
Monitoring 代理程序自动收集每个主机的以下类型的系统度量值:
-
System hosts metrics
提供有关 CPU,内存和存储器使用情况度量的信息,可用于分析所有进程的性能和资源利用率。 -
File and File System metrics
提供有关可用于分析系统中发生的文件交互的文件和文件系统的信息。 例如,您可以找到有关打开的文件,进出的字节数或给定文件系统的使用百分比的信息。 -
Process metrics
提供有关在服务器中运行的进程的信息。 例如,您可以使用这些度量值来浏览进程数,或者获取客户机或服务器信息。 -
Network metrics
提供有关网络的信息。 它们提供对应用程序,容器和服务器之间建立的连接的洞察。 例如,您可以查看发送或接收的字节数,或 HTTP 请求、连接和延迟的数量。 此外,对于SQL或 MongoDB,,当配置为故障排除模式时,代理会收集其他信息。
通过 Monitoring UI,您可以在 顾问程序 选项卡,探索 选项卡和 仪表板 选项卡中分析数据。 您可通过度量值视图和仪表板来监视数据。
在监控数据时,请考虑以下信息:
-
在 资源管理器 选项卡中,可以监视各个度量。
-
在 顾问程序 选项卡中,可以监视 Red Hat OpenShift 或主机级别度量。
此选项卡仅适用于属于有权监视 Red Hat OpenShift 或主机级别度量的团队的用户。
-
在 仪表板 选项卡中,您可以通过面板预定义仪表板或定制仪表板进行监视,并获取对网络数据,应用程序数据,拓扑,服务,主机和容器的专门洞察。 在仪表板中,面板显示一个度量值或一组度量值。
对于每个度量值视图和仪表板,可以定义数据作用域、数据聚集方式以及要应用于数据的时间和组过滤器。 有关更多信息,请参阅 管理面板。
您可以将仪表板配置为团队的默认入口点,从而统一团队的体验,并让用户立即关注与他们最相关的信息。
有关更多信息,请参阅 查看度量。
准备工作
-
安装 IBM Cloud CLI。 有关更多信息,请参阅安装 IBM Cloud CLI。
-
要完成本主题中的步骤,请确保您可以从裸机访问因特网。 配置监视代理程序需要此操作。
-
配置终端与裸机服务器之间的 VPN 连接
虚拟专用网络(VPN)访问使用户能够通过 IBM Cloud® 专用网络远程安全地管理所有服务器。 通过建立从您的位置到专用网络的 VPN 连接,便可以使用加密的 VPN 隧道进行带外管理和服务器急救。 可以向任何 IBM Cloud 数据中心或 PoP 启动 VPN 隧道,以实现地理冗余。
完成以下步骤以配置终端与裸机服务器之间的 VPN 连接:
-
根据您的操作系统,从 Array Networks Client and Tools 下载站点下载最新的
MotionPro
32 位或 64 位文件。 了解更多信息。 -
配置独立 SSL VPN 客户机并打开连接:
例如,如果您使用 MotionPro Plus客户端为 MacOS, 添加个人资料,请点击 “添加”。
在
Basic
部分中,输入Title
。 输入Gateway
,例如,对于达拉斯 10 中的裸机,请输入vpn.dal10.softlayer.com
。 输入 VPN 用户名。 检查Port
是否设置为443
。 然后,单击确定。要打开安全连接,请单击 登录。
-
使用 SSH 连接到裸机服务器
根据裸机主机上的安全设置和
ssh
配置,您可能需要 VPN 来访问系统。您必须使用凭证或 IBM Cloud 控制台中提供的根凭证
ssh
到主机。您将需要 root 用户许可权才能安装监视代理程序。
例如,您可以完成以下步骤以将
ssh
所需的裸机信息获取到服务器中:-
单击 菜单 图标
> 经典基础架构 > 设备列表。
-
确定要监视的裸机服务器。 复制 公共 IP。
-
单击裸机服务器设备名。
-
选择 密码。 复制 root 用户的密码。
然后,在终端运行以下命令:
ssh <USER_ID>@<IP_ADDRESS>
其中:
<USER_ID>
是用于登录到裸机服务器的用户标识。 例如,使用root
。<IP_ADDRESS>
是裸机服务器的公共 IP 地址。ssh root@45.123.122.12
例如:
配置监视代理程序以从裸机服务器收集度量
您必须安装监视代理程序以从裸机服务器收集度量并将其转发到 IBM Cloud Monitoring 实例。
从命令行完成以下步骤以安装监视代理程序:
-
获取访问密钥。 有关更多信息,请参阅通过 IBM Cloud UI 获取访问密钥。
-
获取采集 URL。 有关更多信息,请参阅 收集器端点。
-
部署监视代理程序。 运行以下命令:
curl -sL https://ibm.biz/install-sysdig-agent | sudo bash -s -- --access_key ACCESS_KEY --collector COLLECTOR_ENDPOINT --collector_port 6443 --secure true --tags TAG_DATA --additional_conf 'sysdig_capture_enabled: false'
位置
-
ACCESS_KEY 是实例的摄取密钥。
-
COLLECTOR_ENDPOINT 是监视实例在其中可用的区域的采集 URL。
-
TAG_DATA 是格式为 TAG_NAME:TAG_VALUE 的逗号分隔标记。 您可以为监控代理关联一个或多个标签。 例如,role:serviceX,location:us-south。 稍后,可以使用这些标记来识别来自运行代理程序的环境中的度量值。
-
SECURE 标志必须设置为 true 才能使用安全 SSL/TLS 连接将度量值发送到收集器。
-
将 sysdig_capture_enabled 设为 false 可禁用捕获功能。 缺省情况下,此值设置为 true。 有关更多信息,请参阅使用捕获。
如果
cURL
不可用,那么必须将其安装。 例如,对于 Ubuntu 裸机,请运行以下命令:sudo apt-get update
。 然后,运行安装命令:sudo apt-get install curl
。例如,请参阅以下样本命令,以安装用于将度量值转发到美国南部 (达拉斯) 的监视实例的监视代理程序:
curl -sL https://ibm.biz/install-sysdig-agent | sudo bash -s -- -a xxxxxxxxxxxxx -c ingest.us-south.monitoring.cloud.ibm.com --collector_port 6443 --secure true -ac "sysdig_capture_enabled: false" --tags sourceType:baremetal,location:dallas
-
-
为非编排环境配置代理程序。
打开位于
/opt/draios/etc/
中的dragent.yaml
文件。添加以下配置参数:
feature: mode: monitor_light
重新启动代理程序。 运行以下命令:
service dragent restart
启动监视 UI 以验证您是否正在获取用于监视裸机服务器的数据
要启动 Web UI,请完成以下步骤:
-
使用用户 ID 和密码登录后,会打开 IBM Cloud 控制台。
-
单击 菜单 图标
> 可观察性。
-
选择监视。
这将显示 IBM Cloud 上可用的实例的列表。
-
选择实例。 然后,单击 打开仪表板。
在监视代理程序初始收集和处理信息时,可能需要一些时间才能看到裸机条目。
每个浏览器只能监视一个实例。 对于同一实例,可以有多个选项卡。
监视裸机
在 顾问程序 选项卡中,您可以对主机和 Kubernetes 集群的运行状况,风险和容量进行监视和故障诊断。

- 每 10 分钟刷新一次数据。
- 度量按事件计数和严重性划分优先级。
- 有关更多信息,请参阅 Advisor。
在 Advisor 部分中,选择按主机进行监视。 查看可用于监视资源运行状况的预定义仪表板。
选择按主机进行监视时,可以选择以下任何仪表板:
- 主机资源使用情况
- 文件系统的使用和性能
- 内存使用情况
- 网络
- Sysdig 代理程序运行状况和状态
[可选] 配置 Prometheus IPMI Exporter 以监视传感器度量
除了监视代理程序自动收集的一组度量值外,您可能还希望收集其他度量值,例如传感器度量值。 您可以使用 Prometheus IPMI Exporter
从裸机服务器执行 Intelligent Platform Management Interface (IPMI) 设备传感器度量的收集。
- Prometheus IPMI Exporter 导出器支持本地 IPMI 设备和可使用远程管理控制协议 (RMCP) 访问的远程设备。
- 使用 RMCP 访问远程设备时,可以使用 IPMI 导出器来监视多个 IPMI 设备。 通过将目标主机名作为参数传递来标识每个设备。
- IPMI 导出器依赖于 FreeIPMI 套件中的工具。
在裸机服务器中配置 IPMI 导出器时,可以收集以下度量值:
-
IPMI 管理度量
当成功收集来自远程主机的数据时,度量值
ipmi_up {collector="<NAME>"}
报告1
。 它报告0
以收集本地主机中的数据。度量
ipmi_scrape_duration_seconds
报告收集器检索数据所花费的时间量。 -
IPMI 系统事件日志 (SEL) 度量
度量值
ipmi_sel_entries_count
报告系统事件日志中的条目数。度量值
ipmi_sel_free_space_bytes
报告新 ystem 事件日志条目的可用字节数。 -
IPMI 传感器数据
IPMI 导出器按传感器类型 (状态和值) 收集 2 度量。 值
0
报告正常状态。 值1
报告警告状态。 值2
报告严重状态。 值NaN
报告信息不可用。 例如,请参阅不同传感器的度量值:温度传感器度量:
ipmi_temperature_celsius
和ipmi_temperature_state
风扇速度传感器度量值:
ipmi_fan_speed_rpm
,ipmi_fan_speed_state
电压传感器度量:
ipmi_voltage_state
,ipmi_voltage_volts
-
机器的 IPMI 机箱电源状态
度量值
ipmi_chassis_power_state
用于通知机器机箱的当前状态。 当电源开启时,它的值为1
。 当电源关闭时,其值为0
。 -
DCMI 数据
度量值
ipmi_dcmi_power_consumption_current_watts
用于通知机器的实时功耗 (以瓦为单位)。 -
BMC 详细信息
度量 ipmi_bmc_info 在标签中包含有关固件修订版和制造商的信息,并且具有值
1
。
有关更多信息,请参阅 Prometheus IPMI Exporter。
完成以下步骤以配置 Prometheus IPMI Exporter:
安装 Prometheus IPMI 导出器
完成以下步骤:
-
从本地终端,下载 Prometheus IPMI 导出器。
-
在裸机服务器中,从
shh
会话创建目录/usr/monitor
。 请运行以下命令:cd /usr
mkdir monitor
-
将文件复制到裸机。 从文件所在目录运行以下命令:
scp ipmi_exporter-v1.2.0.linux-amd64.tar.gz root@<IP_ADDRESS>:/usr/monitor/
其中,
<IP_ADDRESS>
是裸机服务器的公共 IP 地址。如果该命令失败,请检查 VPN 连接是否仍处于打开状态。
-
在裸机服务器中,从
shh
会话解压缩文件。 请运行以下命令:cd /usr/monitor/
tar -xvf ipmi_exporter-v1.2.0.linux-amd64.tar.gz
-
在裸机服务器中,从
shh
会话安装 FreeIPMI 套件。 请运行以下命令:sudo apt-get update
sudo apt-get install freeipmi
-
在裸机服务器中,从
shh
会话中,检查ipmi_local.yml
文件。 (可选) 您可以更新文件以排除不想监视的传感器。切换到已解压缩 IPMI 导出器的目录:
cd ipmi_exporter-v1.2.0.linux-amd64/
查看配置文件。 运行命令:
more ipmi_local.yml
您应该会看到具有类似内容的文件。# Configuration file for ipmi_exporter # This is an example config for scraping the local host. # In most cases, this should work without using a config file at all. modules: default: # Available collectors are bmc, ipmi, chassis, dcmi, and sel collectors: - bmc - ipmi - dcmi - chassis - sel # Got any sensors you don't care about? Add them here. exclude_sensor_ids: # - 2
-
在裸机服务器中,从
shh
会话运行 IPMI 导出器。./ipmi_exporter --config.file=ipmi_local.yml &
-
检查 IPMI 导出器是否正在运行。 运行命令:
ps -aux | grep ipmi
您应该会看到 IPMI 导出器正在运行。
安装 Prometheus 导出器
监视代理程序会自动从 Prometheus 导出器收集度量值。 因此,要从 IPMI 导出器收集度量,还必须配置 Prometheus 导出器。
完成以下步骤运行 Prometheus 输出程序:
-
从本地终端,下载 Prometheus 导出器。
-
在裸机服务器中,从
shh
会话切换到目录/usr/monitor/
。 运行以下命令:cd /usr/monitor/
-
将文件复制到裸机。 从文件所在目录运行以下命令:
scp prometheus-2.18.1.linux-amd64.tar.gz root@<IP_ADDRESS>:/usr/monitor/
其中,
<IP_ADDRESS>
是裸机服务器的公共 IP 地址。如果该命令失败,请检查 VPN 连接是否仍处于打开状态。
-
在裸机服务器中,从
shh
会话解压缩文件。 请运行以下命令:cd /usr/monitor/
tar -xvf prometheus-2.18.1.linux-amd64.tar.gz
-
修改
prometheus.yml
文件以包含有关 IPMI 导出器的擦除配置的信息。更改为 Prometheus 目录:
cd prometheus-2.18.1.linux-amd64/
编辑
prometheus.yml
文件并添加 擦除配置部分:# my global config global: scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute. evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute. # scrape_timeout is set to the global default (10s). # Alertmanager configuration alerting: alertmanagers: - static_configs: - targets: # - alertmanager:9093 # Load rules once and periodically evaluate them according to the global 'evaluation_interval'. rule_files: # - "first_rules.yml" # - "second_rules.yml" # A scrape configuration containing exactly one endpoint to scrape: # Here it's Prometheus itself. scrape_configs: # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config. - job_name: ipmi metrics_path: '/metrics' scheme: http static_configs: - targets: ['localhost:9290'] labels: instance: baremetal01 region: us-south
-
运行 Prometheus 导出器:
./prometheus &
配置网络设置
如果要从远程服务器收集度量值,请完成以下步骤:
-
启用防火墙以允许访问
ipmi_exporter
。 -
[可选] 更新 VPC 规则
如果使用专用端点,请将入站规则添加到具有
source type = Security Group
的端口9290
的安全组,然后选择裸机服务器的安全组。
更新在裸机服务器中运行的监视代理程序
完成以下步骤:
-
在裸机服务器中,从
shh
会话切换到目录/opt/draios/etc/
。 运行以下命令:cd /opt/draios/etc/
-
更新
/opt/draios/etc/dragent.yaml
。将以下部分添加到
dragent.yaml
文件中:prometheus: enabled: true interval: 30 log_errors: true max_metrics: 3000 max_metrics_per_process: 3000 max_tags_per_metric: 20 process_filter: - include: port: 9090 conf: port: 9090 path: "/metrics" - include: port: 9290 conf: port: 9290 path: "/metrics"
-
重新启动监视代理程序。 运行以下命令:
service dragent restart
验证您是否可以看到 prometheus ipmi 度量
完成以下步骤:
-
单击 菜单 图标
> 可观察性。
-
选择监视。
-
标识您创建的监视实例。 然后,单击 打开仪表板。
-
在
Explore
视图中,选择 主机和容器。 然后,选择要监视的裸机服务器。
-
打开选项以 选择更多仪表板和度量。 然后,在搜索栏 ipmi 中输入。 显示 IPMI 指标列表。
IPMI 度量
配置仪表板以分析裸机的 IPMI 状态
要创建仪表板以监视 IPMI 度量,请完成以下步骤:
-
选择
ipmi_up
公制。ipmi_up 度量 -
选择 3 点图标。 然后,选择 复制到仪表板。
复制仪表板 -
输入名称 [裸机] IPMI 监视。 然后,单击“复制并打开”。
复制并打开仪表板 这样会打开该仪表板。
IPMI 定制仪表板 -
将更多 IPMI 度量添加到 [裸机] IPMI 监视 定制仪表板。 对要监视的每个 IPMI 度量重复步骤。
-
拖放并调整面板大小以获取所需的仪表板布局。 保存布局。
后续步骤
-
创建定制仪表板。 有关更多信息,请参阅使用仪表板。
-
了解警报。 有关更多信息,请参阅使用警报。
-
了解如何管理日志。 请参见 开始使用 IBM Cloud Logs。
-
了解 IBM Cloud Monitoring Workload Protection 功能,以查找软件漏洞并划分优先级,检测和响应威胁,以及管理从源到运行的配置,许可权和合规性。 请参阅 IBM Cloud® Security and Compliance Center Workload Protection。