概述
在企業日常運維中,我們有著大量的服務器設備,設備故障一般可以通過常用的監控軟件實現自動告警,但如果在管理運維中我們要做的不僅僅是發現故障,處理硬件故障,我們還需要進一步的瞭解,今年一共出現瞭多少次硬件故障,其中內存故障多少次,硬盤故障多少次,主板、CPU故障多少次,到底哪臺服務器故障最多?這些事件可以給我們是否更換設備,減少故障提供依據。
我們選用鴻鵠對服務器的日志進行收集,它可以快速搜索,也能夠定制圖表,完美的解決掉這些痛點。
監控目標
收集基礎架構中服務器設備的日志
監控服務器設備的登錄安全
監控服務器設備的配置安全
統計服務器設備的故障情況
安裝vector
Vector作為數據采集器,可以接收設備的syslog日志,並轉發鴻鵠平臺。Vector配置方法參考下文:
安裝Vector
查看安裝後vector版本,確認安裝成功
vector安裝好後,直接執行vector 時,系統首先會去/usr/bin下尋找命令,如果不在這個目錄中,就會找不到瞭。這個時候我們就需要為這些找不到的命令建立一個鏈接文件,鏈接到/usr/bin下
(具體代碼請加入鴻鵠技術交流群,詳見鴻鵠知識庫)
登錄鴻鵠平臺,數據管理>新建數據集
編輯數據源名稱,選擇數據集范圍為上面創建的“switch”,此時會啟用
創建syslog.toml腳本,需要調整字段
address = "0.0.0.0:514":0.0.0.0表示接收所有主機發送過來的syslog,514表示接收的端口(syslog默認為514)
._target_table = "switch" : 表示上文你創建的數據集名稱
mode = "udp":表示接收syslog的協議syslog默認為udp)
address = "172.20.6.111:9092":鴻鵠的IP和相應的端口
運行修改的syslog腳本,註意保持運行狀態。
(具體代碼請加入鴻鵠技術交流群,詳見鴻鵠知識庫)
登錄交換機觸發syslog(註:登錄交換機輸入命令都會自動觸發syslog)。登錄鴻鵠平臺查看數據是否導入到switch數據集。如下圖事件計數已經顯示數據導入成功
查詢下通過vector導入到switch數據集的數據
配置服務器syslog
配置系統日志服務器,填寫日志系統的IP,端口號默認
開啟警報
設置發送到日志平臺的警報類型
鴻鵠查看是否收到日志
字段抽取
抽取字段的目的:比如在生成圖表時,我要調用severity,發現鴻鵠並沒有提取這個字段,那麼我就沒法調用這個字段生成圖表。
IDRAC由於有自己特定的日志格式,鴻鵠並不會抽取所有字段,因此要針對IDRAC日志格式進行數據抽取。字段抽取的邏輯是,先通過sql語句創建視圖,視圖生成後我們就可以直接調用視圖裡的字段,它實際日志仍舊存放在原數據集。
我們先分析下IDRAC的日志格式。我們實際的日志格式分析,需要抽取的字段
idrac_syslog,這裡是需要新建的視圖名稱
switch._time 腳本中由第六行開始switch均指的需要抽取數據的原數據集,這裡需要根據你的數據集名稱替換
where contains( switch._message, 'iDRAC') 'iDRAC'指的是你要搜索到這個寫日志特定的字段,通過IDRAC可以限定日志裡所有包含IDRAC的日志
正則表達式如何寫以及測試
訪問http://regex101.com/,在REGULAR EXPRESSION裡填寫正則表達式,或直接在這裡寫
在TESTING STRING裡輸入日志,可以直接從鴻鵠上拷貝相關的日志
正則表達式如果是正確的,會生成對應的顏色,以及右下角會Match information裡會顯示抽取的字段名和字段內容
c3313584ce827b4c000a2159acdc3995
在高階查詢中運行,成功
7a602ebe044858feb448fdfdb274515c
我們運行下搜索語句測試下,同時在紅色部分可以看到我們抽取出來的字段
圖表展示
在圖表創建部分,我這邊每個類型的圖表隻會舉一個例子,但會把所有的搜索語言列出來,供大傢參考。
儀表板>新建儀表板
創建完成
日志告警等級統計
新建圖表>日志告警等級統計
選擇圖表類型:餅圖
查詢語句:這個語句可以先在查詢裡驗證,確認查找的結果是想要的
時間范圍:選擇30天,可以根據自己的情況調整
生成圖表後,可以查看到近30天內,各種類型的告警情況。
目的:比如沒有error,沒有告警,我們就可以很輕易的判斷設備運行良好。也可以很容易的判斷目前各個類型告警占比。
服務器數量
新建圖表>服務器數量
選擇圖表類型:單值趨勢圖
查詢語句:這個語句可以先在查詢裡驗證,確認查找的結果是想要的
時間范圍:選擇30天,可以根據自己的情況調整
生成圖表後,可以統計所有有日志的發送到鴻鵠的服務器數量。
目的:用於確認當前監控的服務器總計數量,便於檢查錯漏,主要為瞭圖表佈局的好看。
配置變更明細
新建圖標>配置更變明細
選擇圖表類型:表格(由於我這裡需要展示明細,所以選擇表格的方式)
查詢語句:這個語句可以先在查詢裡驗證,確認查找的結果是想要的
時間范圍:選擇30天,可以根據自己的情況調整
生成圖表後,可以查看到具體哪個時間,哪個用戶,哪個設備,做瞭哪些操作
目的:比如在非維護時間段或者非工作時間段,變更設備配置,通過查詢看看哪些人在這個時間段登錄設備,進行瞭哪些配置,從而判斷這些行為是否正常,是否合規。
配置變更圖表
新建圖標>配置更變圖表
選擇圖表類型:柱狀圖
查詢語句:這個語句可以先在查詢裡驗證,確認查找的結果是想要的
時間范圍:選擇30天,可以根據自己的情況調整
生成圖表後,可以查看到最近一個月哪些服務器變更瞭多少次配置
目的:比如最近並沒有故障或維護,服務器配置出現變更就是異常事件,通過配置更變明細可以判斷這些行為是否正常,是否合規。
1c88321d540fa9c9c3c6fb0fae947a04
配置變更趨勢圖表
新建圖標>配置變更趨勢圖表
選擇圖表類型:線狀圖
查詢語句:這個語句可以先在查詢裡驗證,確認查找的結果是想要的
時間范圍:選擇30天,可以根據自己的情況調整
生成圖表後,可以查看到最近一個月服務器變更瞭的趨勢是怎麼樣的
目的:比如最近並沒有故障或維護,服務器配置出現變更就是異常事件,通過配置更變明細可以判斷這些行為是否正常,是否合規。
搜索語句
以下列出所有本文中的搜索語句,供參考
小提示:搜索語句命令部分會調用抽取的字符段,如果未抽取字符段,會出現報錯
效果圖
圖表創建完成後,我們選擇“網格佈局”對圖表佈局進行優化調整,最終效果圖如下
下一篇