IT運維:使用數據分析平臺監控DELL服務器

概述

在企業日常運維中,我們有著大量的服務器設備,設備故障一般可以通過常用的監控軟件實現自動告警,但如果在管理運維中我們要做的不僅僅是發現故障,處理硬件故障,我們還需要進一步的瞭解,今年一共出現瞭多少次硬件故障,其中內存故障多少次,硬盤故障多少次,主板、CPU故障多少次,到底哪臺服務器故障最多?這些事件可以給我們是否更換設備,減少故障提供依據。

我們選用鴻鵠對服務器的日志進行收集,它可以快速搜索,也能夠定制圖表,完美的解決掉這些痛點。

監控目標

收集基礎架構中服務器設備的日志

監控服務器設備的登錄安全

監控服務器設備的配置安全

統計服務器設備的故障情況

安裝vector

Vector作為數據采集器,可以接收設備的syslog日志,並轉發鴻鵠平臺。Vector配置方法參考下文:

安裝Vector

查看安裝後vector版本,確認安裝成功

vector安裝好後,直接執行vector 時,系統首先會去/usr/bin下尋找命令,如果不在這個目錄中,就會找不到瞭。這個時候我們就需要為這些找不到的命令建立一個鏈接文件,鏈接到/usr/bin下

(具體代碼請加入鴻鵠技術交流群,詳見鴻鵠知識庫)

登錄鴻鵠平臺,數據管理>新建數據集

編輯數據源名稱,選擇數據集范圍為上面創建的“switch”,此時會啟用

創建syslog.toml腳本,需要調整字段

address = "0.0.0.0:514":0.0.0.0表示接收所有主機發送過來的syslog,514表示接收的端口(syslog默認為514)

._target_table = "switch" : 表示上文你創建的數據集名稱

mode = "udp":表示接收syslog的協議syslog默認為udp)

address = "172.20.6.111:9092":鴻鵠的IP和相應的端口

運行修改的syslog腳本,註意保持運行狀態。

(具體代碼請加入鴻鵠技術交流群,詳見鴻鵠知識庫)

登錄交換機觸發syslog(註:登錄交換機輸入命令都會自動觸發syslog)。登錄鴻鵠平臺查看數據是否導入到switch數據集。如下圖事件計數已經顯示數據導入成功

查詢下通過vector導入到switch數據集的數據

配置服務器syslog

配置系統日志服務器,填寫日志系統的IP,端口號默認

開啟警報

設置發送到日志平臺的警報類型

鴻鵠查看是否收到日志

字段抽取

抽取字段的目的:比如在生成圖表時,我要調用severity,發現鴻鵠並沒有提取這個字段,那麼我就沒法調用這個字段生成圖表。

IDRAC由於有自己特定的日志格式,鴻鵠並不會抽取所有字段,因此要針對IDRAC日志格式進行數據抽取。字段抽取的邏輯是,先通過sql語句創建視圖,視圖生成後我們就可以直接調用視圖裡的字段,它實際日志仍舊存放在原數據集。

我們先分析下IDRAC的日志格式。我們實際的日志格式分析,需要抽取的字段

idrac_syslog,這裡是需要新建的視圖名稱

switch._time 腳本中由第六行開始switch均指的需要抽取數據的原數據集,這裡需要根據你的數據集名稱替換

where contains( switch._message, 'iDRAC') 'iDRAC'指的是你要搜索到這個寫日志特定的字段,通過IDRAC可以限定日志裡所有包含IDRAC的日志

正則表達式如何寫以及測試

訪問http://regex101.com/,在REGULAR EXPRESSION裡填寫正則表達式,或直接在這裡寫

在TESTING STRING裡輸入日志,可以直接從鴻鵠上拷貝相關的日志

正則表達式如果是正確的,會生成對應的顏色,以及右下角會Match information裡會顯示抽取的字段名和字段內容

c3313584ce827b4c000a2159acdc3995

在高階查詢中運行,成功

7a602ebe044858feb448fdfdb274515c

我們運行下搜索語句測試下,同時在紅色部分可以看到我們抽取出來的字段

圖表展示

在圖表創建部分,我這邊每個類型的圖表隻會舉一個例子,但會把所有的搜索語言列出來,供大傢參考。

儀表板>新建儀表板

創建完成

日志告警等級統計

新建圖表>日志告警等級統計

選擇圖表類型:餅圖

查詢語句:這個語句可以先在查詢裡驗證,確認查找的結果是想要的

時間范圍:選擇30天,可以根據自己的情況調整

生成圖表後,可以查看到近30天內,各種類型的告警情況。

目的:比如沒有error,沒有告警,我們就可以很輕易的判斷設備運行良好。也可以很容易的判斷目前各個類型告警占比。

服務器數量

新建圖表>服務器數量

選擇圖表類型:單值趨勢圖

查詢語句:這個語句可以先在查詢裡驗證,確認查找的結果是想要的

時間范圍:選擇30天,可以根據自己的情況調整

生成圖表後,可以統計所有有日志的發送到鴻鵠的服務器數量。

目的:用於確認當前監控的服務器總計數量,便於檢查錯漏,主要為瞭圖表佈局的好看。

配置變更明細

新建圖標>配置更變明細

選擇圖表類型:表格(由於我這裡需要展示明細,所以選擇表格的方式)

查詢語句:這個語句可以先在查詢裡驗證,確認查找的結果是想要的

時間范圍:選擇30天,可以根據自己的情況調整

生成圖表後,可以查看到具體哪個時間,哪個用戶,哪個設備,做瞭哪些操作

目的:比如在非維護時間段或者非工作時間段,變更設備配置,通過查詢看看哪些人在這個時間段登錄設備,進行瞭哪些配置,從而判斷這些行為是否正常,是否合規。

配置變更圖表

新建圖標>配置更變圖表

選擇圖表類型:柱狀圖

查詢語句:這個語句可以先在查詢裡驗證,確認查找的結果是想要的

時間范圍:選擇30天,可以根據自己的情況調整

生成圖表後,可以查看到最近一個月哪些服務器變更瞭多少次配置

目的:比如最近並沒有故障或維護,服務器配置出現變更就是異常事件,通過配置更變明細可以判斷這些行為是否正常,是否合規。

1c88321d540fa9c9c3c6fb0fae947a04

配置變更趨勢圖表

新建圖標>配置變更趨勢圖表

選擇圖表類型:線狀圖

查詢語句:這個語句可以先在查詢裡驗證,確認查找的結果是想要的

時間范圍:選擇30天,可以根據自己的情況調整

生成圖表後,可以查看到最近一個月服務器變更瞭的趨勢是怎麼樣的

目的:比如最近並沒有故障或維護,服務器配置出現變更就是異常事件,通過配置更變明細可以判斷這些行為是否正常,是否合規。

搜索語句

以下列出所有本文中的搜索語句,供參考

小提示:搜索語句命令部分會調用抽取的字符段,如果未抽取字符段,會出現報錯

效果圖

圖表創建完成後,我們選擇“網格佈局”對圖表佈局進行優化調整,最終效果圖如下

发表回复

相关推荐

静压、动压、全压、余压,在装中央新风系统之前一定要搞清的概念

在安装新风机的时候,有朋友经常在参数指标栏中看到“机外静压**Pa”,但你知道这机外静压指的是什么吗?机外静压、动压和新风 ...

· 2分钟前

書籍的本質到底是什麼?我們為什麼要讀書?

書籍是用文字、圖畫和其他符號,在一定材料上記錄各種知識,清楚地表達思想,並且制裝成卷冊的著作物,為傳播各種知識和思想...

· 15分钟前

防雾眼镜布是智商税吗?哪种防雾眼镜布是真的有用?

冬天到了!又到了起雾的季节! 口罩+眼镜=一秒起雾! 于是眼镜党们的疑惑又来了:如何戴口罩眼镜不起雾? 往年我也有这样烦 ...

· 17分钟前

如何與命運抗爭?

文|袁運錄這是千千萬萬抑鬱癥患者面臨的同樣問題。你為什麼抑鬱?因為你在命運面前被打趴瞭下來,因為你鬥不過命運,所以你才...

· 17分钟前

那些恐龍時代的巨人

一說起恐龍時代的巨人,大傢會不約而同想到一個名字那就是蜥腳類,但是蜥腳類恐龍傢族不全是大個子,也有袖珍版成員。馬紮爾...

· 17分钟前