網絡工程師必知的幾款網絡故障排除工具

作為一名合格的網絡管理員,必須隨時做好解決整個企業基礎設施中的故障問題的準備。幾分鐘時間內,可能會排除PC無法向無線網絡進行身份驗證的原因,網絡故障排除對於網絡技術專傢和網絡工程師是頗具挑戰的工作。

每當添加新的設備或網絡發生變更時,新的問題就會出現,而且很難確定問題出在哪裡。每一位網絡工程師或專傢都有自己的經驗和必備工具,能讓他們快速定位網絡故障。以下的這些工具,是否是你的工具箱中的選項。小到基本故障排除工具(如ping和traceroute),先進一點的比如協議分析器、SNMP監控工具等等。在網絡領域入門時,重要的是要積累一些可用於解決各種不同網絡狀況的工具。

雖然特定工具的使用確實是主觀的並且由工程師自行決定,但本文中的工具選擇是基於它們的一般性和通用性。

01鏈路通斷分析

Ping

它是快速排除網絡問題的最基礎工具。可以輕松檢查服務器是否已關閉,並且它在大多數操作系統中都可用。ping用於確定本地主機是否能與另一臺主機成功交換(發送與接收)數據包,再根據返回的信息,就可以推斷TCP/IP參數是否設置正確,以及運行是否正常、網絡是否通暢等。

02網絡抓包工具

從網絡抓包就可以分析出很多東西,其中一項就是用來做排錯。首先最常見的是通過抓包數量來判定網絡行為的是否正常,比如ARP病毒爆發一定會收到大量ARP數據包;攻擊行為也很多時候體現為大量數據包(但是一般判斷這種攻擊行為抓包不會放在第一步,隻是在確定攻擊特征時需要抓包);當然還有其他很多情況,適用於通過抓包數量來分析的。

介紹一款工具My Traceroute (MTR)。MTR是診斷網絡問題或僅探索網絡性能的最佳工具之一。MTR將Ping和Traceroute的優點結合到一個工具中。是同時觀察數據包丟失和等待時間的好方法。

4904e3b6aa6375754574ee449c549c4d

03基於SNMP協議的工具

在很多網絡環境中,SNMP工具,如早起的SolarWinds網絡性能監視器、HPE的網絡節點管理器CA Spectrum或i(NNMi),現在各大廠傢均提供各自的網管軟件和組件,都可以監控網絡設備和特定接口的運行狀況。這些工具還可以設置警報,以便在特定接口或設備關閉時通知網絡工程師,這有助於管理員迅速清除網絡中斷的根本原因。

介紹一款工具Ipconfig/ifconfig。無論是靜態配置的或者自動獲取到的,都可以通過命令來查看IP地址信息情況。排除網絡問題時必須完成的最重要的事情之一是找出受影響的主機的IP配置。在Windows計算機上使用ipconfig實用程序,在Linux / * nix/OSX的計算機上的ifconfig實用程序。下面的圖顯示瞭ifconfig實用程序的示例,其中顯示瞭查詢主機的IP配置信息。

29865518492cad9a764627bf15d63cd8

04協議類分析工具

協議判斷,比如win2008和win2003通信時因為window scale不兼容,導致窗口過小,而程序設計適當時,通信變動極其緩慢。這些判斷都是建立在抓包協議分析的基礎上的;另外不同廠商SIP通信對接也有可能會用到協議分析。

協議分析器對於需要調查數據流到數據包級別大有用處,通過這個工具可以查看客戶端和服務器之間的特定交互,是攔截和記錄數據包的軟件,例如,如果特定PC與駐留在服務器上的應用程序的連接緩慢,可以使用協議分析器來識別任何通信、延遲問題或可能是根本原因的其他問題。

05流量分析工具

NetFlow

流量對於網絡來說很重要,這個功能通常需要設備供應商的設備或板卡支持該協議,它是一種數據交換方式,其工作原理是:NetFlow利用標準的交換模式處理數據流的第一個IP包數據,生成NetFlow 緩存,隨後同樣的數據基於緩存信息在同一個數據流中進行傳輸,不再匹配相關的訪問控制等策略,NetFlow緩存同時包含瞭隨後數據流的統計信息。

例如Plixer的Scrutinizer或SevOne的NetFlow工具來鉆取數據,以獲得多種用途。從網絡故障排除的角度來看,NetFlow分析可以快速跟蹤諸如頂級主、機頂級應用程序以及網絡流動行為的變化等現象,以發現諸如帶寬pig之類的問題。

TracerouteT和TRACER

對於任何網絡團隊而言,Traceroute和TRACERT都是重要的工具。這兩個工具可以深入瞭解數據采用的路徑以及中間主機的響應時間,輔助判斷業務系統的存活性,即使是最少量的信息也可以幫助闡明當前的問題。因此,在進行故障排除時,Traceroute和TRACERT無疑最為實用和高效的工具。

Batfish

建議作為網工的你將網絡配置分析添加到故障排除工具包中。即使Ping可以告訴你某些設備或連接存在問題,前面的Traceroute/MTR可以告訴你它在哪裡出瞭問題,但是像Batfish這樣的開源工具可以告訴你網絡為什麼出現瞭故障。更好的是,可以使用Batfish或類似的驗證工具來確保網絡故障不會發生。

06日志管理系統

解密網絡設備日志的做法是非常有用的故障排除技術。日志收集有兩種方式——“推”和“拉”。“推”是設備或應用程序向本地磁盤或網絡主動發送日志,一般SaaS版本的日志處理都采用這種方式;“拉”是由日志分析程序主動從設備拉取日志數據,本地部署版本基本都是自動拉取設備日志進行管理分析。

我們要用到的軟件是php-syslog-ng和syslog-ng,安裝瞭syslog-ng和php-syslog-ng(需要系統支持apache、php和mysql)的機器作為這個系統的服務端,其它所有的服務器或者網絡設備作為客戶端,通過UDP協議向syslog-ng服務器發送syslog信息。syslog-ng服務器將這些log記錄下來,記錄為log文件或者insert到mysql數據庫中,通過將所有網絡設備日志收集並存儲到中央存儲庫中來簡化此操作,然後使用分析功能將來自多個設備的日志事件相關聯,以識別並快速解決網絡問題。

987b0fa075a0c23f3407803ece774808

另外,專業Wi-Fi分析儀,如Netscout AirMagnet或Ekahau頻譜分析儀,可以很好的解決企業中需要維持高可靠性和無處不在的Wi-Fi的需求。

反正萬變不離其宗,基本思路就是,出瞭故障,做分析,定位故障的層面,涉及到哪個協議,哪個階段,然後進行網絡抓包,篩選出對應的報文,然後讀網絡報文,看報文中的字段反應的情況是否和你分析的一致,如果和你分析的一致,則證明你在排除過程中分析很大可能是正確的,按你的分析去排錯,如果和你分析的不一致,則推倒重來。

本文介紹幾種最常用的工具,可以幫助確保查找和修復問題所需的時間盡可能短,希望本文中的信息有助於將來的故障排除。

更多相關大咖視頻課程請下載“技福小咖App”學習。

发表回复

相关推荐

Day 4 酒店前廳部組織結構及各崗位英文名稱

嗨,親愛的小夥伴們晚上好,堅持如期更新是一種好習慣。我們先來對上期內容考個試,很簡單,莫慌。HR是哪個部門的簡稱?哪個...

· 2分钟前

绝对实用:内存体质、内存超频、内存选购 频率&电压&时序

今天把一直想讲的内存问题讲一讲,起因是今天在张大妈的评论区的一个争论。 如下:

· 2分钟前

一篇文章了解DSD及DTS格式的相关疑问解答

《一》什么是DSD?这种格式有什么优缺点?DSD是Direct Stream Digital的缩写,是Sony与Philips推出SACD时所注册的商标。这种编 ...

· 6分钟前

解决iPad故障问题的三种重置方式:出厂恢复、软重置和强制重启

这篇文章解释了如何重新启动iPad,以及如果它没有响应,如何强制它重新启动。它还包括如何重置iPad的其他选项。

· 7分钟前

分享一下:马斯洛5个需求层次

1、生理需求 生理上的需要是人们最原始、最基本的需要,如空气、水、吃饭、穿衣、性欲、住宅、医疗等等。若不满足,则有生 ...

· 7分钟前