由此,可以重點(diǎn)檢查主路由器的路由表和DNS的轉(zhuǎn)換表。由于多數(shù)Internet訪(fǎng)問(wèn)流量被引導(dǎo)到了營(yíng)業(yè)廳業(yè)務(wù)服務(wù)器,所以可以重點(diǎn)檢查DNS 服務(wù)器。用網(wǎng)絡(luò)測(cè)試儀對(duì)DNS服務(wù)器做查詢(xún),觀察查詢(xún)結(jié)果,發(fā)現(xiàn)DNS轉(zhuǎn)換表有相當(dāng)大的比例指向了營(yíng)業(yè)廳子網(wǎng)中的業(yè)務(wù)服務(wù)器。筆者懷疑是DNS服務(wù)器出了問(wèn)題!
于是通知中心網(wǎng)絡(luò)的網(wǎng)管人員將DNS服務(wù)器重新啟動(dòng)并快速設(shè)置一次,稍后網(wǎng)絡(luò)管理人員報(bào)告網(wǎng)絡(luò)業(yè)務(wù)恢復(fù)正常。用網(wǎng)絡(luò)測(cè)試儀的Internet工具包查詢(xún)DNS服務(wù)器,可以看到指向營(yíng)業(yè)廳業(yè)務(wù)服務(wù)器的數(shù)據(jù)已經(jīng)全部消失,這表明網(wǎng)絡(luò)已經(jīng)完全恢復(fù)了正常工作。但好景不長(zhǎng),約3分鐘后,故障重新出現(xiàn),仍有97%的通道流量被指向了子網(wǎng)。
由于DNS服務(wù)器只設(shè)置了一臺(tái),沒(méi)有備份或備用服務(wù)器,于是不得不立即來(lái)到中心網(wǎng)絡(luò)機(jī)房,對(duì)DNS服務(wù)器及其周?chē)O(shè)備進(jìn)行檢查。測(cè)試服務(wù)器網(wǎng)卡和與路由器的電纜正常。為了不中斷服務(wù),筆者讓網(wǎng)管人員在另一臺(tái)備用服務(wù)器上臨時(shí)安裝設(shè)置了DNS服務(wù)器。經(jīng)過(guò)短暫的業(yè)務(wù)中斷后,更換上的新DNS服務(wù)器開(kāi)始投入適用。只見(jiàn)子網(wǎng)路由器的流量立刻降低到了1.5%。經(jīng)過(guò)30分鐘的穩(wěn)定工作后,所有用戶(hù)均恢復(fù)到正常工作狀態(tài),故障消除。
3、故障原因
大家知道,DNS服務(wù)器用于將用戶(hù)域名轉(zhuǎn)換為IP地址,一般來(lái)說(shuō)不會(huì)出現(xiàn)什么問(wèn)題。但由于某些原因,造成了類(lèi)似本例的中轉(zhuǎn)換地址統(tǒng)統(tǒng)指向了營(yíng)業(yè)廳子網(wǎng)的業(yè)務(wù)服務(wù)器。業(yè)務(wù)服務(wù)器不具備路由處理功能,對(duì)發(fā)送來(lái)的IP數(shù)據(jù)包要么拒收并置之不理,要么返回目標(biāo)不可達(dá)或需要重定向的報(bào)告數(shù)據(jù)包。這就是我們?cè)贗CMP監(jiān)測(cè)時(shí)經(jīng)常觀察到的現(xiàn)象。
本地鐵通的用戶(hù)數(shù)量并不多,而且與上級(jí)網(wǎng)絡(luò)的鏈路帶寬為155M的ATM鏈路,大有富余,所以上Internet的用戶(hù)其上網(wǎng)速度主要受子網(wǎng)帶寬的影響。因?yàn)樵S多的用戶(hù)要經(jīng)過(guò)擁擠的無(wú)效E1鏈路,造成路由重定向和嚴(yán)重的時(shí)延。大量的IP數(shù)據(jù)包擁向只有2M帶寬的子網(wǎng)路由器,流量達(dá)到了97%,造成子網(wǎng)工作速度突然變慢,路由器出現(xiàn)嚴(yán)重?fù)砣痊F(xiàn)象。
4、兩點(diǎn)建議
(1)DNS服務(wù)器要定期“體檢”
基為了防止DNS服務(wù)不穩(wěn)定造成業(yè)務(wù)中斷或出錯(cuò),不少網(wǎng)管人員在設(shè)置DNS服務(wù)器時(shí)都安裝了備用DNS服務(wù)器,亦即安裝不只一臺(tái)DNS服務(wù)器。但這樣做也會(huì)帶來(lái)一個(gè)潛在的危險(xiǎn),即主DNS服務(wù)器出問(wèn)題,備用自動(dòng)服務(wù)器投入運(yùn)行,這樣會(huì)犧牲一定的網(wǎng)絡(luò)帶寬,使得系統(tǒng)總體性能有所下降。危險(xiǎn)在于,性能的下降常常是在不知不覺(jué)中來(lái)到的。所以,為了保證網(wǎng)絡(luò)經(jīng)常處于良好的工作狀態(tài),網(wǎng)絡(luò)管理人員需要定期檢查DNS服務(wù)器的轉(zhuǎn)換表。
本故障中的DNS指向錯(cuò)誤導(dǎo)致用戶(hù)的IP數(shù)據(jù)包對(duì)準(zhǔn)了子網(wǎng)服務(wù)器,但如果對(duì)準(zhǔn)的不是服務(wù)器而是中心網(wǎng)絡(luò)本地網(wǎng)段中的某臺(tái)機(jī)器,則故障強(qiáng)度會(huì)減弱,用戶(hù)不會(huì)感到非常明顯的速度變慢。這樣可能不會(huì)感到明顯的“身體不適”從而使得網(wǎng)絡(luò)長(zhǎng)期帶病運(yùn)行。就象人一樣,定期的體檢對(duì)及時(shí)發(fā)現(xiàn)疾病及其隱患是非常必要的。而如何及時(shí)發(fā)現(xiàn)路由優(yōu)化方面的問(wèn)題,也是網(wǎng)絡(luò)定期項(xiàng)目測(cè)試中的內(nèi)容之一,對(duì)大型網(wǎng)絡(luò)則更有必要,必須堅(jiān)持定期維護(hù)和測(cè)試。
(2)網(wǎng)絡(luò)狀況的實(shí)時(shí)監(jiān)控
許多網(wǎng)絡(luò)設(shè)備如路由器、交換機(jī)、只能集線(xiàn)器等都支持SNMP網(wǎng)管功能,但為了全面監(jiān)測(cè)網(wǎng)絡(luò)通道功能,還需要網(wǎng)絡(luò)設(shè)備支持全面的RMON和RMON2。用這樣的設(shè)備組建起來(lái)的網(wǎng)絡(luò)其管理和故障診斷功能是很不錯(cuò)的。但現(xiàn)實(shí)的問(wèn)題是,這樣的網(wǎng)絡(luò)設(shè)備價(jià)格是普通網(wǎng)絡(luò)設(shè)備的 6~10倍左右,用戶(hù)難以接受。因此,為了隨時(shí)監(jiān)測(cè)網(wǎng)絡(luò)的服務(wù)應(yīng)用流量及其比例、來(lái)源,工作記錄以及必要時(shí)進(jìn)行解包分析,建議用戶(hù)在重要的服務(wù)器通道或路由通道上安裝監(jiān)測(cè)接口。以便必要時(shí)可以隨時(shí)將流量分析儀、網(wǎng)絡(luò)測(cè)試儀接入通道進(jìn)行監(jiān)測(cè)和分析。這樣,本故障的查找時(shí)間可以縮短到20分鐘左右。當(dāng)然,如果資金允許,也可以將流量分析儀長(zhǎng)期接入通道對(duì)多個(gè)重要的網(wǎng)絡(luò)設(shè)備進(jìn)行全速率透明流量監(jiān)測(cè),這樣可以把故障定位時(shí)間縮短到1分鐘以?xún)?nèi)。
這次“出診”總的來(lái)說(shuō)還算順利,其實(shí)每次出診就是一次學(xué)習(xí)和提高的機(jī)會(huì)。也許上述案例只是個(gè)案,你可能不會(huì)遇到,但排錯(cuò)思路還是值得大家借鑒的。另外,最后的兩點(diǎn)建議我希望能夠引起大家的重視。