Server一直當

最近搞我那台Server搞的煩死了
一直不定時自動關機
已經一個禮拜了還弄不好


有時候開機放著不動不到20分鐘,他就自己關了
有時候是正在上網之類的用到一半自己熄掉
有時候修一修跑個一天都沒出狀況,覺得應該是弄好了,然後又掛啦
現在連出問題的情況都沒辦法複製出來,也不知他是在掛怎樣的
只能弄一弄,然後就放著讓他跑,看他會不會又掛

一開始出問題是因為我幫Server換了主機板、RAM和Power
主機板原先就是這台Server在用的,跑了好久了一直都沒什麼問題
RAM是第一個懷疑的,所以一開始就換回了原本穩定時的RAM
至於Power嘛,原先是在遊戲機上用的,跑起來好像也都正常。最難確定的就是他了,畢竟遊戲機不會像Server那樣24小時都開機,不過先前也沒那種用個20分鐘就掛掉的記錄啊…

CPU、RAM、HDD壓力測試也都跑過啦
跑了一整晚都沒事
隔天起床上上網,掛了

開speedfan監控電壓和溫度,掛掉的時候看起來都還蠻正常的
事件檢視器裏面的問題大多都解掉了
只剩onboard ATi顯示晶片的ACEEvenlog每次開機會有一堆找不到的東西
(無解,而且看起來很多人都這樣)
先前有出現過\device\harddisk0\D錯誤的訊息,也很久沒看到了
不過話說回來,機器自動關掉的時候都是像瞬間斷電那樣,事件檢視器應該也來不及記吧….

Server上六顆硬碟全部作了surface scan
五顆是在本機上測的,系統碟是拆下來到別台電腦測
通通都說健康的很,SMART資料裏面也沒啥特別不對的地方

早上又掛一次,想說會不會是硬體問題
又拆了一次機器,主機板上的電容看起來都好好的
拆開Power看看,每顆電容看起來都是健康寶寶呀

結果我還是不知道他為什麼一直要掛掉
連硬碟排線也換過了
而且明明都幫他裝了漂亮的新機殼,還這麼不開心

我今早作的最後一件事是
把E、F槽4顆SATA硬碟的電源線改回用原本的大4pin轉SATA
因為那個Power上面附的那個SATA電源接頭先前完全沒用過
而且插起來的感覺不太牢靠
所以不管啦,通通都換回原本用的
換完之後覺得C槽的讀取聲變成鏗鏘有力耶!(最好是跟C槽有關係!)

有沒有修電腦是這種修法的啊!


最近的當機紀錄

5/13 22:00~5/15 03:43,29小時43分
5/15 04:02~5/15 05:25,1小時23分
5/15 10:30~5/15 17:11,6小時41分
5/15 18:24~5/15 20:57,2小時33分
5/15 21:38~5/16 05:24,7小時46分
5/16 13:55~5/16 18:24,4小時29分
5/17 10:19~5/18 18:30,32小時11分 (移除CnQ後)

在 “Server一直當” 有 21 則留言

  1. 再整理一次Server開始出問題的時候換的東西
    主機板:原先就是這台Server在用的,換回來而已。
    RAM:已換回原本的
    Power:還沒交叉測試確認,目測是正常…。
    顯卡:換回原本的主機板,就把Nvidia 7600GS拆掉,Nvidia所有的Driver都移除,換回原本一直在用內顯ATi HD 3200,並完整安裝AMD/ATi Driver。但換回之後事件檢視器裏面ACEEventLog一直出現找不到某些檔的提示(非錯誤),每次開機的時候就會跑出數個,開啟CCC的時候也會有。完整移除/重裝所有AMD/ATi Driver也治不好。

    為了抓問題,就保留ATi Driver,但是把CCC移除掉(反正server不拿來打電動也用不太到CCC)。CCC移除之後,ACEEventLog就再也沒出現任何事件了。這不知道是ATi安裝程式有問題,或者是.Net版本的關係?…不過就先看看CCC移除之後的穩定性吧。

  2. 移掉CCC之後,Server很乖巧的撐過了24小時
    然後又掛了

    半夜四點發現他關掉了,把他打開
    早上十點又發現他關了

    感覺只要開始掛就會連續掛…

  3. 看了一下speedfan的log
    5/13 2200開機~5/15 0343掛掉,撐了29小時43分
    5/15 0402開機~5/15 0525掛掉,只撐了1小時23分
    5/15 1030開機~5/15 1711掛掉,6小時41分

  4. OCCT Power測試跑一小時
    3.3V 5V 12V的電壓波動都只有千分之5左右
    Power看起來一點也不像壞掉的樣子
    難不成真的是機板?….= =

    另外
    南橋散熱片固定方式不太穩,我幫他多加了散熱膏(怕接觸短路,原本的導熱膠留著)
    另外RAM換插到後兩槽

    就,再看看吧…

  5. 現在主機板都很詭異啊..用幾年必壞..電容不爆也會壞..

    不是PWR也不是MB的話..有一個很機車的可能….機殼 power sw 裡面生鏽…….

  6. 好像有點頭緒了耶

    看起來好像又是ATi在搞鬼..
    我突然想起以前我blog寫一篇ATi driver會影響CnQ功能的文
    那篇正好就是當初server開始用這片主機板的時候寫的
    http://blog.roodo.com/dabinn/archives/6251549.html

    結果上網一查,乖乖不得了,用AMD/ATi組合的人好多都有自動斷電的問題
    尤其是開啟CnQ或是RMClock都很容易掛

    那我之前穩穩跑不就算運氣好?

  7. Joy~我機殼的power switch是好的啦
    而且我後來還給他換新機殼咧

    昨晚換一顆power上去測結果到現在大概七小時了還沒掛耶..
    是說這顆power跑OCCT,測出來也只有12V比原本那顆穩啊,兩顆電壓數據看起來都很正常…

  8. 我在猜可能是顯卡的驅動…我原本用主板附的驅動裝4870的顯卡..原本跑順順的
    想說調一下時脈風扇之類的..ATI附的驅動就給他安裝下去,畫面有感覺就是只有好阿..但跑遊戲開始不怎麼順..
    常常玩到一半就整台自動關機..嚴格來說因該是直接斷電..
    玩一個晚上可以斷三五遍..我當初也是以為POWER出包.但也才兩個月沒這麼剛好中簽王吧!!買了POWER的測試電表來裝直接拉出來盯著..570W的看看怎麼死

    再開遊戲..進沒多久..又死了..爛電錶也看不出來有啥用.電壓都穩穩的..

    我還在想該死的4870重拖嗎..改上朋友的8400..
    沒事..遊戲也順..到底是顯卡還是POWER這樣試好像.不太對
    4870就讓朋友帶回去試試..結果他說連開一個禮拜也沒當過
    我問他驅動有裝嗎..他說忘了裝..直接用W7內建的..
    我就W7上.4780也上..驅動丟一邊…現在還沒死過畫面順…

  9. 我也都是直接斷電 XD

    AMD跟ATi明明就是同一家,驅動老打架
    我把CnQ移掉了,現在看起來還好..跑14小時還沒掛

  10. 後續:
    CnQ(AMD Processor driver)拿掉之後,好像好了。最後撐了32小時,掛!

    然後再把RMClock也拿掉,讓CPU都不要變速。目前持續時間47小時,繼續觀察中~

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *