最近搞我那台Server搞的煩死了
一直不定時自動關機
已經一個禮拜了還弄不好
有時候開機放著不動不到20分鐘,他就自己關了
有時候是正在上網之類的用到一半自己熄掉
有時候修一修跑個一天都沒出狀況,覺得應該是弄好了,然後又掛啦
現在連出問題的情況都沒辦法複製出來,也不知他是在掛怎樣的
只能弄一弄,然後就放著讓他跑,看他會不會又掛
一開始出問題是因為我幫Server換了主機板、RAM和Power
主機板原先就是這台Server在用的,跑了好久了一直都沒什麼問題
RAM是第一個懷疑的,所以一開始就換回了原本穩定時的RAM
至於Power嘛,原先是在遊戲機上用的,跑起來好像也都正常。最難確定的就是他了,畢竟遊戲機不會像Server那樣24小時都開機,不過先前也沒那種用個20分鐘就掛掉的記錄啊…
CPU、RAM、HDD壓力測試也都跑過啦
跑了一整晚都沒事
隔天起床上上網,掛了
開speedfan監控電壓和溫度,掛掉的時候看起來都還蠻正常的
事件檢視器裏面的問題大多都解掉了
只剩onboard ATi顯示晶片的ACEEvenlog每次開機會有一堆找不到的東西
(無解,而且看起來很多人都這樣)
先前有出現過\device\harddisk0\D錯誤的訊息,也很久沒看到了
不過話說回來,機器自動關掉的時候都是像瞬間斷電那樣,事件檢視器應該也來不及記吧….
Server上六顆硬碟全部作了surface scan
五顆是在本機上測的,系統碟是拆下來到別台電腦測
通通都說健康的很,SMART資料裏面也沒啥特別不對的地方
早上又掛一次,想說會不會是硬體問題
又拆了一次機器,主機板上的電容看起來都好好的
拆開Power看看,每顆電容看起來都是健康寶寶呀
結果我還是不知道他為什麼一直要掛掉
連硬碟排線也換過了
而且明明都幫他裝了漂亮的新機殼,還這麼不開心
我今早作的最後一件事是
把E、F槽4顆SATA硬碟的電源線改回用原本的大4pin轉SATA
因為那個Power上面附的那個SATA電源接頭先前完全沒用過
而且插起來的感覺不太牢靠
所以不管啦,通通都換回原本用的
換完之後覺得C槽的讀取聲變成鏗鏘有力耶!(最好是跟C槽有關係!)
有沒有修電腦是這種修法的啊!
—
最近的當機紀錄
5/13 22:00~5/15 03:43,29小時43分
5/15 04:02~5/15 05:25,1小時23分
5/15 10:30~5/15 17:11,6小時41分
5/15 18:24~5/15 20:57,2小時33分
5/15 21:38~5/16 05:24,7小時46分
5/16 13:55~5/16 18:24,4小時29分
5/17 10:19~5/18 18:30,32小時11分 (移除CnQ後)
--
現在還在寫blog分享資訊的人越來越少,如果覺得文章對您有幫助,歡迎在底下留言,這樣我也比較有動力繼續寫下去,謝啦!
又當了又當了又當了又當了!
噹噹噹噹 噹噹 噹噹~
再整理一次Server開始出問題的時候換的東西
主機板:原先就是這台Server在用的,換回來而已。
RAM:已換回原本的
Power:還沒交叉測試確認,目測是正常…。
顯卡:換回原本的主機板,就把Nvidia 7600GS拆掉,Nvidia所有的Driver都移除,換回原本一直在用內顯ATi HD 3200,並完整安裝AMD/ATi Driver。但換回之後事件檢視器裏面ACEEventLog一直出現找不到某些檔的提示(非錯誤),每次開機的時候就會跑出數個,開啟CCC的時候也會有。完整移除/重裝所有AMD/ATi Driver也治不好。
為了抓問題,就保留ATi Driver,但是把CCC移除掉(反正server不拿來打電動也用不太到CCC)。CCC移除之後,ACEEventLog就再也沒出現任何事件了。這不知道是ATi安裝程式有問題,或者是.Net版本的關係?…不過就先看看CCC移除之後的穩定性吧。
還是當喔@@
主機板 +1
主機板喔?為啥?
移掉CCC之後,Server很乖巧的撐過了24小時
然後又掛了
半夜四點發現他關掉了,把他打開
早上十點又發現他關了
感覺只要開始掛就會連續掛…
早上十點打開然後出門,下午六點二十回到家,看他又關了
看了一下speedfan的log
5/13 2200開機~5/15 0343掛掉,撐了29小時43分
5/15 0402開機~5/15 0525掛掉,只撐了1小時23分
5/15 1030開機~5/15 1711掛掉,6小時41分
大丙…該不會…你有磁碟陣列卡…
RAID我現在用onboard的耶,沒插卡了
RAID怎麼了嗎?
回到家看電腦掛了,開機,去睡一下,醒來又掛
5/15 18:24 ~ 5/15 20:57,2小時33分
看到你說有六顆硬碟就直接想到那張卡了XD
OCCT Power測試跑一小時
3.3V 5V 12V的電壓波動都只有千分之5左右
Power看起來一點也不像壞掉的樣子
難不成真的是機板?….= =
另外
南橋散熱片固定方式不太穩,我幫他多加了散熱膏(怕接觸短路,原本的導熱膠留著)
另外RAM換插到後兩槽
就,再看看吧…
好吧,跟南橋散熱沒關係
RAM換插槽也沒用
因為又當了
再來就換power吧
現在主機板都很詭異啊..用幾年必壞..電容不爆也會壞..
不是PWR也不是MB的話..有一個很機車的可能….機殼 power sw 裡面生鏽…….
好像有點頭緒了耶
看起來好像又是ATi在搞鬼..
我突然想起以前我blog寫一篇ATi driver會影響CnQ功能的文
那篇正好就是當初server開始用這片主機板的時候寫的
http://blog.roodo.com/dabinn/archives/6251549.html
結果上網一查,乖乖不得了,用AMD/ATi組合的人好多都有自動斷電的問題
尤其是開啟CnQ或是RMClock都很容易掛
那我之前穩穩跑不就算運氣好?
Joy~我機殼的power switch是好的啦
而且我後來還給他換新機殼咧
昨晚換一顆power上去測結果到現在大概七小時了還沒掛耶..
是說這顆power跑OCCT,測出來也只有12V比原本那顆穩啊,兩顆電壓數據看起來都很正常…
我在猜可能是顯卡的驅動…我原本用主板附的驅動裝4870的顯卡..原本跑順順的
想說調一下時脈風扇之類的..ATI附的驅動就給他安裝下去,畫面有感覺就是只有好阿..但跑遊戲開始不怎麼順..
常常玩到一半就整台自動關機..嚴格來說因該是直接斷電..
玩一個晚上可以斷三五遍..我當初也是以為POWER出包.但也才兩個月沒這麼剛好中簽王吧!!買了POWER的測試電表來裝直接拉出來盯著..570W的看看怎麼死
再開遊戲..進沒多久..又死了..爛電錶也看不出來有啥用.電壓都穩穩的..
我還在想該死的4870重拖嗎..改上朋友的8400..
沒事..遊戲也順..到底是顯卡還是POWER這樣試好像.不太對
4870就讓朋友帶回去試試..結果他說連開一個禮拜也沒當過
我問他驅動有裝嗎..他說忘了裝..直接用W7內建的..
我就W7上.4780也上..驅動丟一邊…現在還沒死過畫面順…
我也都是直接斷電 XD
AMD跟ATi明明就是同一家,驅動老打架
我把CnQ移掉了,現在看起來還好..跑14小時還沒掛
後續:
CnQ(AMD Processor driver)拿掉之後,好像好了。最後撐了32小時,掛!
然後再把RMClock也拿掉,讓CPU都不要變速。目前持續時間47小時,繼續觀察中~