<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Windows-1252">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.0.6603.0">
<TITLE>RE: Server hard disk failure (Ed Lauzier)</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>Well,&nbsp; I thought I'd let a few in on a horror story I had awhile ago<BR>
with WBEL Release 3 Respin 1.&nbsp; I was getting ext3 file system corruptions<BR>
on a daily basis and could not pin down what was causing it.&nbsp; It got<BR>
so bad that once I had to pull an entire directory structure one by one<BR>
out of lost+found.&nbsp; At least I had the data and there was no &quot;real&quot;<BR>
data loss.<BR>
<BR>
I then started to look into why this could be happening.&nbsp; I was getting<BR>
kernel panics on one box and file system corruption on another.&nbsp; A user<BR>
pointed out to me that it may be a RedHat kernel bug that may or may not<BR>
have been fixed.&nbsp; I was testing some of our software and took advantage<BR>
of the servers going down to test our failover scenerios.&nbsp; After I was<BR>
finished testing, I turned off our software.<BR>
<BR>
When I turned off our software, the problems stopped.&nbsp; This told me that<BR>
the crux of the problem could be with the kernel drivers for NFS and ext3<BR>
filesystems and how they interact.<BR>
The machine with the corrupted filesystem(s) was an NFS server.&nbsp;<BR>
The box with the kernel panics was an NFS client running WBEL 3R1.<BR>
After I turned off our software, which runs fine by the way on<BR>
all other platforms, the problems stopped.&nbsp; Strange.&nbsp; Our software does not<BR>
cause these problems when the shared area is on a NetApp, EMC box, or<BR>
Solaris box.<BR>
<BR>
Conclusions for WBEL 3R1:<BR>
NFS and ext3 kernel drivers may cause some problems on some hardware types.<BR>
On the problem platforms, I'm using the ASUS A7V motherboard.&nbsp; I also have<BR>
IBM BladeCenter servers running in a similar configuration and have not<BR>
had problems ( yet ).&nbsp; No problems either with a Sun box running Solaris8<BR>
and sharing out an area for NFS.&nbsp; The user who informed me that there was<BR>
a possible kernel bug causing the problems also suggested using an ext2<BR>
filesystem, which I have not gone to.( I forget the thread...)<BR>
I'd rather see the problem identified and fixed, and move forward...<BR>
<BR>
Hope this helps...<BR>
<BR>
Ed<BR>
<BR>
<BR>
-----Original Message-----<BR>
From:&nbsp;&nbsp; whitebox-users-bounces@beau.org on behalf of whitebox-users-request@beau.org<BR>
Sent:&nbsp;&nbsp; Thu 3/31/2005 12:04 AM<BR>
To:&nbsp;&nbsp;&nbsp;&nbsp; whitebox-users@beau.org<BR>
Cc:&nbsp;&nbsp;&nbsp;&nbsp;<BR>
Subject:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Whitebox-users Digest, Vol 3, Issue 43<BR>
Send Whitebox-users mailing list submissions to<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; whitebox-users@beau.org<BR>
<BR>
To subscribe or unsubscribe via the World Wide Web, visit<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <A HREF="http://beau.org/mailman/listinfo/whitebox-users">http://beau.org/mailman/listinfo/whitebox-users</A><BR>
or, via email, send a message with subject or body 'help' to<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; whitebox-users-request@beau.org<BR>
<BR>
You can reach the person managing the list at<BR>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; whitebox-users-owner@beau.org<BR>
&gt;Message: 1<BR>
&gt;Date: Wed, 30 Mar 2005 22:40:55 +0100<BR>
&gt;From: Francies Moore &lt;liz@indract.freeserve.co.uk&gt;<BR>
&gt;Subject: [WBEL-users] Server hard disk failure<BR>
&gt;To: whitebox-users@beau.org<BR>
&gt;Message-ID: &lt;424B1CE7.4020209@indract.freeserve.co.uk&gt;<BR>
&gt;Content-Type: text/plain; charset=ISO-8859-1; format=flowed<BR>
<BR>
&gt;Hi everyone<BR>
<BR>
&gt;One of my WBEL servers has crashed due to the failure of one of its hard<BR>
&gt;disks.&nbsp; My hardware support technician (a recent Linux convert) says it<BR>
&gt;could be a filesystem failure.&nbsp; Is such a thing possible on a machine<BR>
&gt;which was doing nothing over Easter?&nbsp; I thought Linux was more stable<BR>
&gt;than &quot;that other system&quot; in this regard.<BR>
<BR>
&gt;Whatever happened to it, it cannot reboot as the ext3 journal cannot get<BR>
&gt;its head around the situation.<BR>
<BR>
&gt;How do I recover what is left on the surviving hard disk (which contains<BR>
&gt;the operating system and some user files)?&nbsp; Do I revert to ext2 by<BR>
&gt;deleting the journal and changing the fstab?&nbsp; If so, where do I find the<BR>
&gt;journal file, and what is it called?<BR>
<BR>
&gt;Can I go back to ext3 when a new HD is fitted?<BR>
<BR>
&gt;Thanks.<BR>
<BR>
&gt;Francies<BR>
<BR>
<BR>
<BR>
<BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>