More from: linux

kernelのコンパイルメモ

職場のサーバが時々サービスを停止してしまうことがあり、その都度再起動をせざるを得なくなっている。
以前も書いたけど時計が進まなくなってしまい、時計に依存する処理(cron等)が止まってしまう。
少々調べたところ時計モジュールはkernel組み込みらしいので、この際kernelを新しいものにしてしまうことにした。
そこでkernelのソースをダウンロードしてきてサーバーに転送し、/usr/src以下で展開してコンパイル~インストールをした。
手順を忘れないようにここにメモしておく。

ソースの展開
tar xvjf linux-2.4.37.10.tar.bz2 (2.4系の最終版ソース)

configファイルのコピー
cp linux-2.4/.config linux-2.4.37.10/.

ディレクトリのリンクし直し
rm linux-2.4
ln -s linx-2.4.37.10 linux-2.4

.configファイルの再設定
cd linux-2.4
make oldconfig
(旧kernelのconfigの引継ぎ。追加機能があればどうするかを聞いてくるので、y/n/mで答える)

コンパイル
make dep
make clean
make bzImage

モジュールのコンパイル
make modules

モジュールのインストール
make modules_install

kernelのインストール
make install

ブートローダーの設定変更
GRUBの場合は
/etc/grub.conf
LILOの場合は
/etc/lilo.conf
の内容を修正し、LILOの場合のみ
/sbin/lilo を実行し、修正した内容を反映させる。

なんだけど、現在はkernelのインストール時に
All of your loopback devices are in use.
のエラーで止まっている。
initrd(Initial RAMDISK)の作成時のエラーなので、最初はブロックデバイスとloopback deviceを有効にしていなかったためと思ったので.configを修正したが、それでもエラーになってしまうので行き詰まっている。
手動でmkinitrd /boot/initrd-2.4.37.10.img 2.4.37.10
を実行しても同様。
うーん、なにが問題だ?

←クリックしてくれると嬉しいです。

HDDの飛んだノートPC

一昨日の朝にHDDが飛んでしまったノートPCはメール専用だったので、特に大切なデータが入っていたわけでは無いが、メールの受信環境が無くなったのはちょっと不便かも。
そこでメインのアカウントだけはGmailに転送するようにした。
これだとブラウザさえあればどこからでもメールチェックが出来るが、操作性が悪いので頻繁には使いたく無い。
やはりpop3もしくはIMAPでローカルに取り込んで見るほうが楽なので、適当なPCにメールクライアントを入れてメール用端末として使うようにするつもり。
問題はOSやメーラーを何にするかだけど、今までのようにLinux+Sylpheedにするか、Winodws+EdMaxにするか、はたまた日和ってWindows+Outlook Expressにするか。
WIndows+Sylpheedってのもありかな?
どれにしても初期設定やフィルタリングの設定が面倒だなぁ・・・・・・

←クリックしてくれると嬉しいです。

NTPで時刻同期が出来ないサーバ

サーバの一台が不可思議なエラーでネットワークに接続できないので、そのサーバからHDDを抜き出し他のPCに入れて代わりのサーバとした。
ところがntpdは起動しているにもかかわらずいつまで経ってもタイムサーバとの時刻同期が取れない。
最初はタイムサーバ側で接続を拒否しているかと思ったが、クライアント(問題のサーバ)側からtelnetで123番ポートに接続を試すと一応「Connected to ”タイムサーバ名”」と出るのでタイムサーバ側は拒否していない。
反対にタイムサーバ側からクライアント側に同じ事をしてみると、「Unable to connect to remote host」と出たので、クライアント側は接続を拒否している。
ntpdateを使って手動で同期を取ることは出来るので、iptables等でブロックされているわけでも無い。

調べてみると案外単純なことで、/etc/ntp.conf内でのセキュリティ設定でntpdの接続をローカルホスト(自分自身)からのみ許可していて、外部へのアクセスを拒否するようになっていた。
これでは外部のタイムサーバと同期できるわけが無い。

具体的には/etc/ntp.confファイル内の
# restrict mytrustedtimeserverip mask 255.255.255.255 nomodify notrap noquery
の部分が上記のようにデフォルトのままになっていて、外部へのアクセスを許可していなかった。
この部分を
restrict ”タイムサーバのIPアドレス” mask 255.255.255.255 nomodify notrap noquery
と書き換え、
/etc/rc.d/init.d/ntpd stop
/etc/rc.d/init.d/ntpd start
を実行してntpdを再起動したところ程無く時刻の同期が出来た。
同時にタイムサーバ側での認証が必要という設定になっていたので、
authenticate yes

authenticate no
に書き換え認証不要としておいた。

←クリックしてくれると嬉しいです。

この大量のパケットはなんだろう?

先日からトラブル続きのサーバで、ループバックインターフェース(lo)に異常な量のパケットが流れている。
同様の機能を持たせている他のサーバに比べても非常に多い(100倍近い流量)ので、なにか異常なことが発生しているのかもしれない。
このあたりになにかトラブルの元があるような気がするが、まだ解明できていない。

←クリックしてくれると嬉しいです。

時計が進まない?????

ここ数日サーバの一台でトラブルが続いている。
一部のサービスがいきなり止まってしまうようで、クライアントからのアクセスを拒否するようになってしまう。
このサーバは最近マザーボードのキャパシタが壊れてしまったので、応急処置として他のPCのマザー(チップセットは同じもの)を入れたところ、その数日後から現象が出るようになった。

止まるサービスが一つならばそのサービスを見直せば良いのだろうが、複数のサービスが止まってしまう上、これまで全く問題無く動作していたqpopperまでが接続を拒否するようになってしまったので訳が判らない。
不思議なことにtelnetやsshのサービスは動作するので、外部からログインして操作することは可能。

最初に「おかしいな?」と思ったのは時計が進んでいないこと。
dateコマンドで時刻を見ると12時間以上遅れていたので、正しい時刻に合わせてもそこから時刻が進まない、それどころか時刻が戻っては進むというのを繰り返してしまう。
マザーボード上の電池が消耗しているのは判っていたので、交換して起動したところ問題無く動作を始めたが、その二日後にまた同じ現象でサービスが止まってしまった。
今度は再起動だけで済んだが、電池の消耗が原因ではなかったということが判明した。
うーん、何が原因なのだろう?交換したマザーが関係しているとは思うけど、なにをどうすれば解決できるのだろう?
カーネルの時計関係の部分が交換したマザーの時計モジュールに対応していないのかな?

←クリックしてくれると嬉しいです。

サーバが止まってた(爆)

今朝職場に着いて掃除をしていたら、内線で「サーバが1台止まってます」との連絡が来た。
とりあえず部下に電源ユニットを持たせて現地に行かせたが、電源ユニットの障害では無かった。
そうなるとマザーかCPU辺りの故障となるが、生憎代わりになるマザーが無いので、HDDの壊れたPCからマザーを摘出して交換した。
このマザーはメーカー製PCに入っていたものなので、フロントパネルのコネクタが独自設計でピンアサインが判らない(ボード上のシルク印刷も無い)。
少なくとも電源SWを接続するピンが判らないと困る(電源を入れられない)ので、フロントパネルから延びているケーブルに付いているコネクタの導通をテスタでチェックして電源SWとリセットSWのピンを特定した。
HDD-LEDのピンは外部から見ても判ったので、こちらは問題なく接続できた。

後は死んだサーバに入っていたHDD2本を移植したところ無事にOS(Linux)が起動してきたが、パーティション1つが見つからないというエラーでOSの起動が完了しない。
これはHDDを接続しているIDEチャネルを間違えた為で、正しく接続し直したところ今度はきちんと起動した。

これでめでたしめでたしと思ったが、危惧したとおりネットワークアダプタが認識されない。
/etc/sysconfig/network-scripts/にあるifup-ethXを使ってもエラーになってしまうので、どうも正しいドライバが入っていないようだ。
そこで古いチップを使ったPCIのカードを用意して取り付けたがやはり起動時にLANに接続できない。
lsmodで見るとドライバはモジュールとして組み込まれているので、ifup-ethXを手動で動かすとLANに接続できるようになったので一安心。
その後もルーティングの設定がstatic-routesに記述してあるようにはならなかったり、名前解決が出来なかったりしたが、それぞれ手動で設定して、どうにか業務に復帰させることが出来た。

それにしても休みの日の夜に止まらないで欲しいよなぁ(笑)。

#後で壊れたマザーをチェックしたところ、CPU周りのキャパシタが液漏れを起こしていたので、マザーの障害ということだったようだ。

←クリックしてくれると嬉しいです。

sambaでの接続が回復した・・・・・・・

しばらく前からsambaでアクセス出来ないと言われて預かっていたサーバで、ようやくアクセスが可能になった(と思う)。
正確には起動直後はアクセス可能なのだが、時間が経過するとアクセスが遮断されるようになっていた。
いろいろ調べていてlog.nmbdを見るとマスターブラウザになろうとしてなれないというエラーが出ていた。
同じセグメントにはWindowsサーバもあり、そちらがマスターになっているようでリクエストを遮断しているように思えた。
まぁマスターブラウザにする必要も無いので、smb.confを修正してマスターブラウザにならないようにしたが、それでもエラーは出ていたが、とりあえずこの件は無視。

http://www.samba.gr.jp/ にあった文書を参考に、
smbclient -L サーバ名
でlinuxサーバ自身から接続しようとすると
Receiving SMB: Server stopped responding
session request to “サーバ名” failed (Call timed out: server did not respond after 20000 milliseconds)
とタイムアウトを起こしてしまいアクセス出来無い。
さらにsambaのログにも残らないので、これはリクエストがsmbdに渡っていないということだ。

そこで
netstat -a
コマンドでnetbios-ssn ポートが「LISTEN」状態になっているかを確認すると、それさえ表示されない(あれ?)。
ps -ax
でプロセスを確認すると
smbd -D
は動いているから、その前になにか障害があるようだ。

気になったのは
/var/log/samba/log.nmbd
に停止時のログとして
Packet send failed to 192.168.122.255(138) ERRNO=無効な引数です
というエラーが記録されているが、こんなIPアドレスを設定した覚えは無い。

nmbdが正しく動作しているかを確認するために、
nmblookup -B “サーバ名” __SAMBA__
を実行すると、正しいIPアドレスが帰ってくるから少なくともnmbdは動作していて、リクエストも受け取ってくれている。

次にクライアントのアドレスも返してくれるか、
nmblookup -B 192.168.xxx.255 “クライアントPC名”
を実行すると、こちらもIPアドレスが帰ってくる。

さらにブロードキャストへの応答を確認しようと
nmblookup -d 2 ‘*’
を実行したところ、
added interface virbr0 ip=192.168.122.1 bcast=192.168.122.255 netmask=255.255.255.0
added interface eth0 ip=xxx.xxx.xxx.xxx bcast=xxx.xxx.xxx.255 netmask=255.255.255.0
querying * on 192.168.122.255
Got a positive name query response from 192.168.122.1 ( 192.168.122.1 )
192.168.122.1 *<00>
と出力された。

interfaceのeth0は設定してあるが、もう一つの”virbr0″というのは設定した覚えは無い。
ところがこのIPアドレスには見覚えがある。
そう!log.nmbdにあった謎のブロードキャストアドレスと同じネットワークのアドレスだ。
そもそも”virbr0″というinterfaceは設定していないのだが、何故に出て来ているのだろうと思って、”virbr0″でググって見ると、どうも(XENとかで使う)ヴァーチャルマシン用のブリッジデバイスのことらしい。
この”virbr0″というinterfaceはlibvirtをインストールすると勝手に作られるらしく、どうもこれが本来のeth0の邪魔をしている感じだ。

/sbin/ifconfig
でネットワークの設定を見ても立派にネットワークインターフェースとして設定されている。
なので、このインターフェースを
/etc/sysconfig/network-scripts/ifdown virbr0
として止めようとしたが、
使い方: ifdown <デバイス名>
と出てしまい止められない(そりゃそうだ、実在のデバイスでは無いのだから)。

XENをインストールした覚えは無いが念のため
ps -ax | grep xen
としてみたが、当然ながら何も出てこない。
やけっぱちで
ps -ax | grep vir
としてみたら、
2189 ? S 0:00 libvirtd –daemon
というのが出てきたでは無いか。
仮想マシンを使うつもりは毛頭無いので、これを動かす必要も無く、早速止めることにした。

止めるには
/etc/rc.d/init.d/
の下にある”libvirtd”スクリプトを使えば良く、
/etc/rc.d/init.d/libvirtd stop
で簡単に止まった。
そうしたところ、virbr0というインターフェースは消滅し、smbclientでの接続も可能になり、クライアントPCからの接続も可能になった(はぁー、長かった・・・)。
ただ、このままではサーバの起動時に自動でlibvirtdが起動してしまうので、
/sbin/chkconfig –level 345 libvirtd off
として、自動起動を止めた。
しっかし、なんでlibvirtなんて入っていたのかなぁ?

←クリックしてくれると嬉しいです。

CUPSの設定が?

職場でプリンタサーバにしているサーバが挙動不審になってきた(Windows機からプリンタへ接続出来なくなってきた)ので、別のサーバにプリンタを追加してプリンタサーバとしても使うことにした。
プリンタを追加するにはCUPSの設定を変更して(というか全くの未設定状態なので)、まずは外部のPCからブラウザ経由で設定できるようにしなくてはならない。
デフォルトでは外部から設定画面へのアクセスを拒否するようになっているので、「サーバのIPアドレス:631/」でアクセスしても「403 Forbidden」となってしまうが、2009/10/31の記事「CUPSの設定」のように設定ファイルを修正すればアクセスが許可される。
実は最初
Order deny,allow
の行を反対の順番
Order allow,deny
と書いてしまっていて、いくら試しても拒否されてしまった。
あとはsambaの設定にプリンタの公開を追加したところ、なんとかWindowsのクライアント機からの印刷が可能になったが、少々エラーが出るので、さらに調査中。

←クリックしてくれると嬉しいです。

mountできないディスク

一度強制的にumountした後、再mountが出来なかったディスクだが、fsckでチェックしても新たなエラーは発見できないにも関わらず相変わらずmount出来ないままだった。
mountしようとすると、
「既にマウントされているか、使われています」
というようなメッセージが出てしまう。
クライアントがftpでのアップロード先として使用するディレクトリと、httpdのDocument Rootを含んでいるパーティションなので、そのどちらも稼動しないようにしていたが、意外なところにディレクトリを使用しているプロセスがいた。
なんとsmbdが問題のパーティション上のディレクトリをクライアントに対して公開していた。
それまでfsckでチェックしても最初以外エラーも出なかったので、意を決してディスクのセクターチェック(e2fsckを-cオプション付きで実行)まで実行してみたが、それでも特にエラーは出なかった。
もしかしてシステムのログになにか出てないかと思って/var/log/messagesを見たところ、sambaからのメッセージが出ていたのでそこで初めてsambaを使っていたことに気付いた。
すぐにsmbdを止めてmountを実行すると問題なくmount出来、中のファイルを見ることが出来るようになった。
普段はファイルサーバとしては使っていないサーバだったので、sambaのことをすっかり忘れていて思わぬ時間を取られてしまった。

←クリックしてくれると嬉しいです。

強制的にumount

Linuxサーバーのファイルシステムがroになったので、rwにしようとしてumountコマンドでマウントを解除しようとしたが、busyになってしまってumountできないので、強制的にumountした。
やりかたをメモ
umount ‘マウントポイントorデバイスファイル名’ -l (LAZYオプション)
これで強制的にマウント解除できたが、再度マウントすると中身が何も見えない状況。
ファイルシステムにエラーがありそうなので、
fsck ‘デバイスファイル名’
でチェックすると
”contains a file system with errors, check forced.”
のメッセージが出たので、やはりエラーが有り一応修復されたらしい。
どうもディスクそのものにエラーがあるみたいだなぁ、、、、、、、

←クリックしてくれると嬉しいです。