More from: サーバ

”I/O timeout”?

とあるニュースサイトにアクセスしたら少々経ってから”I/O timeout”と表示された。
もしかしてハードウェアトラブルでもあったかな?
少々時間をおいてから再表示したらなんともなかったので一過性のエラーだったようだけど。

←クリックしてくれると嬉しいです。

電気はほぼ復旧した模様

今朝のニュースを見ると、停電は99%復旧したとなっていた。
電力会社(北電)さんには感謝感謝です。

仕事の現場も昨日の朝は1/3ほどしか復電していなかったが、今朝は全ての現場で電気が通じた。
その中で数カ所のサーバーがダウンしたままだったので、電話で電源を入れて貰ったら半分は復旧したが残り半分がちゃんと起動してこないorz
すぐに人を向かわせたが、無事に動き出してくれるかなぁ???(汗)

←クリックしてくれると嬉しいです。

Ridocのトラブルは解消した・・・

昨日発生して丸一日対応していたRidocのトラブルは解消した。
といっても原因が判明したわけでもなく、いろいろサーバをいじったりLANケーブルを交換して貰ったりしても駄目で、取り敢えず運用には支障が無い様にしておいた。
一晩経ってからFAX機(SL3400)の通信ログを見ると、対処を諦めた直後に一通のFAXを受信していて、それがサーバに無事に送信されていた。
実際にRidocDeskNavigatorで確認すると新規のFAXがサーバでも受信されていたうえ、イベントビュアーに出ていた大量のエラーの発生も私が最後に確認した時のを最後に止まっていた。
試しに現地の人にサーバ宛にスキャンデータを送信して貰ったところ、昨日は出ていた「サーバに宛先が登録されていない」というエラーも出ずにきちんと送信された。
その後も複数の着信があり、全てサーバに送信されているのでエラーは解消したようだ。
問題が解消したのは良いけれど、原因がはっきりしないのはなんとも・・・

参考までに下はサーバのイベントビュアーに出ていたアプリケーションエラー。
ソースは”ScanRouterDriverV2”となっていて、最初に配信エラーとなったFAXの受信時から1分毎に記録されていたが、突然止まっていた。
——————————————–
The following error was occurred.(Mes0x6)
ErrMan(97):ERROR DRVERR_SCANDATACONNTIMEDOUT data connect timeout(900 seconds) to aaa.bbb.ccc.ddd(実際にはFAX機のIPアドレス)
Driver Error
Function: FUNC_FTPCMD_RETR_NORMAL
Thread[8]
——————————————–

←クリックしてくれると嬉しいです。

FAX機からRidocDocumentRouterのサーバにデータを送れない・・・

遠隔地の現場から
「昨夜遅くからのFAXがサーバに送られずエラーになっている」
との連絡が入った。
サーバにリモートで接続して配信ログを見ると、昨夜遅く日付が変わってから以降の受信FAXが配信されていない。
FAX機(SL3400)側の送受信レポートを見ても同じ。
サーバ側のイベントログを見ると、アプリケーションログの中に大量のエラーが出ている。
出ているエラーはScanRouterDriver V2が出している「data connect timeout(900seconds)」というエラー。
どこかで見たな、と思ってこのブログの記事を漁って見ると、3年前の9月にも同じエラーが出ていたことが判明。
その時はLANケーブルの交換で復旧したとなっていたので、現場の人にお願いしてLANケーブル(FAX機側、サーバ側両方)を交換して貰ったが改善しない。
おかしなことに、FAX機側からサーバのフォルダにスキャンデータを送ろうとすると、「指定された宛先はサーバに登録されていません」というような(文言は少し違うかも)メッセージが出てスキャン操作を受け付けて貰えない。
やはりFAX機とサーバの通信が上手くいっていない模様。
ところが私の使っているPCからはFAX機のWEBインターフェースにもftpポートに接続が出来るし、サーバ機へのリモートアクセス及びサーバ機からFAX機のftpポートへの接続も可能。
つまり通信状況におかしなところは無い様に見える。
でも、どこかがおかしいんだよなぁ・・・
もしかして8月になったのでどちらかが夏休みに入った?んなわけないか(汗)

←クリックしてくれると嬉しいです。

cronファイルの場所

linuxサーバのユーザーの移行に伴って、各ユーザーのcrontabの内容を確認する必要があった。
一人や二人ならそのユーザーでログインするか、スーパーユーザーでcrontab ユーザー名 -eで確認するんだけど、数十人分なのでちょっと面倒。
なので各ユーザーのcrontabの内容がどこにあるかをググって見たらすぐに見つかった。
/var/spoo/cron
というディレクトリにユーザー名のファイルがあって、その中身がcrontab -eで編集しているファイルそのもの。
所有権を見ると600だけど、スーパーユーザーならcatコマンドで中身を見ることは可能。
あー、これで楽になったなぁ。

←クリックしてくれると嬉しいです。

サーバーが起動しない?

遠隔地に設置してあるサーバが動作していないとの連絡が来た。
モノはDELLのPower Edge T100でファイルサーバ等として設置してあるのだがPCからアクセスしても反応が無いとのことで、どうも電源が切れていたらしい。
電源を入れても画面になにも表示されずインジケータの一部が点灯したままで動作が止まっているらしい。
インジケータの状態を知りたかったので電源投入時のインジケーターの様子を携帯で撮影した動画を送って貰ったら、最終的に1-2-3のLEDが点灯したままになって止まっている。
そのインジケーターの状態を調べると”その他のエラー”としか出て来ないorz
どうにも判らないので結局のところ本体を送って貰って調べることにした。
数日後に届いたので調べてみるとなんと画面表示が出て来る。
ところがBIOSレベルで止まってしまい、その時のLEDの点灯状態は1-2-3が点灯と送って貰った動画と同じ(ついでに電源投入からその状態になるまでの時間もほぼ同じ)。
ということは、現場で出たエラーが再現していると考えて良いわけで、画面が表示され無かったのは現場に置いてあるサーバ用ディスプレイが故障していたためらしい。
出ていたエラーはカバーが開けられた形跡がある(「Alert! Cover was previously removed.」)というもので、最初は検知スイッチが故障したのかと思って別のスイッチと交換してみたが解消せず。
良く良くエラーメッセージを見ると、過去に開けられた(実際に数年前に一度開けている)ために止まっていたらしい。
ということで、F2キーを押してBIOS設定画面で過去のログを消去し、System Security → Chassis Intrusion の値をDisabledからEnabledに変更しておいた。
これで電源投入後にF1キーを押さずともOSが起動するようになったので現場に送り返した。
今日になって現場から届いたので設置して問題無く動作しているとの連絡が来た。

最初からF1キーを押して貰えば起動したんだよなぁ(汗)。
ああ、ついでに動作するディスプレイも送って交換して貰ったから、今度はエラーメッセージが読める筈(読みたくないけど!)。

←クリックしてくれると嬉しいです。

仏滅だから?

昨日は仕事が妙に忙しかった。
理由は通常業務に加えて自分が使っているPCにトラブルが発生したためorz

前日の終業時にPCの電源を落とそうとしたらWindowsUpdateがあり、翌日電源を入れるとUpdateの続きがインストールされた。
ここまでは普段のUpdateと同じだったんだけど、昨日は一味違った(汗)。
なにが起きたかと言うと職場で運用しているファイルサーバにアクセス出来なくなってしまった。
全てのファイルサーバではないが、最も利用しているファイルサーバだったので一瞬目が点になってしまった、、、
このサーバの一部のディレクトリをネットワークドライブとして接続しているんだけど、そのドライブにアクセス出来ない。
いろいろ試していると、そのサーバに対してだけ名前解決が出来ないようで、IPアドレスで接続するときちんと接続出来、中のファイルにもアクセス出来る。
取り敢えず良く使うディレクトリだけはそれで凌いだが、それまでにかなりの時間を費やしてしまった・・・
原因は前日に行なったWindowsUpdateであることは間違いなく、ネットワーク上でも似たようなトラブルに遭った人が多いみたいで、参考に出来そうなことがいろいろと見つかった。
時間が無くて根本的な解決策を見つけ出してはいないけど、なんとかしたいところだなぁ。

←クリックしてくれると嬉しいです。

telnetで接続できなくなった(汗)

職場のメール受信用サーバが最近調子が悪いので新たに構築したサーバに移行中。
ところが移行作業二日目の朝になるとPCからtelnetでサーバに接続しようとすると、
「getaddrinfo: localhost Name or service not known Connection closed by foreign host.」
というエラーメッセージが出て接続できなくなってしまった。
早速このエラーメッセージでググって見ると、どうも/etc/hostsファイルの記述(だけでは無いらしいが)に問題があるようだ。
そこを修正すればOKらしいんだけど、作業をするにはコンソールからログインしなければならない。
サーバを設置してある部屋に行って/etc/hostsファイルを見ると、/etc/sysconfig/networkファイルに書いてあるホスト名と異なっていた(汗)。
さっそく/etc/hostsファイル内のホスト名を書き直すとtelnetでの接続が復活した。
うーん、前日の作業で修正を間違っていたのかなぁ???

←クリックしてくれると嬉しいです。

Gmail宛に送ったメールが弾かれる

「特定のお客さんに送ったメールがエラーで返って来る」
という連絡を受けた。
こういう場合は帰って来たエラーメールを見ると原因が判明することが多いので、エラーメールを転送して貰った。
そのエラーメールには、
> alt1.gmail-smtp-in.l.google.com[74.125.25.27] said: 421-4.7.0
> [xxx.xxx.xxx.xxx xx] Our system has detected an unusual rate of
> 421-4.7.0 unsolicited mail originating from your IP address. To protect our
> 421-4.7.0 users from spam, mail sent from your IP address has been
> temporarily 421-4.7.0 rate limited. Please visit 421-4.7.0
> https://support.google.com/mail/answer/81126 to review our Bulk Email 421
> 4.7.0 Senders Guidelines. qi3si22538142pac.30 – gsmtp (in reply to end of
> DATA command)
と言う部分があり、そのまま読むと
「そちらの(メールサーバーの)IPアドレスから通常では無い数の未承諾メールが送られたので、ユーザーをspamから保護するために一時的にブロックしました。」
となる。
すぐにこのメールサーバーの管理者に連絡して事情を説明し、ログからメールの送信数をチェックして貰ったところ、1日当たり数百通程度ということなので、それほど多いとも思えない。
そこでこのエラーに関してググってみると、どうもDNSの設定でSPFレコードを記述しないとブロックされることがあるようだということが判明。
私自身はDNSの設定を弄れないので、管理者とやり取りしながら設定を変更して貰ってなんとか解決した。
その際にチェックのために
http://www.kitterman.com/spf/validate.html
及び
SPFレコードチェックツール(アスメル技術マニュアル)
の二箇所のサイトを利用させて貰った。
最初の時点で設定されていたSPFレコードは
”v=spf1 a:hogehoge.com ~all”
で、これだと1番目のサイトでのチェックで”softfail domain owner discourages use of this host”となり、これではGmailのサーバーで弾かれてしまう。
そこでいろいろと記述を変更しながら1番目のサイトで記述方法をチェックし(ページ中ほどの”Test an SPF record”で実行)、実際に設定後に問題無いかを2番目のサイトで確認してエラーが無くなったところで実際にGmail宛にメールを出したところ無事に届いたので解決とした。
実際に記述したのは
「v=spf1 ip4:***.***.***.***(メールサーバのIPアドレス) include:1legend.com a:hogehoge.com(ドメイン名) ~all」
という内容。
その後テストしたところinclude:の部分は無くてもチェックは通るんだけど、怖いからそのままにしてある(汗)。

ただこのエラーの場合、エラーメールが返って来るまで丸五日が経っていたことが問題。
当方のサーバーのMTAが一時的なエラーと認識してリトライしていたらしい・・・これはなんとかせねば(汗)。

←クリックしてくれると嬉しいです。

動いてくれた

ビデオカードが死んでいて起動しなかったサーバに別のビデオカードを取りつけて電源を入れたところ無事に起動した。
OSが起動するまでは結構時間が掛かったけど、最終的にはきちんと動作することが確認出来た。
ということで、年明けに再度現場に持って行って設置作業をすることになったな。
あー、でも動いてくれて良かったー、動かなかったら新しくサーバを仕立てなくてはならないから手間と時間が掛かるんだよなぁ、、、

←クリックしてくれると嬉しいです。