サーバ安定化へ向け開発中です!
ここ数日におけるサーバの不安定な動作によって皆様にご迷惑をお掛けしておりますことをお詫びいたします。詳しくは掲示板をご覧ください。
本ページでは、サーバ安定化へ向けた開発状況を少しだけリアルタイムにお知らせします。何卒ご理解ご協力をお願いいたします。
07/19 00:05 - LOG
本日中に「Winsock OCXの代替コントロールを試験導入」します!
ここ数日におけるサーバの不安定な動作によって皆様にご迷惑をお掛けしておりますことをお詫びいたします。詳しくは掲示板をご覧ください。
本ページでは、当面の対策として説明した「Winsock
OCXの代替コントロールを試験導入」実装の開発状況をリアルタイムにお知らせします。
開発内容
次の通信に用いるコントロールを変更(取消線=変更済み):
必須:対ピア通信、対ピアポート開放チェック、対サーバ同期通信
任意:対ピアデータ配信、syslog配信、地震情報・津波予報検査
開発は 7/18 開始、 7/18 終了を目標
07/18 22:01 - 開発の終了と問題の解決失敗を宣言します
「Winsock OCXの代替コントロールを試験導入」について、開発の終了と問題の解決失敗を宣言します。
本日中に「Winsock OCXの代替コントロールを試験導入」するという目標は達成出来ましたが、残念ながら問題の解決には至りませんでした。「よりオープンに」という方針のもとサービス状況を公開しておりますが、これは自動処理であって嘘をつきません。「障害発生中」「停止」と表示されていれば、それは事実です。
皆様には大変ご迷惑をお掛けしておりますことを深くお詫び申し上げます。
07/18 23:44 - LOG...
う、動いて……いる……だと……?
まあ待て、ここで結論を出すのは早計だ。またこんなことになりかねん。
状況を整理しよう。
コントロールが問題ではない(Winsockだろうが代替だろうが、3〜4分固まって自然復帰を繰り返した)
全機能オンのとき、おおよそ3000ピアを超えると固まる(本サーバ制御:1000,同期制御:2000)
対サーバの同期機能を切ると動いている(ただし本サーバ制御:1700ピアのみ)
対ピアの機能を切ると動いている(同期制御:3000〜4000、ただし本サーバ制御はゼロなので同期受信のみ実施)
考えられる原因は、こうなる。
処理量が多すぎる(ある処理量を上回ると急に調子が悪くなる特典つき)
同期「送信」が悪い(送信処理に問題が含まれている)
複合技が悪い(処理量が多すぎる、とだいたい同じ意味)
07/18 23:29 - LOG...
サーバ間の同期機能を疑ってみましょう。同期機能オフモード。
07/18 22:48 - LOG...
気になるのは、1サーバ体制のPRCP情報共有プラグインサーバは平然と動いているということ。
何かこう、特定ピア数を境目に決定的な違いが起こるのだろうか…
07/18 22:29 - LOG...
07/18 21:54 - 進捗度:90% (デバッグ中)
こりゃ敗北宣言するしかないわな。全部きれいに停止してるのを見たら泣けてくる。
「うなだれてる画像クレ」といったらこんなのが送られてきました
07/18 21:50 - 進捗度:90% (デバッグ中)
実装でp2pquake.ddo.jpの表示が停止になっちゃってるな。本当は(それなりに)動いてるんだけど。
07/18 21:39 - 進捗度:90% (デバッグ中)
07/18 21:32 - 進捗度:90% (デバッグ中)
奥の手「ソケット数固定化」でどうにかならんかね。いざ実装中
07/18 21:19 - 進捗度:90% (デバッグ中)
数値戻ってるけど気のせいだよね。
固まりっぱなしでしょうがない
というか分散サーバ落ちすぎだろ…
07/18 21:07 - 進捗度:91% (デバッグ中)
07/18 20:53 - 進捗度:91% (デバッグ中)
順調に動いていて気味が悪い。最初「君が悪い」と誤変換されて思わず投げ捨てそうになった。
しばらくまったりしておきましょう。
07/18 20:43 - 進捗度:90% (デバッグ中)
07/18 20:24 - 進捗度:87% (デバッグ中)
しばらく回しておいて、30分動いたら実地試験しよう。
ルータに「ip_conntrack: table full, dropping
packet.」とか出やがるので、コネクションの多いシステム(IRCとかIRCとかIRC)のサービス終了を本格的に考えなければいけません。
07/18 20:22 - 進捗度:86% (デバッグ中)
エセマルチスレッドのイベントドンブリドリブンにはもう飽き飽きした。
ポート開放を調べていたら他ピアの受信データを処理し、データ処理をしていたら他ピアの接続要求を処理し、
ポート開放? 10秒経ってるし失敗じゃね?
とかいうことになる。ひどい。
現在5分連続稼働中
07/18 20:09 - 進捗度:85% (デバッグ中)
エラー時もリセットカウントを足すようにして解決 出来てないし…
07/18 20:03 - 進捗度:81% (デバッグ中)
結局、バックログ一杯(5)になったらリセットする「ダメ」対応でしのぐ。
と言いたいが、しのげていない。
07/18 19:51 - 進捗度:80% (デバッグ中)
ConnectionRequestイベントが発生しなくなる なんで?
なんでじゃなくて、Acceptしないからバックログ溜まって駄目なことになってるだけ
07/18 19:15 - 進捗度:78% (デバッグ中)
07/18 18:50 - 進捗度:78% (デバッグ中)
07/18 18:39 - 進捗度:77% (デバッグ中)
コンパイルエラー ++++
動作中エラー ++++
処理方法がまずくて、一度エラーが起きると接続を受け付けなくなっている。
07/18 18:21 - 進捗度:76% (デバッグ中)
07/18 18:13 - 進捗度:75% (デバッグ中)
07/18 18:07 - 進捗度:70% (デバッグ中)
07/18 17:02 - 進捗度:65% (デバッグ中)
07/18 17:00 - 進捗度:65%
対サーバ同期通信 移行完了。
デバッグへ移行。これからが長い(はず)。
07/18 16:42 - 進捗度:50%
対サーバ同期通信 移行開始。
デバッグを30%と見積もっているけど恐らく甘い。
07/18 16:35 - 進捗度:50%
07/18 15:52 - 進捗度:35%
07/18 15:33 - 進捗度:20%
新規実装終了。これからやっていただくのは、GREP掛けて置換していく簡単なお仕事です
07/18 14:55 - 進捗度:13%
新規実装「どのNICにバインドするか」について概ね考えがまとまる。
(次の3択にする 1: デフォルト値にまかせる,
2: www.google.co.jp へ接続に使ったNIC,
3:
指定IPアドレスを持つNIC)
07/18 13:55 - 進捗度:12%
07/18 10:12 - 進捗度:12%
対ピア通信 移行中。新規実装が必要で少し時間が掛かりそうです。
私用につき14:00までサスペンド。
07/18 09:58 - 進捗度:10%
07/18 09:47 - 進捗度:4%
07/18 09:39 - 進捗度:2%
07/18 09:20 - 進捗度:1%
おはようございます。
実装が必要な範囲を調べています。
07/18 00:50 - 進捗度:0%
開発の開始を宣言し、終了目標を 22:00 に設定します。開発が終了すればこのページは消滅します。
ひとまず寝ます。