高速ゼータ・メビウス変換

ググれば大量の記事が出てくるが、知見の整理ということで自分でも書いてみる。

ゼータ・メビウス変換とは

「高速」ゼータ・メビウス変換とは名前の通りゼータ・メビウス変換を高速化したものなので、まずはそちらを理解する必要がある。

定義: ゼータ変換、メビウス変換

$X$ を有限集合、 $G$ を加法が定義された集合¹とする。

このとき写像 $f : P (X) \to G$ から、以下を満たす写像 $g : P (X) \to G$ を求めることをゼータ変換という²。

g (S) = \sum_{T \supseteq S} f (T)

なお、この式中の $T \supseteq S$ を $T \subseteq S$ にしたものも同様にゼータ変換と呼ぶことにする³。

そしてこの逆変換、すなわち $g : P (X) \to G$ から以下を満たす $f : P (X) \to G$ を求めることをメビウス変換という⁴。

f (S) = \sum_{T \supseteq S} (- 1)^{| T | - | S |} g (T)

この式中の $T \supseteq S$ を $T \subseteq S$ にすると、上で包含関係の向きを逆にした場合のゼータ変換の逆変換になる。

この変換がゼータ変換の逆変換であることは全く自明ではないが、この記事ではその証明は省略する⁵。

以降、集合 $X$ として ${1, 2, \dots, n}$ のみを考え、関数 $f$ を長さ $2^{n}$ の配列として表現する。これと対応して、以降 $f ({2, 4, 5})$ を $f (11010)$ のように表現する。

ゼータ変換の高速化

ここからゼータ変換、特に実装しやすい $g (S) = \sum_{T \subseteq S} f (T)$ の方を高速に行うことを考える。メビウス変換も符号を少し変えるだけでほぼ同様に実現できる。

計算量の評価は、加算が行われる回数 $C$ (Complexity)によって行う。

愚直解

まず愚直に求めようとすると、以下のようなコードになるだろう。

for (int s = 0; s < (1 << n); ++s) {
    for (int t = 0; t < (1 << n); ++t) {
        if ((s & t) == t) g[s] += f[t];
    }
}

$S$ と $T$ は $X$ の部分集合全体を回り、 $S \cap T = T$ 、すなわち $T \subseteq S$ のときだけ $g (S)$ に $f (T)$ を加算する。定義通りである。

$X$ の部分集合は計 $2^{n}$ 個あることから、このコードの計算量は $C = 2^{n} \cdot 2^{n} = 4^{n}$ となる。

部分集合の列挙

しかしこのコードでは $T$ の探索に無駄が多すぎる。できることなら $X$ ではなく $S$ の部分集合全体だけを回したいが、実はこれは以下のコードで実現できる。

for (int s = 0; s < (1 << n); ++s) {
    for (int t = s; t >= 0; t = ((t - 1) & s)) {
        g[s] += f[t];
    }
}

この手法はビット演算 (bit 演算) の使い方を総特集！〜マスクビットから bit DP まで〜に載っている。

$S$ の部分集合は $2^{| S |}$ 個あり、 $X$ のサイズ $k$ の部分集合は $_{n} C_{k}$ 個あることから、このコードの計算量は $C = \sum_{k = 0}^{n}_{n} C_{k} \cdot 2^{k} = 3^{n}$ となる⁶。

高速ゼータ変換

さらに高速化して、 $C = n \cdot 2^{n - 1}$ でゼータ変換を行うのが本記事の主題である高速ゼータ変換と呼ばれる手法である。

方針は「下位要素から順に拡張していく」というもの。まず $d p_{S, k}$ を「 $1 \sim k$ は $S$ の部分集合、それより上は $S$ と一致しているもの全部の総和」と定義する。言葉では分かりにくいので例を挙げると、

d p_{110101, 3} = f (110000) + f (110001) + f (110100) + f (110101)

といった具合である。定義より、 $d p_{S, 0} = f (S)$ 、 $d p_{S, n} = g (S)$ 。

これを $k = 1$ から $k = n$ まで順に更新していく。このとき、 $k \in S$ か否かで場合分けをする。具体例で考えてみると、

d p_{10010, 3} = f (10000) + f (10010) = d p_{10010, 2} d p_{10110, 3} = f (10000) + f (10010) + f (10100) + f (10110) = d p_{10010, 2} + d p_{10110, 2}

のように、 $k \in S$ の場合は $d p_{S ∖ {k}, k - 1}$ も足す必要がある。

これを実装に落とし込むと以下の通り。

for (int s = 0; s < (1 << n); ++s) {
    dp[s][0] = f[s];
}

for (int k = 1; k <= n; ++k) {
    for (int s = 0; s < (1 << n); ++s) {
        dp[s][k] = dp[s][k - 1];
        if ((s >> (k - 1)) & 1) {
            dp[s][k] += dp[s ^ (1 << (k - 1))][k - 1];
        }
    }
}

for (int s = 0; s < (1 << n); ++s) {
    g[s] = dp[s][n];
}

集合及びDPの添字は1-indexedなのに対してbit演算は0-indexedなので、シフト数を1減らしてやる必要がある。

配列の使い回し

さらに更新について考えてみると、DPテーブルは1次元のものを使い回せることに気づく。すなわち、以下のような実装ができる。

for (int s = 0; s < (1 << n); ++s) {
    dp[s] = f[s];
}

for (int k = 1; k <= n; ++k) {
    // この時点でdp[s]は上の実装のdp[s][k-1]と一致
    for (int s = 0; s < (1 << n); ++s) {
        if ((s >> (k - 1)) & 1) {
            dp[s] += dp[s ^ (1 << (k - 1))];
        }
    }
}

for (int s = 0; s < (1 << n); ++s) {
    g[s] = dp[s];
}

ここで「 $d p_{S ∖ {k}}$ は $d p_{S}$ より先に更新されているが大丈夫なのか」となるが、 $k \notin S ∖ {k}$ なので、この週ではそもそも $d p_{S ∖ {k}}$ は更新されていない。よって問題ない。

さらにkを1ずらしたりDP配列として直にgを使ったりして整理することで、他の記事でもよく見られるような実装になる。

for (int s = 0; s < (1 << n); ++s) {
    g[s] = f[s];
}

for (int k = 0; k < n; ++k) {
    for (int s = 0; s < (1 << n); ++s) {
        if ((s >> k) & 1) {
            g[s] += g[s ^ (1 << k)];
        }
    }
}

長い道のりだったが、ようやく高速ゼータ変換のコードに辿り着いた。

このコードの計算量は、各 $S \subseteq X$ について $| S |$ 回加算更新が行われるため、 $C = \sum_{k = 0}^{n}_{n} C_{k} \cdot k = n \cdot 2^{n - 1}$ となる⁷。加算が $O (1)$ なら、 $n = 18$ くらいなら安定して間に合うだろう( $C ≃ 2.4 \times 10^{6}$ )。