Cgroupあれこれ-第4回コンテナ型仮想化の情報交換会資料

@hiro_kamezawa

アジェンダ 自己紹介 cgroupって何？ 今昔 memory cgroup

自己紹介 亀澤寛之(@hiro_kamezawa) 某Ｆ社 今の仕事はマネージャ 現役だったのは２年前 HPCじゃなくエンタープライズ系 元memory cgroupの開発者 最近面白そうなもの Dockerと周辺ｋdbus、systemd

Cgroup “Control Group” の略－タスクのグループを作る－作ったグループに対し制限・パラメータ等を設定するための機能例えば、KVMのフロントエンドの “libvirt” は各 KVMを cgroupの下に突っ込んで動かすことで CPU,Memory等のリソース制御を行っている。

Cgroup ? 実は元々、”Process Container ” って名前で開発が始まった。 +/* + * cgroup_create_dir - create a directory for an object. + * cont: the cgroup we create the directory for. + * It must have a valid ->parent field + * And we are going to fill its ->dentry field. + * dentry: dentry of the new container + * mode: mode to set on new directory. + */ 昔のコードを見ると“Container”の文字が結構あったりする “Process Container”機能だけじゃ”Container”にならないよね？とかそういう話もあって “Control Group”に

汎用性のために Cgroup を作っている最中には色々議論があって特定用途でなく“汎用性”を重視すべきだとか。それで今の形、cpu, memory etc…をバラバラに管理できるようになった。名前も Control Groupに。 Kernel 2.6.24 (2007年）にマージ。当時からgoogleのエンジニアがメンテナ（代替わりしたけど）。＝＞結局、無駄に複雑にしたことで、後々問題になるんだけど

昔と今となんだこのCgroup機能って、俺たちのコードを汚くする上に性能を落とすだけの機能じゃねーか。誰が使うんだこんなもん昔の雰囲気コンテナとかで使ってるみたいだからユースケースがあるんだろうが、ホットパスをいじる時は気をつけろよ昔よりも根本的なところでコードをよくして行ける。

Cgroupの機能 タスクをグループ化する グループは動的に生成・廃棄が可能 各グループはヒエラルキを作る 各ヒエラルキには“サブシステム”で様々な属性を付与 仮想ファイルシステムインタフェースで実装される mkdir で cgroupを作る タスクの子タスクは同一のグループに所属する 全てのタスクはいずれかのcgroupに所属する 所属していないように見えるタスクは “root” cgroupに所属

現在のsubsystem cpu cpuacct cpuset memory blkio device freezer net_class net_pio perf hugetlb

ヒエラルキ① Ｃｇｒｏｕｐは階層構造が持てる。これをヒエラルキと呼ぶ。 Subsystem毎に別々のヒエラルキを構築可能 CPU のヒエラルキメモリのヒエラルキバラバラに作ると正直カオス・・・

ヒエラルキ② Subsystem毎に階層構造の効果が異なる！ CPU のヒエラルキメモリのヒエラルキ増々カオス・・・基本的に上位のリソースを下位で分割してゆく 1/2 1/2 1/2 x 1/3 上位の影響をうけるかどうかスイッチで選べる

ヒエラルキ③ ＡＢＣＤ中間層にもタスクが所属可能！ CPU のヒエラルキ例えば、Ａグループの下にＢ、Ｃ，Ｄ，グループがあるとする。Ａグループにタスクが3つ所属し、Ｂ，Ｃ，Ｄにそれぞれタスクが 1つずつ所属する時、それぞれのタスクが受け取るＣＰＵリソースはいくつか？ 1/2 1/2 1/2 x 1/3 わけわからん

タスクとプロセスコントロール⇒タスク単位リソース⇒タスク単位？メモリってプロセス単位ですよね？

自由度高杉問題自由度を優先した実装だったんだけど・・・ 複雑なコード わけのわからんヒエラルキ Memory等はプロセス単位で管理されるのにスレッド単位でグループに所属可能 Cgroup間の連携が皆無 ⇒memory cgroup と blkio cgroupがバラバラになっているため、buffered I/O にうまくタグ付けが出来ないから buffered I/O制限が実施できないとか。

sane_behavior mount -t cgroup -o __DEVEL__sane_behavior cgroup $MOUNT_POINT 元々の実装がcgroupの使い方に制約を加えていないことへの怒りが生み出した “正しい”使い方 ヒエラルキ－はシステムに一つだけ（default ヒエラルキ－を作る） Remount/rename は不可 プロセス単位で管理。タスク単位では管理しない Taskの所属しないcgroup状態のnotification機能追加 プロセスを持たないグループだけがサブシステム効果を得る Memory, blkio cgroupはデフォルトでヒエラルキー効果が有効化カーネル 3.19~20あたりでdefault化かな？

新ヒエラルキルールＡＢＣＤヒエラルキ例えば、Ａグループの下にＢ、Ｃ，Ｄ，グループがあるとする。ＡグループでCPU cgroupをenable した場合、BCDに効果が及ぶがＡにはタスクが所属できない。 BCDにのみタスクが所属可能 1/2 1/2 1/2 x 1/3

cpusetの運命？ cpuset はcgroupが出来る前からあったのだけど、似てるってことでcgroupに取り込まれた。 元々cpusetはスレッド単位でcpu bindの制御等ができた 今もできている sane_behaviorになると？

systemd systemdが全てのcgroupを牛耳る！ Systemdが有効なシステムではsystemdでcgroupを作る Unit file を使って作る DBUS APIで作る ….mkdir よりめんどくさい …けどsystemdのツール群は正直便利 ※ libvirt のcgroup関係もsystemdを使うよう書き直された

３つのslice systemd user.slice system.slice machine.slice

ちなみに 今の所systemd から設定できるパラメータは限定的 CPUの”Share”は設定できても“Limit”は設定できない Memoryの上限は設定できても Swapの設定ができない Etc….. Systemdの開発者に聞いてところ、Linux Kernel側の Cgroupの再設計作業がひと段落してAPIが確定するまで増やさないとのこと・・・ ⇒手動でどうぞ。

Memory cgroup 1.メモリ使用量の上限を設定できるユーザメモリとページ（ファイル）キャッシュ 2.メモリ＋swap使用量の上限を設定できる 3.カーネルメモリの使用量上限を設定できる 4.TCPのバッファ量を制限できる１～３は連携している。 ….実はTCPのバッファ量制御だけ仲間外れで他の３つとは独立（元々network bufferのシステム上限制御のcgroup版だからなのだけど）

ところで・・・・ Johannes Weiner が 2014/08/08 のコミットで書き換えまくったので（綺麗になったし性能もよくなった）そのバージョンに基づいてしゃべります。 ※なので今手に入るカーネルとは少し違うかも。昔はホットパス等に手を入れるのに反発もあったのでかなり外付けコード風にmemory cgroupを作ってた。最近は市民権？も出て来たのでよりスリム化している最中。

ユーザメモリのアカウンティング～ページフォルト～プロセス実行ページフォルトページフォルトハンドラ Memory cgroup 課金するページフォルトの際にアロケートされたメモリに対し課金を行う

ユーザメモリのアカウンティング② ～メモリ解放～ munmap() や exit() put_page() メモリ解放処理 Memory cgroup 使用量の返却

ユーザメモリのアカウンティング③ ～swap out処理～メモリ回収処理ページを選択スワップキャッシュに追加 unmap Swap out 宙ぶらりんフリーメモリ使用量を減らすスワップアウトしたことを記録ユーザメモリはスワップに行った後も開放されない場合があるのがいやらしい・・・

ユーザメモリのアカウンティング～swapin 処理～プロセス実行ページフォルトページフォルトハンドラ Swapの記録域から Memory cgroup情報を読み出して課金する Swap-in処理実はswap inがくせもので、 SwapCacheにヒットして、既に課金済のページを拾ってくることがある。この辺、race conditionとかややこしい -> Johannesの改善で少しマシに。

ページキャッシュのアカウンティングページ獲得ページキャッシュに追加メモリ使用量UP Radix-Tree ページキャッシュから削除 put_page() 時にメモリ使用量を返却ページ解放最初にページを読んだ人に課金される。共有されるページキャッシュの扱いが問題だったが・・・結局コンテナメインなら共有はあんまりかんがえなくていいよね？

Kernelメモリのアカウンティング① 1.SLAB / SLUB アロケータからページを割り当てた場合 2.alloc_kmem_pages()を呼ぶ場合 …とはいえ、alloc_kmem_pages()はkmalloc()から呼ばれる。基本、kmallocやslab関係で page単位に課金される。

Kernel メモリのアカウンティング② 今の所、カーネルメモリ課金は free()されたときに減算。 …..とはいえ、特定のmemory cgroup狙い撃ちでカーネルメモリを解放して行くようなルーチンはいまのところまだ無い。つまり、memory cgroupを削除してもまだ課金されている状態….ということもあるわけで、あんまり使わない方がいい。

TCP bufferのアカウンティング元々、システム全体でtcp bufferを制限するための仕組みがあり、それを流用。 Socket の data用のメモリ域をアロケートするところで判定する。

Memory cgroupの面倒なところ タスクのライフサイクルとメモリのライフサイクルが異なる 莫大な性能オーバヘッドがあると信じられている タスクに課金するわけじゃなくてページに課金しているので race conditionが多い ….少しずつ説明してみます。

ライフサイクル 元々のcgroupデザイン時の期待値 Task がいなくなると参照が無くなる⇒削除可能 メモリcgroup Taskがいなくなっても以下が残る ページキャッシュ カーネルメモリ スワップキャッシュ（残ることがある）このあたりの処理をするためにリファレンスカウント処理等々を入れたおかげで性能に影響が出たり、race conditionが発生

オーバヘッド Kernelは1ページ(4096byte)単位にＰａｇｅ構造体 (64バイト)を割り当てる。Memory cgroupは1ページごとに、16byte使用する。 => 1G毎に4Mバイト。 Cgroup毎にカウンターを一つ持つ。カウンターはスピンロックで保護される。課金情報はココで管理 Page 情報の管理のためにロック操作が必要だった ⇒ 2014/08 のパッチ群でJohannesが解決。

Race condition ページに対して課金する ページマイグレーション時の課金の移動 Transparent Huge Page SwapCache ページの”dirty”等の属性のカウンティング Taskをcgroup間移動した際に課金情報を移動させる機能がある ロックを使っていると性能に出てくる

Memory cgroupの性能オーバヘッド① 一番最初のナイーブな実装 1ページの課金ごとにカウンタ(spinlock付)を操作 /::::i::::､:::ヽ､:::::＼:ヽ:＼::::::ヽ:::､::ヽ::､:', /::i|::l::ﾄ､ヽ::､:::ヽ:､::::::＼::ヽ::::l::::ヽ::i:::i:::! /:/:!:::!:|::ヽ:＼ヽ::::､:＼::::ヽ:::ヽ!::::::i::|:::!::! !ﾊ::|::::i::l:|心､:ヽ::＼:ヽ_＼､＼:::ヽ:::|!::|:|i i､:!:|:､N{､ﾋjヽゝ＼ヾｲﾋｊ >､ヽi:､|!:|:l ヽ:!::ﾄヽ￣ l! ` ｀￣´ |::l::|:|j:,!:! 駄目だこいつﾄ､::! u ｊ |::/lj:::!ﾘヾ、丶 - u ﾘｲ:|ﾘ早くなんとかしないと…… ﾘヽ ‐､ｰ- ､_ ／ｲ:::i rｰ'"ﾄ:lﾞ､￣ .／ , |::! / ﾍヾヽ､ _,. ' / |:'

ヒエラルキとカウンタ counter counter counter counter lock lock lock lock 一つカウントするとカウンタとlockを複数操作

性能オーバヘッド改善① ・・・・・各ＣＰＵ struct { struct memcg *ptr; unsigned long nr_pages; } 中央のカウンタ 128kb 単位で課金 4kb 単位で課金スレッド各ＣＰＵ毎に１２８ＫＢずつ、現在走行中のスレッドが所属するmemory cgroupから利用量をキャッシュ。（スレッドが切り替わったら必要に応じて返却） CPU数が増えたらどうかと思ってたけど自動ヒュージページで影響が見えにくくなった。課金処理オーバヘッドの削減所属

性能オーバヘッド改善② メモリ解放処理等 Pagevec処理 Memory cgroupへの返却は put_page() のバッチ処理の中で複数のページ分をまとめてカウンタ操作していく。今は数百ページ単位で処理。

カウンタの誤差 Memory cgroup は性能のためにカウント誤差を許容－課金の際には各CPUあたり最大128KB分の“前借り” －ページテーブルからメモリが剥がされても実際にページアロケータに返却される直前までは課金が返済されない。ファジーなカウンターと呼んだりするけど、Linuxの中にはファジーな値が結構ある。例）タスク毎のrss accountingとか。

Johannesの改善今まで lock_page_cgroup() pc->memcg = memcg unlock_page_cgroup() これから lock_page_cgroup() pc->memcg = memcg unlock_page_cgroup() どうやったか？

課金処理カウンタにチャージ Limit Hit ? Page単位に記録メモリ回収 Lock Lock

try-commit-cancel Race conditionを扱うためにmemory cgroupで使われるテクニックＴｒｙリソースを予約メモリ関連の処理 commit ページ情報の記録成功失敗 cancel

Johannes の改善：lock外し改善前メモリ獲得課金処理（Try+Commit) メモリ管理処理改善後メモリ獲得課金処理(Try) メモリ管理処理課金処理(Commit) 課金処理中に処理する必要のあった競合状態を、処理を2段階に分割することでメモリ管理処理自身が持つロックの中に隠す Lock Lock Lock Lock Lock

ページの解放処理改善 munmap/exit等 free_pgtables() vmaのリストを元に Page tableをscan zap_pte_range() unmapして Page tableをクリア Page一覧を覚える tlb_flush_mmu_free() 覚えておいたページを解放していく。最大1万ページ分くらいをまとめて処理。１実はJohannes のパッチ以前は①の時点で課金を返却していたけど以後は②の時点で返却している。つまり、完全に誰も使わなくなってからのみ課金の返却を行うようにした。これでLockが外れる。２

消えた

ページ回収 Page Active/Inactiveという2つのリストでLRU管理補充ユーザメモリはActiveからファイルはInactive Page Page Page Page Page Active List Inactive List Accessが無ければ Reclaim Access Test Access Test Access有

LRUによるページ回収＋memory cgroup P P P P P P cgroup Active List Inactive List Memory cgroup毎にＬＲＵ(Active/Inactive)を持つシステム全体のＬＲＵは存在しない。

新Global LRU P P P P P P cgroup P P P P P P cgroup P P P P P P cgroup P P P P P P cgroup 現在、システムの GLOBAL LRUは各memory cgroup を巡回してページ回収を行っている Root cgrouｐを起点に Depth First Search (pre-order) でヒエラルキーの木を探索

気になる所 Q)所謂ＬＲＵではないんじゃないの？ A)LRUではない。 Q) Scan 順序は？Ａ）Node を選択 -> Zoneを選択 -> cgroupを巡回Ｑ）全cgroupをscan するの？Ａ）基本的には全cgroupを見て回る－＞cgroupが多い場合、scan量が増える

Global なメモリ回収と memory cgroup limitのメモリ回収の差 Globalな回収 メモリ不足の起きた Node/Zoneからメモリを回収する 公平性の為とか間違ったOOM判断を避けるために全 cgroupをスキャンする Memory Limitによる回収 Round Robinでnode/zoneからメモリ回収 ヒエラルキ上関連するcgroupからメモリを回収する 必要なだけ回収をしたら回収を止める

Vmpressure notify “memory.pressure_level” メモリ回収動作から“メモリの獲得コスト”を予想する Low ：メモリ回収は快調 Medium ：ちょっとかかるかも、swapするかも Critical ：めっちゃ重い、ぶっちゃけ無理 回収できなかったページ数/スキャンしたページ数で予測 512 page回収したら再計算をトリガーする。

今後の強化ポイント(予想) Kernel memory cgroupのメモリ回収処理を追加 Blkio cgroupと連動しての buffered I/Oの制御 Page付帯情報を16バイトから8バイトへ Soft Limit の再実装 Kswapd per memory cgroup …….. 不揮発メモリの扱い？

Cgroupあれこれ-第4回コンテナ型仮想化の情報交換会資料

by KamezawaHiroyuki

on Sep 07, 2014

Statistics

Views

Actions

1 Embed 15

Accessibility

Categories

Upload Details

Usage Rights

Report content

Cgroupあれこれ-第4回コンテナ型仮想化の情報交換会資料 Presentation Transcript