2025 年 3 月 27 日より、AOSP のビルドとコントリビューションには aosp-main ではなく android-latest-release を使用することをおすすめします。詳細については、AOSP の変更をご覧ください。

パフォーマンステスト

Android 8.0 には、binder と hwbinder という、スループットとレイテンシに関するパフォーマンステストが用意されています。パフォーマンスの問題を検出する方法は多数ありますが、実行に時間がかかり、システムが統合されるまで結果が得られないこともあります。提供されているパフォーマンステストを使用すると、開発中のテスト、深刻な問題の早期の検出、ユーザーエクスペリエンスの向上が容易になります。

パフォーマンステストには、次の 4 つのカテゴリがあります。

binder スループット（system/libhwbinder/vts/performance/Benchmark_binder.cpp にあります）
binder レイテンシ（frameworks/native/libs/binder/tests/schd-dbg.cpp にあります）
hwbinder スループット（system/libhwbinder/vts/performance/Benchmark.cpp にあります）
hwbinder レイテンシ（system/libhwbinder/vts/performance/Latency.cpp にあります）

binder と hwbinder について

binder と hwbinder は、同じ Linux ドライバを使用する Android のプロセス間通信（IPC）インフラストラクチャですが、次のような質的な違いがあります。

側面	binder	hwbinder
目的	フレームワークに汎用 IPC スキームを提供する	ハードウェアと通信する
プロパティ	Android フレームワークの使用に最適化	最小のオーバーヘッド、低レイテンシ
フォアグラウンドとバックグラウンドのスケジューリングポリシーの変更	○	×
引数の渡し方	Parcel オブジェクトでサポートされているシリアル化を使用	スキャッターバッファを使用し、Parcel のシリアル化で必要なデータをコピーするためにオーバーヘッドを回避
優先度継承	×	○

binder と hwbinder のプロセス

systrace 可視化ツールを使用すると、次のようにトランザクションが表示されます。

図 1. systrace による binder プロセスの可視化

上に示した例で:

4 つの schd-dbg プロセスは、クライアントプロセスです。
4 つの binder プロセスは、サーバープロセスです。名前の最初が Binder で、最後がシーケンス番号です。
クライアントプロセスは、常にそのクライアント専用のサーバープロセスとペアになっています。
すべてのクライアントとサーバーのプロセスペアには、カーネルによって独立したスケジューリングが並行に行われます。

CPU 1 で、OS カーネルがクライアントを実行してリクエストを発行します。次に、可能なら同じ CPU を使用して、サーバープロセスを起こして、リクエストを処理し、リクエストの完了後にコンテキストスイッチで復帰します。

スループットとレイテンシ

理想的なトランザクションでは、クライアントプロセスとサーバープロセスが隙間を空けずに切り替わるため、スループットテストとレイテンシテストで得られる結果は実質的に同じものとなります。しかし、OS カーネルがハードウェアからの割り込み要求（IRQ）を処理しているとき、ロックで待っているとき、単にメッセージをすぐ処理しないときには、レイテンシバブルが発生します。

図 2. スループットとレイテンシの違いによるレイテンシバブル

スループットテストでは、さまざまなペイロードサイズのトランザクションが多数生成され、通常のトランザクション時間の良い予測値（最もうまくいった場合）と、binder で達成できる最高スループット値が得られます。

一方、レイテンシテストでは、ペイロードに対して通常のトランザクション時間を最小化するための操作を加えることはありません。トランザクション時間を使用して、binder のオーバーヘッドの推定、最悪ケースの統計の作成、レイテンシが指定のデッドラインに達したトランザクションの割合の算出ができます。

優先度逆転を処理する

優先度逆転は、優先度の高いスレッドが優先度の低いスレッドを論理的に待機している場合に発生します。リアルタイム（RT）アプリケーションには、下図のような優先度逆転の問題があります。

図 3. リアルタイムアプリケーションでの優先度逆転

Linux の CFS（Completely Fair Scheduler）スケジューリングを使用する場合、他のスレッドより優先度が低いスレッドにも常に実行の機会が与えられます。そのため、CFS スケジューリングを使用するアプリケーションでは、優先度逆転を想定される動作として扱い、問題としては扱いません。しかし、Android フレームワークで高優先度のスレッドが持つ特権を保証するために RT スケジューリングが必要な場合は、優先度逆転を解決する必要があります。

下図は、binder トランザクション中の優先度逆転の例です。RT スレッドは、binder スレッドが処理するのを待っている間、他の CFS スレッドによって論理的にブロックされます。

図 4. 優先度逆転、ブロックされるリアルタイムスレッド

ブロックを防ぐために、binder スレッドが RT スレッドからのリクエストを処理するときに、優先度継承を使用して、binder スレッドの優先度を一時的に RT スレッドと同じ優先度に上げることができます。RT スケジューリングにはリソース制限があるため、注意して使用する必要があります。CPU が n 個のシステムでは、同時に動作する RT スレッドの最大数も n 個です。それを超える RT スレッドは、すべての CPU で他の RT スレッドが動作している場合、待機する必要があり、デッドラインに間に合わない可能性があります。

優先度逆転が発生するという問題をすべて解決するために、binder と hwbinder の両方で優先度継承を使用できます。しかし、binder はシステム全体で広く使用されているため、binder トランザクションで優先度逆転を有効にすると、システムが処理しきれない数の RT スレッドが発生することになります。

スループットテストを実行する

スループットテストは、binder と hwbinder のトランザクションスループットに対して実行されます。過負荷になっていないシステムでは、レイテンシバブルはほとんどなく、繰り返しの回数が十分である限りその影響はありません。

binder スループットテストは system/libhwbinder/vts/performance/Benchmark_binder.cpp にあります。
hwbinder スループットテストは system/libhwbinder/vts/performance/Benchmark.cpp にあります。

テスト結果

さまざまなペイロードサイズを使用するトランザクションのスループットテストの結果の例を次に示します。

Benchmark                      Time          CPU           Iterations
---------------------------------------------------------------------
BM_sendVec_binderize/4         70302 ns      32820 ns      21054
BM_sendVec_binderize/8         69974 ns      32700 ns      21296
BM_sendVec_binderize/16        70079 ns      32750 ns      21365
BM_sendVec_binderize/32        69907 ns      32686 ns      21310
BM_sendVec_binderize/64        70338 ns      32810 ns      21398
BM_sendVec_binderize/128       70012 ns      32768 ns      21377
BM_sendVec_binderize/256       69836 ns      32740 ns      21329
BM_sendVec_binderize/512       69986 ns      32830 ns      21296
BM_sendVec_binderize/1024      69714 ns      32757 ns      21319
BM_sendVec_binderize/2k        75002 ns      34520 ns      20305
BM_sendVec_binderize/4k        81955 ns      39116 ns      17895
BM_sendVec_binderize/8k        95316 ns      45710 ns      15350
BM_sendVec_binderize/16k      112751 ns      54417 ns      12679
BM_sendVec_binderize/32k      146642 ns      71339 ns       9901
BM_sendVec_binderize/64k      214796 ns     104665 ns       6495

Time は、リアルタイムで測定された往復遅延を示します。
CPU は、CPU がテストにスケジューリングされた累積時間を示します。
Iterations は、テスト関数が実行された回数を示します。

たとえば、8 バイトのペイロードの場合、次のようになります。

BM_sendVec_binderize/8         69974 ns      32700 ns      21296

binder が達成できる最高スループットは次のように算出されます。

8 バイトペイロードの最高スループット =（8 * 21296）/ 69974 ≒ 2.423 b/ns ≒ 2.268 Gb/s

テストオプション

.json 形式で結果を取得するには、次のように --benchmark_format=json 引数を指定してテストを実行します。

libhwbinder_benchmark --benchmark_format=json
{
  "context": {
    "date": "2017-05-17 08:32:47",
    "num_cpus": 4,
    "mhz_per_cpu": 19,
    "cpu_scaling_enabled": true,
    "library_build_type": "release"
  },
  "benchmarks": [
    {
      "name": "BM_sendVec_binderize/4",
      "iterations": 32342,
      "real_time": 47809,
      "cpu_time": 21906,
      "time_unit": "ns"
    },
   ….
}

レイテンシテストを実行する

レイテンシテストでは、クライアントがトランザクションの初期化を開始してから、処理のサーバープロセスに切り替え、結果を受け取るまでの時間を測定します。このテストでは、優先度継承をサポートしない、または同期フラグを無視するスケジューラなど、トランザクションのレイテンシに悪影響を及ぼす既知の不適切なスケジューラの動作の検出も行われます。

binder レイテンシテストは frameworks/native/libs/binder/tests/schd-dbg.cpp にあります。
hwbinder レイテンシテストは system/libhwbinder/vts/performance/Latency.cpp にあります。

テスト結果

結果（.json 形式）には、平均遅延、最長遅延、最短遅延、デッドライン超過の回数に関する統計情報が示されます。

テストオプション

レイテンシテストには、次のオプションがあります。

コマンド	説明
`-i value`	繰り返し回数を指定します。
`-pair value`	プロセスペアの数を指定します。
`-deadline_us 2500`	デッドラインをマイクロ秒単位で指定します。
`-v`	詳細（デバッグ用）出力を表示します。
`-trace`	デッドラインに達したときにトレースを停止します。

以下のセクションでは、各オプションの詳細、使用方法、結果の例を示します。

繰り返しを指定する

繰り返し回数に大きな数を指定し、詳細な出力を無効にした例を次に示します。

libhwbinder_latency -i 5000 -pair 3
{
"cfg":{"pair":3,"iterations":5000,"deadline_us":2500},
"P0":{"SYNC":"GOOD","S":9352,"I":10000,"R":0.9352,
  "other_ms":{ "avg":0.2 , "wst":2.8 , "bst":0.053, "miss":2, "meetR":0.9996},
  "fifo_ms": { "avg":0.16, "wst":1.5 , "bst":0.067, "miss":0, "meetR":1}
},
"P1":{"SYNC":"GOOD","S":9334,"I":10000,"R":0.9334,
  "other_ms":{ "avg":0.19, "wst":2.9 , "bst":0.055, "miss":2, "meetR":0.9996},
  "fifo_ms": { "avg":0.16, "wst":3.1 , "bst":0.066, "miss":1, "meetR":0.9998}
},
"P2":{"SYNC":"GOOD","S":9369,"I":10000,"R":0.9369,
  "other_ms":{ "avg":0.19, "wst":4.8 , "bst":0.055, "miss":6, "meetR":0.9988},
  "fifo_ms": { "avg":0.15, "wst":1.8 , "bst":0.067, "miss":0, "meetR":1}
},
"inheritance": "PASS"
}

これらのテスト結果の意味は次のとおりです。

"pair":3

クライアントとサーバーのペアを 1 個作成します。

"iterations": 5000

5,000 回繰り返した結果が含まれています。

"deadline_us":2500

デッドラインは 2,500 マイクロ秒（2.5 ミリ秒）です。ほとんどのトランザクションはこの値を満たすと想定されます。

"I": 10000

繰り返しの 1 回には、2 回のトランザクションがあります。

通常の優先度（CFS other）でのトランザクションが 1 回
リアルタイム優先度（RT-fifo）でのトランザクション 1 回

5,000 回の繰り返しは、合計 10,000 回のトランザクションに相当します。

"S": 9352

9,352 回のトランザクションが同じ CPU 内に同期されています。

"R": 0.9352

クライアントとサーバーが同じ CPU に同期されている割合を示します。

"other_ms":{ "avg":0.2 , "wst":2.8 , "bst":0.053, "miss":2, "meetR":0.9996}

通常優先度の呼び出し元により発行されたすべてのトランザクションの平均（avg）、最長（wst）、最短（bst）のケースです。2 回のトランザクションがデッドラインを miss（超過）したため、デッドラインの遵守率（meetR）は 0.9996 となります。

"fifo_ms": { "avg":0.16, "wst":1.5 , "bst":0.067, "miss":0, "meetR":1}

rt_fifo 優先度のクライアントにより発行されたトランザクションということ以外は、other_ms と同様です。常にではありませんが、fifo_ms の方が other_ms よりも良い結果になります。具体的には、avg と wst の値が小さく、meetR が大きくなります（バックグラウンドの負荷が大きいほど差が大きくなります）。

注: バックグラウンドでの負荷が、スループットの結果とレイテンシテストの other_ms の値に影響する可能性があります。fifo_ms だけは、バックグラウンドの負荷の優先度が RT-fifo 優先度より低い場合に限り、同じような結果になります。

ペア数を指定する

各クライアントプロセスは、そのクライアント専用のサーバープロセスとペアにされ、各ペアは任意の CPU に対して独立してスケジューリングされます。ただし、SYNC フラグが honor である限り、CPU の移行は発生しません。

システムが過負荷にならないようにしてください。過負荷なシステムでは大きなレイテンシが予想されますが、過負荷なシステムのテスト結果から有用な情報は得られません。システムに強いストレスを与えてテストする場合は、-pair #cpu-1（または -pair #cpu を注意して）使用してください。-pair n と n > #cpu を併用してテストすると、システムが過負荷になり、生成される情報は有用性が損なわれます。

デッドライン値を指定する

広範なユーザーシナリオでのテスト（認定済み製品でレイテンシテストを実行）の結果、2.5 ミリ秒のデッドラインが必要だとわかりました。より高い要件のある新しいアプリケーション（1 秒あたり 1,000 枚の写真など）では、このデッドライン値は異なります。

詳細な出力を指定する

-v オプションを使用すると、詳細な出力が表示されます。例:

libhwbinder_latency -i 1 -v

--------------------------------------------------
service      pid: 8674 tid: 8674 cpu: 1
SCHED_OTHER 0
--------------------------------------------------
main         pid: 8673 tid: 8673 cpu: 1

--------------------------------------------------
client       pid: 8677 tid: 8677 cpu: 0
SCHED_OTHER 0

--------------------------------------------------
fifo-caller  pid: 8677 tid: 8678 cpu: 0
SCHED_FIFO  99

--------------------------------------------------
hwbinder     pid: 8674 tid: 8676 cpu: 0
???         99
--------------------------------------------------
other-caller pid: 8677 tid: 8677 cpu: 0
SCHED_OTHER 0

--------------------------------------------------
hwbinder     pid: 8674 tid: 8676 cpu: 0
SCHED_OTHER 0

サービススレッドは、SCHED_OTHER 優先度で作成され、CPU:1 の pid 8674 で実行されています。
次に、最初のトランザクションが、fifo-caller によって開始されます。このトランザクションを処理するために、hwbinder はサーバー（pid: 8674 tid: 8676）の優先度を 99 に上げ、一時的なスケジューリングクラスであるとしてマークを付けます（??? と表示）。次に、スケジューラがサーバープロセスを CPU:0 に移動して動作し、クライアントと同じ CPU に同期します。
2 番目のトランザクションの呼び出し元の優先度は、SCHED_OTHER です。サーバーは自身の優先度を下げ、呼び出し元に SCHED_OTHER 優先度を与えます。

トレースを使用してデバッグする

-trace オプションを指定して、レイテンシの問題をデバッグできます。これを使用すると、レイテンシテストは、好ましくないレイテンシが検出された時点でトレースログの記録を停止します。例:

atrace --async_start -b 8000 -c sched idle workq binder_driver sync freq
libhwbinder_latency -deadline_us 50000 -trace -i 50000 -pair 3
deadline triggered: halt ∓ stop trace
log:/sys/kernel/debug/tracing/trace

レイテンシに影響を与える可能性があるのは、次のコンポーネントです。

Android のビルドモード: 通常、eng モードは userdebug モードよりも遅くなります。
フレームワーク: フレームワークサービスが binder を設定する際の ioctl の使用方法が影響します。
binder ドライバ: ドライバが細粒度ロックをサポートしているかを確認してください。パフォーマンスを改善するパッチをすべて適用しているかを確認してください。
カーネルバージョン: カーネルのリアルタイム対応が進んでいるほど、良い結果が得られます。
カーネル構成: カーネル構成に DEBUG_PREEMPT や DEBUG_SPIN_LOCK などの DEBUG 構成がないかを確認してください。
カーネルスケジューラ: カーネルに、Energy-Aware Scheduler（EAS）スケジューラ、あるいは Heterogeneous Multi-Processing（HMP）スケジューラがあるか確認してください。cpu-freq ドライバ、cpu-idle ドライバ、cpu-hotplug などのカーネルドライバがスケジューラに影響を与えていないかを確認してください。

パフォーマンス テスト コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

binder と hwbinder について

binder と hwbinder のプロセス

スループットとレイテンシ

優先度逆転を処理する

スループット テストを実行する

テスト結果

テスト オプション

レイテンシ テストを実行する

テスト結果

テスト オプション

繰り返しを指定する

ペア数を指定する

デッドライン値を指定する

詳細な出力を指定する

トレースを使用してデバッグする

パフォーマンステスト

スループットテストを実行する

テストオプション

レイテンシテストを実行する

テストオプション