Memperluas kernel dengan eBPF

Extended Berkeley Packet Filter (eBPF) adalah virtual machine dalam kernel yang menjalankan program eBPF yang disediakan pengguna untuk memperluas fungsi kernel. Program ini dapat dihubungkan ke probe atau peristiwa di kernel dan digunakan untuk mengumpulkan statistik kernel, pemantauan, dan proses debug yang berguna. Program dimuat ke dalam kernel menggunakan syscall bpf(2) dan disediakan oleh pengguna sebagai blob biner dari petunjuk mesin eBPF. Sistem build Android memiliki dukungan untuk mengompilasi program C ke eBPF menggunakan sintaksis file build sederhana yang dijelaskan dalam dokumen ini.

Informasi selengkapnya tentang internal dan arsitektur eBPF dapat ditemukan di halaman eBPF Brendan Gregg.

Android menyertakan loader eBPF dan library yang memuat program eBPF pada waktu booting.

Loader BPF Android

Selama booting Android, semua program eBPF yang berada di /system/etc/bpf/ dimuat. Program ini adalah objek biner yang dibuat oleh sistem build Android dari program C dan disertai dengan file Android.bp dalam hierarki sumber Android. Sistem build menyimpan objek yang dihasilkan di /system/etc/bpf, dan objek tersebut menjadi bagian dari image sistem.

Format program C eBPF Android

Program C eBPF harus memiliki format berikut:

#include <bpf_helpers.h>

/* Define one or more maps in the maps section, for example
 * define a map of type array int -> uint32_t, with 10 entries
 */
DEFINE_BPF_MAP(name_of_my_map, ARRAY, int, uint32_t, 10);

/* this also defines type-safe accessors:
 *   value * bpf_name_of_my_map_lookup_elem(&key);
 *   int bpf_name_of_my_map_update_elem(&key, &value, flags);
 *   int bpf_name_of_my_map_delete_elem(&key);
 * as such it is heavily suggested to use lowercase *_map names.
 * Also note that due to compiler deficiencies you cannot use a type
 * of 'struct foo' but must instead use just 'foo'.  As such structs
 * must not be defined as 'struct foo {}' and must instead be
 * 'typedef struct {} foo'.
 */

DEFINE_BPF_PROG("PROGTYPE/PROGNAME", AID_*, AID_*, PROGFUNC)(..args..) {
   <body-of-code
    ... read or write to MY_MAPNAME
    ... do other things
   >
}

LICENSE("GPL"); // or other license

Dalam hal ini:

  • name_of_my_map adalah nama variabel peta Anda. Nama ini memberi tahu loader BPF tentang jenis peta yang akan dibuat dan dengan parameter apa. Definisi struct ini disediakan oleh header bpf_helpers.h yang disertakan.
  • PROGTYPE/PROGNAME mewakili jenis program dan nama program. Jenis program dapat berupa salah satu yang tercantum dalam tabel berikut. Jika jenis program tidak tercantum, tidak ada konvensi penamaan yang ketat untuk program tersebut; nama hanya perlu diketahui oleh proses yang melampirkan program.

  • PROGFUNC adalah fungsi yang, saat dikompilasi, ditempatkan di bagian file yang dihasilkan.

Kprobe Menghubungkan PROGFUNC ke instruksi kernel menggunakan infrastruktur kprobe. PROGNAME harus berupa nama fungsi kernel yang sedang di-kprobe. Lihat dokumentasi kernel kprobe untuk mengetahui informasi selengkapnya tentang kprobes.
tracepoint Mengaitkan PROGFUNC ke tracepoint. PROGNAME harus dalam format SUBSYSTEM/EVENT. Misalnya, bagian tracepoint untuk menambahkan fungsi ke peristiwa pengalihan konteks penjadwal adalah SEC("tracepoint/sched/sched_switch"), dengan sched adalah nama subsistem rekaman aktivitas, dan sched_switch adalah nama peristiwa rekaman aktivitas. Lihat dokumentasi kernel peristiwa trace untuk mengetahui informasi selengkapnya tentang tracepoint.
skfilter Program berfungsi sebagai filter soket jaringan.
schedcls Program berfungsi sebagai pengklasifikasi traffic jaringan.
cgroupskb, cgroupsock Program berjalan setiap kali proses di CGroup membuat socket AF_INET atau AF_INET6.

Jenis tambahan dapat ditemukan di kode sumber Loader.

Misalnya, program myschedtp.c berikut menambahkan informasi tentang PID tugas terbaru yang telah berjalan di CPU tertentu. Program ini mencapai sasarannya dengan membuat peta dan menentukan fungsi tp_sched_switch yang dapat dilampirkan ke peristiwa rekaman aktivitas sched:sched_switch. Untuk mengetahui informasi selengkapnya, lihat Melampirkan program ke tracepoint.

#include <linux/bpf.h>
#include <stdbool.h>
#include <stdint.h>
#include <bpf_helpers.h>

DEFINE_BPF_MAP(cpu_pid_map, ARRAY, int, uint32_t, 1024);

struct switch_args {
    unsigned long long ignore;
    char prev_comm[16];
    int prev_pid;
    int prev_prio;
    long long prev_state;
    char next_comm[16];
    int next_pid;
    int next_prio;
};

DEFINE_BPF_PROG("tracepoint/sched/sched_switch", AID_ROOT, AID_SYSTEM, tp_sched_switch)
(struct switch_args *args) {
    int key;
    uint32_t val;

    key = bpf_get_smp_processor_id();
    val = args->next_pid;

    bpf_cpu_pid_map_update_elem(&key, &val, BPF_ANY);
    return 1; // return 1 to avoid blocking simpleperf from receiving events
}

LICENSE("GPL");

Makro LICENSE digunakan untuk memverifikasi apakah program kompatibel dengan lisensi kernel saat program menggunakan fungsi helper BPF yang disediakan oleh kernel. Tentukan nama lisensi program Anda dalam bentuk string, seperti LICENSE("GPL") atau LICENSE("Apache 2.0").

Format file Android.bp

Agar sistem build Android dapat membuat program .c eBPF, Anda harus membuat entri dalam file Android.bp project. Misalnya, untuk membuat program eBPF C bernama bpf_test.c, buat entri berikut dalam file Android.bp project Anda:

bpf {
    name: "bpf_test.o",
    srcs: ["bpf_test.c"],
    cflags: [
        "-Wall",
        "-Werror",
    ],
}

Entri ini mengompilasi program C yang menghasilkan objek /system/etc/bpf/bpf_test.o. Saat booting, sistem Android akan otomatis memuat program bpf_test.o ke dalam kernel.

File yang tersedia di sysfs

Selama booting, sistem Android akan otomatis memuat semua objek eBPF dari /system/etc/bpf/, membuat peta yang diperlukan program, dan menyematkan program yang dimuat dengan petanya ke sistem file BPF. File ini kemudian dapat digunakan untuk interaksi lebih lanjut dengan program eBPF atau membaca peta. Bagian ini menjelaskan konvensi yang digunakan untuk memberi nama file ini dan lokasinya di sysfs.

File berikut dibuat dan disematkan:

  • Untuk semua program yang dimuat, dengan asumsi PROGNAME adalah nama program dan FILENAME adalah nama file C eBPF, loader Android akan membuat dan menyematkan setiap program di /sys/fs/bpf/prog_FILENAME_PROGTYPE_PROGNAME.

    Misalnya, untuk contoh tracepoint sched_switch sebelumnya di myschedtp.c, file program dibuat dan disematkan ke /sys/fs/bpf/prog_myschedtp_tracepoint_sched_sched_switch.

  • Untuk setiap peta yang dibuat, dengan asumsi MAPNAME adalah nama peta dan FILENAME adalah nama file eBPF C, loader Android akan membuat dan menyematkan setiap peta ke /sys/fs/bpf/map_FILENAME_MAPNAME.

    Misalnya, untuk contoh tracepoint sched_switch sebelumnya di myschedtp.c, file peta dibuat dan disematkan ke /sys/fs/bpf/map_myschedtp_cpu_pid_map.

  • bpf_obj_get() di library BPF Android menampilkan deskriptor file dari file /sys/fs/bpf yang disematkan. Deskripsi file ini dapat digunakan untuk operasi lebih lanjut, seperti membaca peta atau melampirkan program ke tracepoint.

Library BPF Android

Library BPF Android diberi nama libbpf_android.so dan merupakan bagian dari image sistem. Library ini memberi pengguna kemampuan eBPF tingkat rendah yang diperlukan untuk membuat dan membaca peta, membuat probe, tracepoint, dan buffer performa.

Melampirkan program ke tracepoint

Program tracepoint dimuat secara otomatis saat booting. Setelah dimuat, program tracepoint harus diaktifkan menggunakan langkah-langkah berikut:

  1. Panggil bpf_obj_get() untuk mendapatkan program fd dari lokasi file yang disematkan. Untuk informasi selengkapnya, lihat File yang tersedia di sysfs.
  2. Panggil bpf_attach_tracepoint() di library BPF, dengan meneruskan program fd dan nama tracepoint.

Contoh kode berikut menunjukkan cara melampirkan tracepoint sched_switch yang ditentukan dalam file sumber myschedtp.c sebelumnya (pemeriksaan error tidak ditampilkan):

  char *tp_prog_path = "/sys/fs/bpf/prog_myschedtp_tracepoint_sched_sched_switch";
  char *tp_map_path = "/sys/fs/bpf/map_myschedtp_cpu_pid";

  // Attach tracepoint and wait for 4 seconds
  int mProgFd = bpf_obj_get(tp_prog_path);
  int mMapFd = bpf_obj_get(tp_map_path);
  int ret = bpf_attach_tracepoint(mProgFd, "sched", "sched_switch");
  sleep(4);

  // Read the map to find the last PID that ran on CPU 0
  android::bpf::BpfMap<int, int> myMap(mMapFd);
  printf("last PID running on CPU %d is %d\n", 0, myMap.readValue(0));

Membaca dari peta

Peta BPF mendukung struktur atau jenis kunci dan nilai kompleks arbitrer. Library Android BPF menyertakan class android::BpfMap yang menggunakan template C++ untuk membuat instance BpfMap berdasarkan jenis kunci dan nilai untuk peta yang dimaksud. Contoh kode sebelumnya menunjukkan penggunaan BpfMap dengan kunci dan nilai sebagai bilangan bulat. Bilangan bulat juga dapat berupa struktur arbitrer.

Dengan demikian, class BpfMap dengan template memungkinkan Anda menentukan objek BpfMap kustom yang sesuai untuk peta tertentu. Peta kemudian dapat diakses menggunakan fungsi yang dibuat secara kustom, yang mengetahui jenis, sehingga menghasilkan kode yang lebih rapi.

Untuk informasi selengkapnya tentang BpfMap, lihat sumber Android.

Masalah debug

Selama waktu booting, beberapa pesan yang terkait dengan pemuatan BPF akan dicatat. Jika proses pemuatan gagal karena alasan apa pun, pesan log mendetail akan diberikan di logcat. Memfilter log logcat menurut bpf akan mencetak semua pesan dan error mendetail apa pun selama waktu pemuatan, seperti error pemverifikasi eBPF.

Contoh eBPF di Android

Program-program berikut di AOSP memberikan contoh tambahan tentang penggunaan eBPF:

  • Program C eBPF netd digunakan oleh daemon jaringan (netd) di Android untuk berbagai tujuan seperti pemfilteran soket dan pengumpulan statistik. Untuk melihat cara penggunaan program ini, periksa sumber pemantau traffic eBPF.

  • Program C eBPF time_in_state menghitung jumlah waktu yang dihabiskan aplikasi Android pada frekuensi CPU yang berbeda, yang digunakan untuk menghitung daya.

  • Di Android 12, program C eBPF gpu_mem melacak total penggunaan memori GPU untuk setiap proses dan untuk seluruh sistem. Program ini digunakan untuk pembuatan profil memori GPU.