eBPF की मदद से कर्नेल को बड़ा करना

एक्सटेंडेड बर्कले पैकेट फ़िल्टर (eBPF), कर्नल में मौजूद एक वर्चुअल मशीन है. यह कर्नल की सुविधाओं को बढ़ाने के लिए, उपयोगकर्ता के दिए गए eBPF प्रोग्राम चलाती है. इन प्रोग्राम को कर्नल में मौजूद जांच या इवेंट से जोड़ा जा सकता है. इनका इस्तेमाल, कर्नल के काम के आंकड़े इकट्ठा करने, निगरानी करने, और डीबग करने के लिए किया जा सकता है. bpf(2) syscall का इस्तेमाल करके, किसी प्रोग्राम को कर्नल में लोड किया जाता है. इसे उपयोगकर्ता, eBPF मशीन के निर्देशों के बाइनरी blob के तौर पर उपलब्ध कराता है. Android के बिल्ड सिस्टम में, इस दस्तावेज़ में बताए गए बिल्ड फ़ाइल के आसान सिंटैक्स का इस्तेमाल करके, C प्रोग्राम को eBPF में कंपाइल करने की सुविधा है.

eBPF के इंटरनल और आर्किटेक्चर के बारे में ज़्यादा जानकारी, ब्रेंडन ग्रेग के eBPF पेज पर देखी जा सकती है.

Android में, eBPF लोडर और लाइब्रेरी शामिल है. यह बूट होने के समय eBPF प्रोग्राम लोड करती है.

Android BPF लोडर

Android के बूट होने के दौरान, /system/etc/bpf/ पर मौजूद सभी eBPF प्रोग्राम लोड हो जाते हैं. ये प्रोग्राम, बाइनरी ऑब्जेक्ट होते हैं. इन्हें Android के बिल्ड सिस्टम, C प्रोग्राम से बनाता है. ये Android के सोर्स ट्री में Android.bp फ़ाइलों के साथ मौजूद होते हैं. बिल्ड सिस्टम, जनरेट किए गए ऑब्जेक्ट को /system/etc/bpf पर सेव करता है. ये ऑब्जेक्ट, सिस्टम इमेज का हिस्सा बन जाते हैं.

Android eBPF C प्रोग्राम का फ़ॉर्मैट

eBPF C प्रोग्राम का फ़ॉर्मैट यह होना चाहिए:

#include <bpf_helpers.h>

/* Define one or more maps in the maps section, for example
 * define a map of type array int -> uint32_t, with 10 entries
 */
DEFINE_BPF_MAP(name_of_my_map, ARRAY, int, uint32_t, 10);

/* this also defines type-safe accessors:
 *   value * bpf_name_of_my_map_lookup_elem(&key);
 *   int bpf_name_of_my_map_update_elem(&key, &value, flags);
 *   int bpf_name_of_my_map_delete_elem(&key);
 * as such it is heavily suggested to use lowercase *_map names.
 * Also note that due to compiler deficiencies you cannot use a type
 * of 'struct foo' but must instead use just 'foo'.  As such structs
 * must not be defined as 'struct foo {}' and must instead be
 * 'typedef struct {} foo'.
 */

DEFINE_BPF_PROG("PROGTYPE/PROGNAME", AID_*, AID_*, PROGFUNC)(..args..) {
   <body-of-code
    ... read or write to MY_MAPNAME
    ... do other things
   >
}

LICENSE("GPL"); // or other license

यहां:

  • name_of_my_map, आपके मैप वैरिएबल का नाम है. इस नाम से, BPF लोडर को यह पता चलता है कि किस तरह का मैप बनाना है और किन पैरामीटर के साथ. यह struct डेफ़िनिशन, शामिल किए गए bpf_helpers.h हेडर से मिलती है.
  • PROGTYPE/PROGNAME प्रोग्राम का टाइप और प्रोग्राम का नाम दिखाता है. प्रोग्राम का टाइप, यहां दी गई टेबल में से कोई भी हो सकता है. अगर किसी प्रोग्राम का टाइप यहां नहीं दिया गया है, तो प्रोग्राम के लिए नामकरण का कोई तय तरीका नहीं है. बस उस प्रोसेस को नाम पता होना चाहिए जो प्रोग्राम को अटैच करती है.

  • PROGFUNC एक ऐसा फ़ंक्शन है जिसे कंपाइल करने पर, नतीजे के तौर पर मिलने वाली फ़ाइल के किसी सेक्शन में रखा जाता है.

kprobe kprobe इन्फ़्रास्ट्रक्चर का इस्तेमाल करके, कर्नल के किसी निर्देश पर PROGFUNC को हुक करता है. PROGNAME , कर्नल के उस फ़ंक्शन का नाम होना चाहिए जिसे kprobe किया जा रहा है. kprobe के बारे में ज़्यादा जानकारी के लिए, kprobe कर्नल का दस्तावेज़ देखें.
tracepoint PROGFUNC को tracepoint पर हुक करता है. PROGNAME का फ़ॉर्मैट SUBSYSTEM/EVENT होना चाहिए. उदाहरण के लिए, शेड्यूलर कॉन्टेक्स्ट स्विच इवेंट में फ़ंक्शन अटैच करने के लिए, tracepoint सेक्शन SEC("tracepoint/sched/sched_switch") होगा, जहां sched ट्रेस सबसिस्टम का नाम है और sched_switch ट्रेस इवेंट का नाम है. tracepoint के बारे में ज़्यादा जानकारी के लिए, ट्रेस इवेंट कर्नल दस्तावेज़ देखें.
skfilter प्रोग्राम, नेटवर्किंग सॉकेट फ़िल्टर के तौर पर काम करता है.
schedcls प्रोग्राम, नेटवर्किंग ट्रैफ़िक क्लासिफ़ायर के तौर पर काम करता है.
cgroupskb, cgroupsock जब भी किसी CGroup में मौजूद प्रोसेस, AF_INET या AF_INET6 सॉकेट बनाती हैं, तब प्रोग्राम चलता है.

लोडर के सोर्स कोड में, अन्य टाइप देखे जा सकते हैं.

उदाहरण के लिए, यहां दिया गया myschedtp.c प्रोग्राम, उस सीपीयू के पीआईडी के बारे में जानकारी जोड़ता है जिस पर कोई टास्क हाल ही में चला है. यह प्रोग्राम, एक मैप बनाकर और tp_sched_switch फ़ंक्शन को तय करके अपना लक्ष्य हासिल करता है. इसे sched:sched_switch ट्रेस इवेंट से अटैच किया जा सकता है. ज़्यादा जानकारी के लिए, tracepoint में प्रोग्राम अटैच करना लेख पढ़ें.

#include <linux/bpf.h>
#include <stdbool.h>
#include <stdint.h>
#include <bpf_helpers.h>

DEFINE_BPF_MAP(cpu_pid_map, ARRAY, int, uint32_t, 1024);

struct switch_args {
    unsigned long long ignore;
    char prev_comm[16];
    int prev_pid;
    int prev_prio;
    long long prev_state;
    char next_comm[16];
    int next_pid;
    int next_prio;
};

DEFINE_BPF_PROG("tracepoint/sched/sched_switch", AID_ROOT, AID_SYSTEM, tp_sched_switch)
(struct switch_args *args) {
    int key;
    uint32_t val;

    key = bpf_get_smp_processor_id();
    val = args->next_pid;

    bpf_cpu_pid_map_update_elem(&key, &val, BPF_ANY);
    return 1; // return 1 to avoid blocking simpleperf from receiving events
}

LICENSE("GPL");

LICENSE मैक्रो का इस्तेमाल, यह पुष्टि करने के लिए किया जाता है कि प्रोग्राम, कर्नल के लाइसेंस के साथ काम करता है या नहीं. यह तब किया जाता है, जब प्रोग्राम, कर्नल के दिए गए BPF हेल्पर फ़ंक्शन का इस्तेमाल करता है. स्ट्रिंग फ़ॉर्म में, अपने प्रोग्राम के लाइसेंस का नाम डालें. जैसे, LICENSE("GPL") या LICENSE("Apache 2.0").

Android.bp फ़ाइल का फ़ॉर्मैट

Android के बिल्ड सिस्टम को eBPF .c प्रोग्राम बनाने के लिए, आपको प्रोजेक्ट की Android.bp फ़ाइल में एक एंट्री बनानी होगी. उदाहरण के लिए, bpf_test.c नाम का eBPF C प्रोग्राम बनाने के लिए, अपने प्रोजेक्ट की Android.bp फ़ाइल में यह एंट्री करें:

bpf {
    name: "bpf_test.o",
    srcs: ["bpf_test.c"],
    cflags: [
        "-Wall",
        "-Werror",
    ],
}

इस एंट्री से, C प्रोग्राम कंपाइल होता है. इसके बाद, ऑब्जेक्ट /system/etc/bpf/bpf_test.o बनता है. बूट होने पर, Android सिस्टम, bpf_test.o प्रोग्राम को कर्नल में अपने-आप लोड कर लेता है.

sysfs में उपलब्ध फ़ाइलें

बूट होने के दौरान, Android सिस्टम, /system/etc/bpf/ से सभी eBPF ऑब्जेक्ट अपने-आप लोड कर लेता है. साथ ही, उन मैप को बना लेता है जिनकी ज़रूरत प्रोग्राम को होती है. इसके बाद, लोड किए गए प्रोग्राम को उसके मैप के साथ, BPF फ़ाइल सिस्टम में पिन कर देता है. इसके बाद, इन फ़ाइलों का इस्तेमाल, eBPF प्रोग्राम के साथ इंटरैक्ट करने या मैप पढ़ने के लिए किया जा सकता है. इस सेक्शन में, इन फ़ाइलों के नाम रखने और sysfs में उनकी जगह के लिए इस्तेमाल किए जाने वाले तरीकों के बारे में बताया गया है.

ये फ़ाइलें बनाई और पिन की जाती हैं:

  • लोड किए गए किसी भी प्रोग्राम के लिए, मान लें कि PROGNAME प्रोग्राम का नाम है और FILENAME eBPF C फ़ाइल का नाम है. ऐसे में, Android लोडर, हर प्रोग्राम को /sys/fs/bpf/prog_FILENAME_PROGTYPE_PROGNAME पर बनाता और पिन करता है.

    उदाहरण के लिए, पिछले sched_switch tracepoint उदाहरण के लिए myschedtp.c, एक प्रोग्राम फ़ाइल बनाई जाती है और उसे /sys/fs/bpf/prog_myschedtp_tracepoint_sched_sched_switch पर पिन किया जाता है.

  • बनाए गए किसी भी मैप के लिए, मान लें कि MAPNAME मैप का नाम है और FILENAME eBPF C फ़ाइल का नाम है. ऐसे में, Android लोडर, हर मैप को /sys/fs/bpf/map_FILENAME_MAPNAME पर बनाता और पिन करता है.

    उदाहरण के लिए, myschedtp.c में दिए गए sched_switch tracepoint के पिछले उदाहरण के लिए, एक मैप फ़ाइल बनाई जाती है और उसे /sys/fs/bpf/map_myschedtp_cpu_pid_map पर पिन किया जाता है.

  • Android BPF लाइब्रेरी में मौजूद bpf_obj_get(), पिन की गई /sys/fs/bpf फ़ाइल से फ़ाइल डिस्क्रिप्टर दिखाता है. इस फ़ाइल डिस्क्रिप्टर का इस्तेमाल, अन्य कार्रवाइयों के लिए किया जा सकता है. जैसे, मैप पढ़ना या किसी प्रोग्राम को tracepoint से अटैच करना.

Android BPF लाइब्रेरी

Android BPF लाइब्रेरी का नाम libbpf_android.so है. यह सिस्टम इमेज का हिस्सा है. इस लाइब्रेरी में, eBPF की लो-लेवल की वे सुविधाएं मिलती हैं जिनकी ज़रूरत, मैप बनाने और पढ़ने, जांच, tracepoint, और perf बफ़र बनाने के लिए होती है.

tracepoint में प्रोग्राम अटैच करना

tracepoint प्रोग्राम, बूट होने पर अपने-आप लोड हो जाते हैं. लोड होने के बाद, tracepoint प्रोग्राम को इन चरणों का इस्तेमाल करके चालू करना होगा:

  1. पिन की गई फ़ाइल की जगह से प्रोग्राम fd पाने के लिए, bpf_obj_get() को कॉल करें. ज़्यादा जानकारी के लिए, sysfs में उपलब्ध फ़ाइलें लेख पढ़ें.
  2. BPF लाइब्रेरी में bpf_attach_tracepoint() को कॉल करें. इसमें प्रोग्राम fd और tracepoint का नाम पास करें.

यहां दिए गए कोड सैंपल में, myschedtp.c की पिछली सोर्स फ़ाइल में तय किए गए sched_switch tracepoint को अटैच करने का तरीका दिखाया गया है. इसमें गड़बड़ी की जांच नहीं दिखाई गई है:

  char *tp_prog_path = "/sys/fs/bpf/prog_myschedtp_tracepoint_sched_sched_switch";
  char *tp_map_path = "/sys/fs/bpf/map_myschedtp_cpu_pid";

  // Attach tracepoint and wait for 4 seconds
  int mProgFd = bpf_obj_get(tp_prog_path);
  int mMapFd = bpf_obj_get(tp_map_path);
  int ret = bpf_attach_tracepoint(mProgFd, "sched", "sched_switch");
  sleep(4);

  // Read the map to find the last PID that ran on CPU 0
  android::bpf::BpfMap<int, int> myMap(mMapFd);
  printf("last PID running on CPU %d is %d\n", 0, myMap.readValue(0));

मैप से पढ़ना

BPF मैप, जटिल की और वैल्यू स्ट्रक्चर या टाइप के साथ काम करते हैं. Android BPF लाइब्रेरी में, android::BpfMap क्लास शामिल है. यह C++ टेंप्लेट का इस्तेमाल करके, सवाल में मौजूद मैप के लिए की और वैल्यू टाइप के आधार पर BpfMap को इंस्टैंशिएट करती है. पिछले कोड सैंपल में, की और वैल्यू को इंटिजर के तौर पर इस्तेमाल करके, BpfMap का इस्तेमाल करने का तरीका दिखाया गया है. इंटिजर, आर्बिट्ररी स्ट्रक्चर भी हो सकते हैं.

इसलिए, टेंप्लेट वाली BpfMap क्लास की मदद से, किसी खास मैप के लिए, ज़रूरत के हिसाब से BpfMap ऑब्जेक्ट तय किया जा सकता है. इसके बाद, मैप को ज़रूरत के हिसाब से जनरेट किए गए फ़ंक्शन का इस्तेमाल करके ऐक्सेस किया जा सकता है. ये फ़ंक्शन, टाइप के बारे में जानकारी देते हैं. इससे कोड साफ़-सुथरा दिखता है.

BpfMap के बारे में ज़्यादा जानकारी के लिए, Android के सोर्स देखें.

गड़बड़ियाँ ठीक करने के लिए

बूट होने के दौरान, BPF लोडिंग से जुड़े कई मैसेज लॉग किए जाते हैं. अगर लोडिंग की प्रोसेस किसी वजह से पूरी नहीं हो पाती है, तो logcat में पूरी जानकारी वाला लॉग मैसेज दिखता है. bpf के हिसाब से logcat लॉग को फ़िल्टर करने पर, कॉन्टेंट लोड होने में लगने वाले समय के दौरान के सभी मैसेज और पूरी जानकारी वाली गड़बड़ियां दिखती हैं. जैसे, eBPF वेरिफ़ायर की गड़बड़ियां.

Android में eBPF के उदाहरण

AOSP में मौजूद इन प्रोग्राम में, eBPF का इस्तेमाल करने के अन्य उदाहरण दिए गए हैं: