eBPF के साथ कर्नेल को बढ़ाएं

एक्सटेंडेड बर्कले पैकेट फ़िल्टर (eBPF), एक इन-कर्नल वर्चुअल मशीन है. यह उपयोगकर्ता से मिले eBPF प्रोग्राम को चलाकर, कर्नल की सुविधाओं को बेहतर बनाती है. इन प्रोग्राम को, कोर में मौजूद प्रोब या इवेंट से जोड़ा जा सकता है. साथ ही, इनका इस्तेमाल कोर के काम के आंकड़े इकट्ठा करने, उसे मॉनिटर करने, और डीबग करने के लिए किया जा सकता है. bpf(2) सिस्टम कॉल का इस्तेमाल करके, किसी प्रोग्राम को कर्नेल में लोड किया जाता है. उपयोगकर्ता, इसे eBPF मशीन निर्देशों के बाइनरी ब्लॉब के तौर पर उपलब्ध कराता है. Android बिल्ड सिस्टम में, इस दस्तावेज़ में बताए गए सिंपल बिल्ड फ़ाइल सिंटैक्स का इस्तेमाल करके, C प्रोग्राम को eBPF में कंपाइल करने की सुविधा है.

eBPF के इंटरनल और आर्किटेक्चर के बारे में ज़्यादा जानकारी के लिए, ब्रेंडन ग्रेग के eBPF पेज पर जाएं.

Android में एक eBPF लोडर और लाइब्रेरी शामिल होती है, जो बूट के समय eBPF प्रोग्राम लोड करती है.

Android BPF लोडर

Android बूट होने के दौरान, /system/etc/bpf/ में मौजूद सभी eBPF प्रोग्राम लोड हो जाते हैं. ये प्रोग्राम, C प्रोग्राम से Android बिल्ड सिस्टम के ज़रिए बनाए गए बाइनरी ऑब्जेक्ट होते हैं. साथ ही, Android सोर्स ट्री में इनके साथ Android.bp फ़ाइलें भी होती हैं. जनरेट किए गए ऑब्जेक्ट को बिल्ड सिस्टम, /system/etc/bpf में सेव करता है. साथ ही, ये ऑब्जेक्ट सिस्टम इमेज का हिस्सा बन जाते हैं.

Android eBPF C प्रोग्राम का फ़ॉर्मैट

eBPF C प्रोग्राम का फ़ॉर्मैट इस तरह का होना चाहिए:

#include <bpf_helpers.h>

/* Define one or more maps in the maps section, for example
 * define a map of type array int -> uint32_t, with 10 entries
 */
DEFINE_BPF_MAP(name_of_my_map, ARRAY, int, uint32_t, 10);

/* this also defines type-safe accessors:
 *   value * bpf_name_of_my_map_lookup_elem(&key);
 *   int bpf_name_of_my_map_update_elem(&key, &value, flags);
 *   int bpf_name_of_my_map_delete_elem(&key);
 * as such it is heavily suggested to use lowercase *_map names.
 * Also note that due to compiler deficiencies you cannot use a type
 * of 'struct foo' but must instead use just 'foo'.  As such structs
 * must not be defined as 'struct foo {}' and must instead be
 * 'typedef struct {} foo'.
 */

DEFINE_BPF_PROG("PROGTYPE/PROGNAME", AID_*, AID_*, PROGFUNC)(..args..) {
   <body-of-code
    ... read or write to MY_MAPNAME
    ... do other things
   >
}

LICENSE("GPL"); // or other license

कहाँ:

  • name_of_my_map आपके मैप वैरिएबल का नाम है. इस नाम से, बीपीएफ़ लोडर को यह पता चलता है कि किस तरह का मैप बनाना है और किन पैरामीटर के साथ बनाना है. निर्देश की यह परिभाषा, शामिल किए गए bpf_helpers.h हेडर से मिली है.
  • PROGTYPE/PROGNAME, प्रोग्राम का टाइप और प्रोग्राम का नाम दिखाता है. प्रोग्राम का टाइप, नीचे दी गई टेबल में बताए गए किसी भी टाइप का हो सकता है. अगर किसी तरह का प्रोग्राम सूची में शामिल नहीं है, तो प्रोग्राम के नाम के लिए कोई ज़रूरी नियम नहीं है. प्रोग्राम को जोड़ने वाली प्रोसेस को नाम पता होना चाहिए.

  • PROGFUNC एक ऐसा फ़ंक्शन है जिसे कंपाइल करने पर, उसे नतीजे वाली फ़ाइल के सेक्शन में रखा जाता है.

केप्रोब PROGFUNC को, kprobe इन्फ़्रास्ट्रक्चर का इस्तेमाल करके, kernel निर्देश पर हुक किया जाता है. PROGNAME, उस कर्नेल फ़ंक्शन का नाम होना चाहिए जिसे kprobe किया जा रहा है. kprobes के बारे में ज़्यादा जानकारी के लिए, kprobe kernel दस्तावेज़ देखें.
tracepoint PROGFUNC को ट्रैसपॉइंट पर हुक करता है. PROGNAME, SUBSYSTEM/EVENT फ़ॉर्मैट में होना चाहिए. उदाहरण के लिए, शेड्यूलर कॉन्टेक्स्ट स्विच इवेंट में फ़ंक्शन अटैच करने के लिए, ट्रैकपॉइंट सेक्शन SEC("tracepoint/sched/sched_switch") होगा. इसमें sched, ट्रैक सबसिस्टम का नाम है और sched_switch, ट्रैक इवेंट का नाम है. ट्रेसपॉइंट के बारे में ज़्यादा जानकारी के लिए, ट्रेस इवेंट कर्नेल दस्तावेज़ देखें.
skfilter प्रोग्राम, नेटवर्किंग सॉकेट फ़िल्टर के तौर पर काम करता है.
शेड्यूल की गई सेल यह प्रोग्राम, नेटवर्किंग ट्रैफ़िक को अलग-अलग कैटगरी में बांटने वाले टूल के तौर पर काम करता है.
cgroupskb, cgroupsock जब भी CGroup में मौजूद प्रोसेस, AF_INET या AF_INET6 स्लॉट बनाती हैं, तब यह प्रोग्राम चलता है.

लोडर के सोर्स कोड में, अन्य टाइप देखे जा सकते हैं.

उदाहरण के लिए, नीचे दिया गया myschedtp.c प्रोग्राम, किसी खास सीपीयू पर चलाए गए नए टास्क के पीआईडी के बारे में जानकारी जोड़ता है. यह प्रोग्राम, मैप बनाकर और tp_sched_switch फ़ंक्शन तय करके अपना लक्ष्य हासिल करता है. इस फ़ंक्शन को sched:sched_switch ट्रेस इवेंट से अटैच किया जा सकता है. ज़्यादा जानकारी के लिए, ट्रैसपॉइंट से प्रोग्राम अटैच करना लेख पढ़ें.

#include <linux/bpf.h>
#include <stdbool.h>
#include <stdint.h>
#include <bpf_helpers.h>

DEFINE_BPF_MAP(cpu_pid_map, ARRAY, int, uint32_t, 1024);

struct switch_args {
    unsigned long long ignore;
    char prev_comm[16];
    int prev_pid;
    int prev_prio;
    long long prev_state;
    char next_comm[16];
    int next_pid;
    int next_prio;
};

DEFINE_BPF_PROG("tracepoint/sched/sched_switch", AID_ROOT, AID_SYSTEM, tp_sched_switch)
(struct switch_args *args) {
    int key;
    uint32_t val;

    key = bpf_get_smp_processor_id();
    val = args->next_pid;

    bpf_cpu_pid_map_update_elem(&key, &val, BPF_ANY);
    return 1; // return 1 to avoid blocking simpleperf from receiving events
}

LICENSE("GPL");

LICENSE मैक्रो का इस्तेमाल, इस बात की पुष्टि करने के लिए किया जाता है कि प्रोग्राम, kernel के लाइसेंस के साथ काम करता है या नहीं. ऐसा तब होता है, जब प्रोग्राम, kernel के दिए गए BPF हेल्पर फ़ंक्शन का इस्तेमाल करता है. स्ट्रिंग के तौर पर अपने प्रोग्राम के लाइसेंस का नाम बताएं, जैसे कि LICENSE("GPL") या LICENSE("Apache 2.0").

Android.bp फ़ाइल का फ़ॉर्मैट

Android बिल्ड सिस्टम को eBPF .c प्रोग्राम बनाने के लिए, आपको प्रोजेक्ट की Android.bp फ़ाइल में एक एंट्री बनानी होगी. उदाहरण के लिए, bpf_test.c नाम का eBPF C प्रोग्राम बनाने के लिए, अपने प्रोजेक्ट की Android.bp फ़ाइल में यह एंट्री करें:

bpf {
    name: "bpf_test.o",
    srcs: ["bpf_test.c"],
    cflags: [
        "-Wall",
        "-Werror",
    ],
}

यह एंट्री, C प्रोग्राम को कंपाइल करती है, जिससे ऑब्जेक्ट /system/etc/bpf/bpf_test.o बनता है. Android सिस्टम, बूट होने पर bpf_test.o प्रोग्राम को अपने-आप कर्नेल में लोड करता है.

sysfs में उपलब्ध फ़ाइलें

चालू होने के दौरान, Android सिस्टम /system/etc/bpf/ से सभी eBPF ऑब्जेक्ट अपने-आप लोड करता है और प्रोग्राम के लिए ज़रूरी मैप बनाता है. साथ ही, लोड किए गए प्रोग्राम को मैप के साथ BPF फ़ाइल सिस्टम में पिन कर देता है. इसके बाद, इन फ़ाइलों का इस्तेमाल, eBPF प्रोग्राम के साथ इंटरैक्ट करने या मैप पढ़ने के लिए किया जा सकता है. इस सेक्शन में, sysfs में इन फ़ाइलों के नाम और उनकी जगहों के लिए इस्तेमाल किए गए कॉन्वेंशन के बारे में बताया गया है.

ये फ़ाइलें बनाई और पिन की जाती हैं:

  • लोड किए गए किसी भी प्रोग्राम के लिए, मान लें कि PROGNAME प्रोग्राम का नाम है और FILENAME eBPF C फ़ाइल का नाम है. ऐसे में, Android लोडर हर प्रोग्राम को /sys/fs/bpf/prog_FILENAME_PROGTYPE_PROGNAME पर बनाता है और पिन करता है.

    उदाहरण के लिए, myschedtp.c में पिछले sched_switch ट्रेसपॉइंट के उदाहरण के लिए, एक प्रोग्राम फ़ाइल बनाई जाती है और /sys/fs/bpf/prog_myschedtp_tracepoint_sched_sched_switch पर पिन की जाती है.

  • मान लें कि MAPNAME मैप का नाम है और FILENAME eBPF C फ़ाइल का नाम है. ऐसे में, Android लोडर हर मैप को /sys/fs/bpf/map_FILENAME_MAPNAME पर बनाता है और पिन करता है.

    उदाहरण के लिए, myschedtp.c में दिए गए पिछले sched_switch ट्रेसपॉइंट के उदाहरण के लिए, एक मैप फ़ाइल बनाई जाती है और उसे /sys/fs/bpf/map_myschedtp_cpu_pid_map पर पिन किया जाता है.

  • Android BPF लाइब्रेरी में bpf_obj_get(), पिन की गई /sys/fs/bpf फ़ाइल से फ़ाइल डिस्क्रिप्टर दिखाता है. इस फ़ाइल डिस्क्रिप्टर का इस्तेमाल, आगे के ऑपरेशन के लिए किया जा सकता है. जैसे, मैप पढ़ना या किसी प्रोग्राम को ट्रैसपॉइंट से अटैच करना.

Android BPF लाइब्रेरी

Android BPF लाइब्रेरी का नाम libbpf_android.so है और यह सिस्टम इमेज का हिस्सा है. इस लाइब्रेरी की मदद से, उपयोगकर्ता को मैप बनाने और पढ़ने, प्रोब, ट्रेसपॉइंट, और परफ़ॉर्मेंस बफ़र बनाने के लिए, कम-लेवल की eBPF सुविधाएं मिलती हैं.

प्रोग्राम को ट्रेसपॉइंट से अटैच करना

ट्रैकपॉइंट प्रोग्राम, बूट होने पर अपने-आप लोड हो जाते हैं. लोड होने के बाद, ट्रैसपॉइंट प्रोग्राम को चालू करने के लिए यह तरीका अपनाएं:

  1. पिन की गई फ़ाइल की जगह से प्रोग्राम fd पाने के लिए, bpf_obj_get() को कॉल करें. ज़्यादा जानकारी के लिए, sysfs में उपलब्ध फ़ाइलें देखें.
  2. BPF लाइब्रेरी में bpf_attach_tracepoint() को कॉल करें. इसके लिए, प्रोग्रामfd और ट्रैसपॉइंट का नाम दें.

नीचे दिए गए कोड सैंपल में, पिछली myschedtp.c सोर्स फ़ाइल में तय किए गए sched_switch ट्रैसपॉइंट को अटैच करने का तरीका बताया गया है. गड़बड़ी की जांच नहीं दिखाई गई है:

  char *tp_prog_path = "/sys/fs/bpf/prog_myschedtp_tracepoint_sched_sched_switch";
  char *tp_map_path = "/sys/fs/bpf/map_myschedtp_cpu_pid";

  // Attach tracepoint and wait for 4 seconds
  int mProgFd = bpf_obj_get(tp_prog_path);
  int mMapFd = bpf_obj_get(tp_map_path);
  int ret = bpf_attach_tracepoint(mProgFd, "sched", "sched_switch");
  sleep(4);

  // Read the map to find the last PID that ran on CPU 0
  android::bpf::BpfMap<int, int> myMap(mMapFd);
  printf("last PID running on CPU %d is %d\n", 0, myMap.readValue(0));

मैप से पढ़ें

बीपीएफ़ मैप, किसी भी तरह के जटिल की और वैल्यू के स्ट्रक्चर या टाइप के साथ काम करते हैं. Android BPF लाइब्रेरी में एक android::BpfMap क्लास शामिल है. यह मैप में की गई कुंजी और वैल्यू टाइप के आधार पर, BpfMap को इंस्टैंशिएट करने के लिए C++ टेंप्लेट का इस्तेमाल करती है. पिछले कोड सैंपल में, कुंजी और वैल्यू वाले BpfMap को पूर्णांक के तौर पर इस्तेमाल करने का तरीका बताया गया है. इंटीजर, आर्बिट्रेरी स्ट्रक्चर भी हो सकते हैं.

इस तरह, टेंप्लेट वाली BpfMap क्लास की मदद से, किसी खास मैप के लिए कस्टम BpfMap ऑब्जेक्ट तय किया जा सकता है. इसके बाद, कस्टम जनरेट किए गए फ़ंक्शन का इस्तेमाल करके मैप को ऐक्सेस किया जा सकता है. ये फ़ंक्शन टाइप के बारे में जानते हैं. इस वजह से, कोड बेहतर बनता है.

BpfMap के बारे में ज़्यादा जानकारी के लिए, Android के सोर्स देखें.

समस्याओं को डीबग करना

बूट के दौरान, BPF लोडिंग से जुड़े कई मैसेज लॉग होते हैं. अगर किसी वजह से, डाउनलोड करने की प्रोसेस पूरी नहीं हो पाती है, तो logcat में ज़्यादा जानकारी वाला लॉग मैसेज दिया जाता है. लॉगकैट लॉग को bpf के हिसाब से फ़िल्टर करने पर, सभी मैसेज प्रिंट हो जाएंगे. साथ ही, लोड होने के दौरान ज़्यादा जानकारी वाली गड़बड़ियां प्रिंट हो जाएंगी. जैसे, eBPF की पुष्टि करने वाली गड़बड़ियां.

Android में eBPF के उदाहरण

AOSP में मौजूद ये प्रोग्राम, eBPF का इस्तेमाल करने के अन्य उदाहरण देते हैं:

  • netd eBPF C प्रोग्राम का इस्तेमाल, Android में नेटवर्किंग डेमन (netd) कई कामों के लिए करता है. जैसे, सॉकेट फ़िल्टर करना और आंकड़े इकट्ठा करना. इस प्रोग्राम का इस्तेमाल कैसे किया जाता है, यह जानने के लिए eBPF ट्रैफ़िक मॉनिटर सोर्स देखें.

  • time_in_state eBPF C प्रोग्राम, यह हिसाब लगाता है कि कोई Android ऐप्लिकेशन, सीपीयू की अलग-अलग फ़्रीक्वेंसी पर कितना समय बिताता है. इसका इस्तेमाल, बिजली की खपत का हिसाब लगाने के लिए किया जाता है.

  • Android 12 में, gpu_mem eBPF C program हर प्रोसेस और पूरे सिस्टम के लिए, जीपीयू मेमोरी के कुल इस्तेमाल को ट्रैक करता है. इस प्रोग्राम का इस्तेमाल जीपीयू मेमोरी प्रोफ़ाइलिंग के लिए किया जाता है.