Monitorowanie stanu systemu

Proces watchdog monitoruje stan usług dostawcy i usługi VHAL oraz przerywa wszystkie nieprawidłowe procesy. Gdy proces nieprawidłowej pracy zostanie zakończony, Watchdog przekazuje stan procesu do /data/anr, tak jak w przypadku innych zrzutów Aplikacja nie odpowiada (ANR). Ułatwia to proces debugowania.

Monitorowanie stanu usług dostawcy

Usługi dostawców są monitorowane zarówno po stronie natywnej, jak i po stronie Java. Dla dostawcy usługa, która ma być monitorowana, musi zarejestrować proces kontroli stanu w aplikacji Watchdog, określając wstępnie zdefiniowany czas oczekiwania. Watchdog monitoruje stan zarejestrowanego procesu kontroli stanu, wysyłając do niego pingi w odstępach czasowych określonych podczas rejestracji. W przypadku pingu nie odpowiada w wyznaczonym czasie, proces jest uznawany za zły.

Monitorowanie stanu usług natywnych

Określ plik tworzenia pliku watchdog AIDL

  1. Uwzględnij carwatchdog_aidl_interface-ndk_platform w shared_libs.

    Android.bp

    cc_binary {
        name: "sample_native_client",
        srcs: [
            "src/*.cpp"
        ],
        shared_libs: [
            "carwatchdog_aidl_interface-ndk_platform",
            "libbinder_ndk",
        ],
        vendor: true,
    }

Dodaj zasadę SELinux

  1. Aby dodać zasadę SELinux, zezwól domenie usługi dostawcy na używanie powiązania (makro binder_use) i dodaj domenę usługi dostawcy do pola Domena klienta: carwatchdog (makro carwatchdog_client_domain). Zobacz ten kod dla sample_client.te i file_contexts:

    sample_client.te

    type sample_client, domain;
    type sample_client_exec, exec_type, file_type, vendor_file_type;
    
    carwatchdog_client_domain(sample_client)
    
    init_daemon_domain(sample_client)
    binder_use(sample_client)

    file_contexts

    /vendor/bin/sample_native_client  u:object_r:sample_client_exec:s0

Wdrażanie klasy klienta przez dziedziczenie klasy BnCarWatchdogClient

  1. Przeprowadź kontrolę stanu w checkIfAlive. Jedną z opcji jest opublikowanie do obsługi pętli wątków. Jeśli wszystko jest w porządku, zadzwoń pod ICarWatchdog::tellClientAlive. Zobacz ten kod dla SampleNativeClient.h i SampleNativeClient.cpp:

    SampleNativeClient.h

    class SampleNativeClient : public BnCarWatchdogClient {
    public:
        ndk::ScopedAStatus checkIfAlive(int32_t sessionId, TimeoutLength
            timeout) override;
        ndk::ScopedAStatus prepareProcessTermination() override;
        void initialize();
    
    private:
        void respondToDaemon();
    private:
        ::android::sp<::android::Looper> mHandlerLooper;
        std::shared_ptr<ICarWatchdog> mWatchdogServer;
        std::shared_ptr<ICarWatchdogClient> mClient;
        int32_t mSessionId;
    };

    SampleNativeClient.cpp

    ndk::ScopedAStatus WatchdogClient::checkIfAlive(int32_t sessionId, TimeoutLength timeout) {
        mHandlerLooper->removeMessages(mMessageHandler,
            WHAT_CHECK_ALIVE);
        mSessionId = sessionId;
        mHandlerLooper->sendMessage(mMessageHandler,
            Message(WHAT_CHECK_ALIVE));
        return ndk::ScopedAStatus::ok();
    }
    // WHAT_CHECK_ALIVE triggers respondToDaemon from thread handler
    void WatchdogClient::respondToDaemon() {
      // your health checking method here
      ndk::ScopedAStatus status = mWatchdogServer->tellClientAlive(mClient,
            mSessionId);
    }

Rozpoczynanie wątku powiązania i rejestrowanie klienta

Nazwa interfejsu demona watchdoga to android.automotive.watchdog.ICarWatchdog/default

  1. Wyszukaj demona o nazwie ICarWatchdog::registerClient i go wywołaj. Zobacz ten kod dla main.cpp i SampleNativeClient.cpp:

    main.cpp

    int main(int argc, char** argv) {
        sp<Looper> looper(Looper::prepare(/*opts=*/0));
    
        ABinderProcess_setThreadPoolMaxThreadCount(1);
        ABinderProcess_startThreadPool();
        std::shared_ptr<SampleNativeClient> client =
            ndk::SharedRefBase::make<SampleNatvieClient>(looper);
    
        // The client is registered in initialize()
        client->initialize();
        ...
    }

    SampleNativeClient.cpp

    void SampleNativeClient::initialize() {
        ndk::SpAIBinder binder(AServiceManager_getService(
            "android.automotive.watchdog.ICarWatchdog/default"));
        std::shared_ptr<ICarWatchdog> server =
            ICarWatchdog::fromBinder(binder);
        mWatchdogServer = server;
        ndk::SpAIBinder binder = this->asBinder();
        std::shared_ptr<ICarWatchdogClient> client =
            ICarWatchdogClient::fromBinder(binder)
        mClient = client;
        server->registerClient(client, TimeoutLength::TIMEOUT_NORMAL);
    }

Monitorowanie stanu usługi Java

Wdrażanie klienta przez dziedziczenie CarWatchdogClientCallback

  1. Zmodyfikuj nowy plik w ten sposób:
    private final CarWatchdogClientCallback mClientCallback = new CarWatchdogClientCallback() {
        @Override
        public boolean onCheckHealthStatus(int sessionId, int timeout) {
            // Your health check logic here
            // Returning true implies the client is healthy
            // If false is returned, the client should call
            // CarWatchdogManager.tellClientAlive after health check is
            // completed
        }
    
        @Override
        public void onPrepareProcessTermination() {}
    };

Rejestrowanie klienta

  1. Zadzwoń do firmy CarWatchdogManager.registerClient():
    private void startClient() {
        CarWatchdogManager manager =
            (CarWatchdogManager) car.getCarManager(
            Car.CAR_WATCHDOG_SERVICE);
        // Choose a proper executor according to your health check method
        ExecutorService executor = Executors.newFixedThreadPool(1);
        manager.registerClient(executor, mClientCallback,
            CarWatchdogManager.TIMEOUT_NORMAL);
    }

Wyrejestruj klienta

  1. Po zakończeniu usługi zadzwoń pod numer CarWatchdogManager.unregisterClient():
    private void finishClient() {
        CarWatchdogManager manager =
            (CarWatchdogManager) car.getCarManager(
            Car.CAR_WATCHDOG_SERVICE);
        manager.unregisterClient(mClientCallback);
    }

Monitorowanie stanu VHAL

W przeciwieństwie do monitorowania stanu usługi dostawcy Watchdog monitoruje stan usługi VHAL, subskrybując usługę VHAL_HEARTBEAT pojazdu. Watchdog oczekuje, że wartość tej właściwości będzie aktualizowana co N sekund. Jeśli pakiet podtrzymujący nie zostanie zaktualizowany przed upływem tego czasu oczekiwania, Watchdog zakończy działanie VHAL posprzedażna.

Uwaga: Watchdog monitoruje stan usługi VHAL tylko wtedy, gdy usługa VHAL obsługuje właściwość pojazdu VHAL_HEARTBEAT.

Wewnętrzna implementacja VHAL może się różnić w zależności od dostawcy. Użyj tych przykładów kodu jako odniesień.

  1. Zarejestruj właściwość pojazdu VHAL_HEARTBEAT.

    Podczas uruchamiania usługi VHAL zarejestruj właściwość VHAL_HEARTBEAT pojazdu. W przykładzie poniżej element unordered_map, który mapuje identyfikator usługi na konfigurację, jest używany do przechowywania wszystkich obsługiwanych konfiguracji. Konfiguracja VHAL_HEARTBEAT jest dodawana do mapy, aby po przesłaniu zapytania o VHAL_HEARTBEAT zwracać odpowiednią konfigurację.

    void registerVhalHeartbeatProperty() {
            const VehiclePropConfig config = {
                    .prop = toInt(VehicleProperty::VHAL_HEARTBEAT),
                    .access = VehiclePropertyAccess::READ,
                    .changeMode = VehiclePropertyChangeMode::ON_CHANGE,
            };
           // mConfigsById is declared as std::unordered_map<int32_t, VehiclePropConfig>.
           mConfigsById[config.prop] = config;
    }
  2. Zaktualizuj właściwość pojazdu VHAL_HEARTBEAT.

    Na podstawie częstotliwości kontroli stanu VHAL (wyjaśniono w Określ częstotliwość kontroli stanu VHAL"), aktualizuj właściwość pojazdu VHAL_HEARTBEAT co N sekund. Można to zrobić na przykład przez wywołanie funkcji RecurrentTimer. który sprawdza stan VHAL i aktualizuje pojazd VHAL_HEARTBEAT w ramach limitu czasu.

    Poniżej znajduje się przykładowa implementacja korzystająca z funkcji RecurrentTimer:

    int main(int argc, char** argv) {
            RecurrentTimer recurrentTimer(updateVhalHeartbeat);
            recurrentTimer.registerRecurrentEvent(kHeartBeatIntervalNs,
                                               static_cast<int32_t>(VehicleProperty::VHAL_HEARTBEAT));
             Run service 
            recurrentTimer.unregisterRecurrentEvent(
                    static_cast<int32_t>(VehicleProperty::VHAL_HEARTBEAT));
    }
    
    void updateVhalHeartbeat(const std::vector<int32_t>& cookies) {
           for (int32_t property : cookies) {
                  if (property != static_cast<int32_t>(VehicleProperty::VHAL_HEARTBEAT)) {
                         continue;
                  }
    
                  // Perform internal health checking such as retrieving a vehicle property to ensure
                  // the service is responsive.
                  doHealthCheck();
    
                  // Construct the VHAL_HEARTBEAT property with system uptime.
                  VehiclePropValuePool valuePool;
                  VehicleHal::VehiclePropValuePtr propValuePtr = valuePool.obtainInt64(uptimeMillis());
                  propValuePtr->prop = static_cast<int32_t>(VehicleProperty::VHAL_HEARTBEAT);
                  propValuePtr->areaId = 0;
                  propValuePtr->status = VehiclePropertyStatus::AVAILABLE;
                  propValuePtr->timestamp = elapsedRealtimeNano();
    
                  // Propagate the HAL event.
                  onHalEvent(std::move(propValuePtr));
           }
    }
  3. (Opcjonalnie) Określ częstotliwość kontroli stanu VHAL.

    Właściwość produktu ro.carwatchdog.vhal_healthcheck.interval watchdoga, dostępna tylko do odczytu, określa częstotliwość sprawdzania stanu VHAL. Domyślna częstotliwość kontroli stanu (gdy ta właściwość nie jest zdefiniowana) wynosi 3 sekundy. Jeśli 3 sekundy to za dużo, aby usługa VHAL zaktualizowała właściwość VHAL_HEARTBEAT pojazdu, zdefiniuj częstotliwość kontroli stanu VHAL w zależności od szybkości działania usługi.

Debugowanie procesów w złym stanie zakończonych przez Watchdoga

Watchdog zapisuje stan procesu i kończy je w złym stanie. Podczas zamykania nieprawidłowego procesu Watchdog rejestruje tekst carwatchdog terminated <process name> (pid:<process id>) w logcat. Ta linia dziennika zawiera informacje o zakończonym procesie, takie jak nazwa procesu i identyfikator procesu.

  1. Plik logcat można wyszukać, uruchamiając polecenie:
    $ adb logcat -s CarServiceHelper | fgrep "carwatchdog killed"

    Na przykład, gdy aplikacja KitchenSink jest zarejestrowanym klientem Watchdog i przestaje odpowiadać na pingi Watchdog, Watchdog rejestruje wiersz podobny do tego poniżej, gdy kończy zarejestrowany proces KitchenSink.

    05-01 09:50:19.683   578  5777 W CarServiceHelper: carwatchdog killed com.google.android.car.kitchensink (pid: 5574)
  2. Aby zidentyfikować główną przyczynę braku odpowiedzi, skorzystaj z procesu zrzut zapisany o /data/anr, tak samo jak w przypadku błędów ANR związanych z aktywnością przypadków. Aby pobrać plik zrzutu dla zakończonego procesu, użyj tych poleceń.
    $ adb root
    $ adb shell grep -Hn "pid process_pid" /data/anr/*

    Te przykładowe dane wyjściowe dotyczą aplikacji KitchenSink:

    $ adb shell su root grep -Hn "pid 5574" /data/anr/*.
    /data/anr/anr_2020-05-01-09-50-18-290:3:----- pid 5574 at 2020-05-01 09:50:18 -----
    /data/anr/anr_2020-05-01-09-50-18-290:285:----- Waiting Channels: pid 5574 at 2020-05-01 09:50:18 -----

    Plik z dane o wyłączonym procesie KitchenSink znajduje się w katalogu /data/anr/anr_2020-05-01-09-50-18-290. Rozpocznij analizę za pomocą pliku zrzutu ANR zakończonego procesu.