Отладка сборки мусора ART

На этой странице описано, как отладить проблемы с правильностью и производительностью сборки мусора (GC) среды выполнения Android (ART). В нем объясняется, как использовать параметры проверки ГХ, находить решения для сбоев проверки ГХ, а также измерять и устранять проблемы с производительностью ГХ.

Для работы с ART см. страницы в этом разделе ART и Dalvik , а также формат исполняемого файла Dalvik . Дополнительную помощь по проверке поведения приложения см. в разделе Проверка поведения приложения в среде выполнения Android (ART) .

Обзор АРТ ГК

У ART есть несколько различных планов GC, которые включают запуск разных сборщиков мусора. Начиная с Android 8 (Oreo), планом по умолчанию является одновременное копирование (CC). Другой план GC — параллельная маркировка (CMS).

Некоторые из основных характеристик параллельного копирования GC:

  • CC позволяет использовать распределитель указателей рельефа, называемый RegionTLAB. При этом для каждого потока приложения выделяется локальный буфер выделения потока (TLAB), который затем может выделять объекты из своего TLAB, перемещая указатель «top» без какой-либо синхронизации.
  • CC выполняет дефрагментацию кучи, одновременно копируя объекты без приостановки потоков приложения. Это достигается с помощью барьера чтения, который перехватывает чтение ссылок из кучи без необходимости какого-либо вмешательства со стороны разработчика приложения.
  • У GC есть только одна небольшая пауза, которая постоянна во времени в зависимости от размера кучи.
  • CC расширяется до уровня GC поколения в Android 10 и более поздних версиях. Это позволяет довольно быстро и без особых усилий собирать молодые объекты, которые зачастую становятся недоступными. Это помогает увеличить пропускную способность GC и значительно отсрочить необходимость выполнения GC с полной кучей.

Другой GC, который по-прежнему поддерживает ART, — это CMS. Этот сборщик мусора также поддерживает сжатие, но не одновременно. Сжатие не выполняется до тех пор, пока приложение не перейдет в фоновый режим, после чего потоки приложения приостанавливаются для выполнения сжатия. Сжатие также становится необходимым, когда выделение объекта не удается из-за фрагментации. В этом случае приложение может перестать отвечать на запросы в течение некоторого времени.

Поскольку CMS редко сжимает и, следовательно, свободные объекты могут не быть смежными, она использует распределитель на основе списка свободных объектов, называемый RosAlloc. Он имеет более высокую стоимость размещения по сравнению с RegionTLAB. Наконец, из-за внутренней фрагментации использование памяти для кучи Java может быть выше для CMS, чем для CC.

Параметры проверки и производительности ГХ

Изменить тип GC

OEM-производители могут изменить тип ГХ. Процесс изменения включает установку переменной среды ART_USE_READ_BARRIER во время сборки. Значение по умолчанию — true, что включает сборщик CC, поскольку он использует барьер чтения. Для CMS этой переменной должно быть явно присвоено значение false.

По умолчанию сборщик CC работает в режиме генерации в Android 10 и выше. Чтобы отключить режим генерации, можно использовать аргумент командной строки -Xgc:nogenerational_cc . Альтернативно системное свойство можно установить следующим образом:

adb shell setprop dalvik.vm.gctype nogenerational_cc
Сборщик CMS всегда работает в режиме генерации.

Проверьте кучу

Проверка кучи, вероятно, является наиболее полезным вариантом GC для отладки ошибок, связанных со сборщиком мусора, или повреждения кучи. Включение проверки кучи заставляет сборщик мусора проверять правильность кучи в нескольких точках процесса сборки мусора. Проверка кучи использует те же параметры, что и те, которые меняют тип GC. Если эта функция включена, проверка кучи проверяет корни и гарантирует, что доступные объекты ссылаются только на другие доступные объекты. Проверка GC включается путем передачи следующих значений -Xgc :

  • Если этот параметр включен, [no]preverify выполняет проверку кучи перед запуском GC.
  • Если этот параметр включен, [no]presweepingverify выполняет проверку кучи перед запуском процесса очистки сборщика мусора.
  • Если этот параметр включен, [no]postverify выполняет проверку кучи после завершения очистки сборщиком мусора.
  • [no]preverify_rosalloc , [no]postsweepingverify_rosalloc и [no]postverify_rosalloc — это дополнительные параметры GC, которые проверяют только состояние внутреннего учета RosAlloc. Поэтому они применимы только со сборщиком CMS, который использует распределитель RosAlloc. Главное, что проверяется, это то, что магические значения соответствуют ожидаемым константам, а все свободные блоки памяти зарегистрированы в карте free_page_runs_ .

Производительность

Существует два основных инструмента для измерения производительности GC: дамп времени GC и Systrace. Существует также расширенная версия Systrace под названием Perfetto. Визуальный способ измерить проблемы с производительностью сборщика мусора — использовать Systrace и Perfetto, чтобы определить, какие сборщики мусора вызывают длительные паузы или вытесняют потоки приложений. Хотя ART GC со временем значительно улучшился, плохое поведение мутатора, такое как чрезмерное выделение памяти, по-прежнему может вызывать проблемы с производительностью.

Стратегия сбора

Сборщик мусора CC собирает данные, запуская молодой сборщик мусора или сборщик мусора с полной кучей. В идеале молодой GC запускается чаще. Сборщик мусора выполняет молодые коллекции CC до тех пор, пока пропускная способность (рассчитанная по количеству освобожденных байтов/секунду продолжительности сборщика мусора) только что завершившегося цикла сбора не станет меньше средней пропускной способности коллекций CC с полной кучей. В этом случае для следующего одновременного GC выбирается CC с полной кучей вместо молодого CC. После завершения сбора полной кучи следующий сборщик мусора снова переключается на молодой CC. Одним из ключевых факторов, благодаря которым эта стратегия работает, является то, что молодой CC не корректирует ограничение занимаемого места в куче после ее завершения. Это приводит к тому, что молодой CC возникает все чаще и чаще, пока пропускная способность не становится ниже, чем у CC с полной кучей, что в конечном итоге приводит к увеличению кучи.

Используйте SIGQUIT, чтобы получить информацию о производительности GC.

Чтобы получить время производительности GC для приложений, отправьте SIGQUIT уже запущенным приложениям или передайте -XX:DumpGCPerformanceOnShutdown в dalvikvm при запуске программы командной строки. Когда приложение получает сигнал запроса ANR ( SIGQUIT ), оно выгружает информацию, связанную с его блокировками, стеками потоков и производительностью GC.

Чтобы получить дамп времени GC, используйте:

adb shell kill -s QUIT PID

При этом создается файл (с датой и временем в имени, например anr_2020-07-13-19-23-39-817) в /data/anr/ . Этот файл содержит некоторые дампы ANR, а также время GC. Тайминги GC можно найти, выполнив поиск по запросу «Сброс совокупных таймингов Gc» . Эти тайминги показывают несколько вещей, которые могут представлять интерес, включая информацию гистограммы для фаз и пауз каждого типа GC. На паузы обычно важнее обращать внимание. Например:

young concurrent copying paused:	Sum: 5.491ms 99% C.I. 1.464ms-2.133ms Avg: 1.830ms Max: 2.133ms

Это показывает, что средняя пауза составила 1,83 мс, что должно быть достаточно низким, чтобы не вызывать пропущенных кадров в большинстве приложений и не должно вызывать беспокойства.

Еще одна область интереса — время приостановки, которое измеряет, сколько времени потребуется потоку, чтобы достичь точки приостановки после того, как сборщик мусора запросил его приостановку. Это время включено в паузы GC, поэтому полезно определить, вызваны ли длинные паузы медленной работой GC или медленной приостановкой потока. Вот пример обычного времени приостановки на Nexus 5:

suspend all histogram:	Sum: 1.513ms 99% C.I. 3us-546.560us Avg: 47.281us Max: 601us

Есть и другие области интереса, включая общее затраченное время и пропускную способность GC. Примеры:

Total time spent in GC: 502.251ms
Mean GC size throughput: 92MB/s
Mean GC object throughput: 1.54702e+06 objects/s

Вот пример того, как выгрузить тайминги GC уже запущенного приложения:

adb shell kill -s QUIT PID
adb pull /data/anr/anr_2020-07-13-19-23-39-817

На данный момент время GC находится внутри anr_2020-07-13-19-23-39-817 . Вот пример вывода из Google Maps:

Start Dumping histograms for 2195 iterations for concurrent copying
MarkingPhase:   Sum: 258.127s 99% C.I. 58.854ms-352.575ms Avg: 117.651ms Max: 641.940ms
ScanCardsForSpace:      Sum: 85.966s 99% C.I. 15.121ms-112.080ms Avg: 39.164ms Max: 662.555ms
ScanImmuneSpaces:       Sum: 79.066s 99% C.I. 7.614ms-57.658ms Avg: 18.014ms Max: 546.276ms
ProcessMarkStack:       Sum: 49.308s 99% C.I. 6.439ms-81.640ms Avg: 22.464ms Max: 638.448ms
ClearFromSpace: Sum: 35.068s 99% C.I. 6.522ms-40.040ms Avg: 15.976ms Max: 633.665ms
SweepSystemWeaks:       Sum: 14.209s 99% C.I. 3.224ms-15.210ms Avg: 6.473ms Max: 201.738ms
CaptureThreadRootsForMarking:   Sum: 11.067s 99% C.I. 0.835ms-13.902ms Avg: 5.044ms Max: 25.565ms
VisitConcurrentRoots:   Sum: 8.588s 99% C.I. 1.260ms-8.547ms Avg: 1.956ms Max: 231.593ms
ProcessReferences:      Sum: 7.868s 99% C.I. 0.002ms-8.336ms Avg: 1.792ms Max: 17.376ms
EnqueueFinalizerReferences:     Sum: 3.976s 99% C.I. 0.691ms-8.005ms Avg: 1.811ms Max: 16.540ms
GrayAllDirtyImmuneObjects:      Sum: 3.721s 99% C.I. 0.622ms-6.702ms Avg: 1.695ms Max: 14.893ms
SweepLargeObjects:      Sum: 3.202s 99% C.I. 0.032ms-6.388ms Avg: 1.458ms Max: 549.851ms
FlipOtherThreads:       Sum: 2.265s 99% C.I. 0.487ms-3.702ms Avg: 1.031ms Max: 6.327ms
VisitNonThreadRoots:    Sum: 1.883s 99% C.I. 45us-3207.333us Avg: 429.210us Max: 27524us
InitializePhase:        Sum: 1.624s 99% C.I. 231.171us-2751.250us Avg: 740.220us Max: 6961us
ForwardSoftReferences:  Sum: 1.071s 99% C.I. 215.113us-2175.625us Avg: 488.362us Max: 7441us
ReclaimPhase:   Sum: 490.854ms 99% C.I. 32.029us-6373.807us Avg: 223.623us Max: 362851us
EmptyRBMarkBitStack:    Sum: 479.736ms 99% C.I. 11us-3202.500us Avg: 218.558us Max: 13652us
CopyingPhase:   Sum: 399.163ms 99% C.I. 24us-4602.500us Avg: 181.851us Max: 22865us
ThreadListFlip: Sum: 295.609ms 99% C.I. 15us-2134.999us Avg: 134.673us Max: 13578us
ResumeRunnableThreads:  Sum: 238.329ms 99% C.I. 5us-2351.250us Avg: 108.578us Max: 10539us
ResumeOtherThreads:     Sum: 207.915ms 99% C.I. 1.072us-3602.499us Avg: 94.722us Max: 14179us
RecordFree:     Sum: 188.009ms 99% C.I. 64us-312.812us Avg: 85.653us Max: 2709us
MarkZygoteLargeObjects: Sum: 133.301ms 99% C.I. 12us-734.999us Avg: 60.729us Max: 10169us
MarkStackAsLive:        Sum: 127.554ms 99% C.I. 13us-417.083us Avg: 58.111us Max: 1728us
FlipThreadRoots:        Sum: 126.119ms 99% C.I. 1.028us-3202.499us Avg: 57.457us Max: 11412us
SweepAllocSpace:        Sum: 117.761ms 99% C.I. 24us-400.624us Avg: 53.649us Max: 1541us
SwapBitmaps:    Sum: 56.301ms 99% C.I. 10us-125.312us Avg: 25.649us Max: 1475us
(Paused)GrayAllNewlyDirtyImmuneObjects: Sum: 33.047ms 99% C.I. 9us-49.931us Avg: 15.055us Max: 72us
(Paused)SetFromSpace:   Sum: 11.651ms 99% C.I. 2us-49.772us Avg: 5.307us Max: 71us
(Paused)FlipCallback:   Sum: 7.693ms 99% C.I. 2us-32us Avg: 3.504us Max: 32us
(Paused)ClearCards:     Sum: 6.371ms 99% C.I. 250ns-49753ns Avg: 207ns Max: 188000ns
Sweep:  Sum: 5.793ms 99% C.I. 1us-49.818us Avg: 2.639us Max: 93us
UnBindBitmaps:  Sum: 5.255ms 99% C.I. 1us-31us Avg: 2.394us Max: 31us
Done Dumping histograms
concurrent copying paused:      Sum: 315.249ms 99% C.I. 49us-1378.125us Avg: 143.621us Max: 7722us
concurrent copying freed-bytes: Avg: 34MB Max: 54MB Min: 2062KB
Freed-bytes histogram: 0:4,5120:5,10240:19,15360:69,20480:167,25600:364,30720:529,35840:405,40960:284,46080:311,51200:38
concurrent copying total time: 569.947s mean time: 259.657ms
concurrent copying freed: 1453160493 objects with total size 74GB
concurrent copying throughput: 2.54964e+06/s / 134MB/s  per cpu-time: 157655668/s / 150MB/s
Average major GC reclaim bytes ratio 0.486928 over 2195 GC cycles
Average major GC copied live bytes ratio 0.0894662 over 2199 major GCs
Cumulative bytes moved 6586367960
Cumulative objects moved 127490240
Peak regions allocated 376 (94MB) / 2048 (512MB)
Start Dumping histograms for 685 iterations for young concurrent copying
ScanCardsForSpace:      Sum: 26.288s 99% C.I. 8.617ms-77.759ms Avg: 38.377ms Max: 432.991ms
ProcessMarkStack:       Sum: 21.829s 99% C.I. 2.116ms-71.119ms Avg: 31.868ms Max: 98.679ms
ClearFromSpace: Sum: 19.420s 99% C.I. 5.480ms-50.293ms Avg: 28.351ms Max: 507.330ms
ScanImmuneSpaces:       Sum: 9.968s 99% C.I. 8.155ms-30.639ms Avg: 14.552ms Max: 46.676ms
SweepSystemWeaks:       Sum: 6.741s 99% C.I. 3.655ms-14.715ms Avg: 9.841ms Max: 22.142ms
GrayAllDirtyImmuneObjects:      Sum: 4.466s 99% C.I. 0.584ms-14.315ms Avg: 6.519ms Max: 24.355ms
FlipOtherThreads:       Sum: 3.672s 99% C.I. 0.631ms-16.630ms Avg: 5.361ms Max: 18.513ms
ProcessReferences:      Sum: 2.806s 99% C.I. 0.001ms-9.459ms Avg: 2.048ms Max: 11.951ms
EnqueueFinalizerReferences:     Sum: 1.857s 99% C.I. 0.424ms-8.609ms Avg: 2.711ms Max: 24.063ms
VisitConcurrentRoots:   Sum: 1.094s 99% C.I. 1.306ms-5.357ms Avg: 1.598ms Max: 6.831ms
SweepArray:     Sum: 711.032ms 99% C.I. 0.022ms-3.502ms Avg: 1.038ms Max: 7.307ms
InitializePhase:        Sum: 667.346ms 99% C.I. 303us-2643.749us Avg: 974.227us Max: 3199us
VisitNonThreadRoots:    Sum: 388.145ms 99% C.I. 103.911us-1385.833us Avg: 566.635us Max: 5374us
ThreadListFlip: Sum: 202.730ms 99% C.I. 18us-2414.999us Avg: 295.956us Max: 6780us
EmptyRBMarkBitStack:    Sum: 132.934ms 99% C.I. 8us-1757.499us Avg: 194.064us Max: 8495us
ResumeRunnableThreads:  Sum: 109.593ms 99% C.I. 6us-4719.999us Avg: 159.989us Max: 11106us
ResumeOtherThreads:     Sum: 86.733ms 99% C.I. 3us-4114.999us Avg: 126.617us Max: 19332us
ForwardSoftReferences:  Sum: 69.686ms 99% C.I. 14us-2014.999us Avg: 101.731us Max: 4723us
RecordFree:     Sum: 58.889ms 99% C.I. 0.500us-185.833us Avg: 42.984us Max: 769us
FlipThreadRoots:        Sum: 58.540ms 99% C.I. 1.034us-4314.999us Avg: 85.459us Max: 10224us
CopyingPhase:   Sum: 52.227ms 99% C.I. 26us-728.749us Avg: 76.243us Max: 2060us
ReclaimPhase:   Sum: 37.207ms 99% C.I. 7us-2322.499us Avg: 54.316us Max: 3826us
(Paused)GrayAllNewlyDirtyImmuneObjects: Sum: 23.859ms 99% C.I. 11us-98.917us Avg: 34.830us Max: 128us
FreeList:       Sum: 20.376ms 99% C.I. 2us-188.875us Avg: 29.573us Max: 998us
MarkZygoteLargeObjects: Sum: 18.970ms 99% C.I. 4us-115.749us Avg: 27.693us Max: 122us
(Paused)SetFromSpace:   Sum: 12.331ms 99% C.I. 3us-94.226us Avg: 18.001us Max: 109us
SwapBitmaps:    Sum: 11.761ms 99% C.I. 5us-49.968us Avg: 17.169us Max: 67us
ResetStack:     Sum: 4.317ms 99% C.I. 1us-64.374us Avg: 6.302us Max: 190us
UnBindBitmaps:  Sum: 3.803ms 99% C.I. 4us-49.822us Avg: 5.551us Max: 70us
(Paused)ClearCards:     Sum: 3.336ms 99% C.I. 250ns-7000ns Avg: 347ns Max: 7000ns
(Paused)FlipCallback:   Sum: 3.082ms 99% C.I. 1us-30us Avg: 4.499us Max: 30us
Done Dumping histograms
young concurrent copying paused:        Sum: 229.314ms 99% C.I. 37us-2287.499us Avg: 334.764us Max: 6850us
young concurrent copying freed-bytes: Avg: 44MB Max: 50MB Min: 9132KB
Freed-bytes histogram: 5120:1,15360:1,20480:6,25600:1,30720:1,35840:9,40960:235,46080:427,51200:4
young concurrent copying total time: 100.823s mean time: 147.187ms
young concurrent copying freed: 519927309 objects with total size 30GB
young concurrent copying throughput: 5.15683e+06/s / 304MB/s  per cpu-time: 333152554/s / 317MB/s
Average minor GC reclaim bytes ratio 0.52381 over 685 GC cycles
Average minor GC copied live bytes ratio 0.0512109 over 685 minor GCs
Cumulative bytes moved 1542000944
Cumulative objects moved 28393168
Peak regions allocated 376 (94MB) / 2048 (512MB)
Total time spent in GC: 670.771s
Mean GC size throughput: 159MB/s per cpu-time: 177MB/s
Mean GC object throughput: 2.94152e+06 objects/s
Total number of allocations 1974199562
Total bytes allocated 104GB
Total bytes freed 104GB
Free memory 10MB
Free memory until GC 10MB
Free memory until OOME 442MB
Total memory 80MB
Max memory 512MB
Zygote space size 2780KB
Total mutator paused time: 544.563ms
Total time waiting for GC to complete: 117.494ms
Total GC count: 2880
Total GC time: 670.771s
Total blocking GC count: 1
Total blocking GC time: 86.373ms
Histogram of GC count per 10000 ms: 0:259879,1:2828,2:24,3:1
Histogram of blocking GC count per 10000 ms: 0:262731,1:1
Native bytes total: 30599192 registered: 8947416
Total native bytes at last GC: 30344912

Инструменты для анализа проблем корректности GC

Различные вещи могут вызвать сбои внутри ART. Сбои, возникающие при чтении или записи в поля объекта, могут указывать на повреждение кучи. Если сборщик мусора выходит из строя во время работы, это также может указывать на повреждение кучи. Наиболее распространенной причиной повреждения кучи является неправильный код приложения. К счастью, существуют инструменты для отладки GC и сбоев, связанных с кучей, включая указанные выше параметры проверки кучи и CheckJNI.

ПроверитьJNI

CheckJNI — это режим, который добавляет проверки JNI для проверки поведения приложения; они не включены по умолчанию из соображений производительности. Проверки выявляют несколько ошибок, которые могут привести к повреждению кучи, например использование недействительных/устаревших локальных и глобальных ссылок. Чтобы включить CheckJNI:

adb shell setprop dalvik.vm.checkjni true

Режим принудительного копирования CheckJNI полезен для обнаружения записей за пределами областей массива. Если функция принудительного копирования включена, функции JNI доступа к массиву возвращают копии с красными зонами. Красная зона — это область в конце/начале возвращаемого указателя, имеющая специальное значение, которое проверяется при освобождении массива. Если значения в красной зоне не соответствуют ожидаемым, произошло переполнение или опустошение буфера. Это приводит к прерыванию CheckJNI. Чтобы включить режим принудительного копирования:

adb shell setprop dalvik.vm.jniopts forcecopy

Примером ошибки, которую должен отловить CheckJNI, является запись за конец массива, полученного из GetPrimitiveArrayCritical . Эта операция может повредить кучу Java. Если запись находится в красной зоне CheckJNI, CheckJNI обнаруживает проблему при вызове соответствующего ReleasePrimitiveArrayCritical . В противном случае запись повреждает какой-либо случайный объект в куче Java и может привести к сбою GC в будущем. Если поврежденная память является ссылочным полем, то сборщик мусора может уловить ошибку и напечатать ошибку . Пытался пометить <ptr>, не содержащий пробелов .

Эта ошибка возникает, когда сборщик мусора пытается пометить объект, для которого не может найти место. После того, как эта проверка не удалась, сборщик мусора обходит корни и пытается проверить, является ли недопустимый объект корнем. Отсюда есть два варианта: объект является корневым или некорневым объектом.

Неверный пример корня

В случае, если объект является недопустимым корнем, он печатает некоторую полезную информацию: art E 5955 5955 art/runtime/gc/collector/mark_sweep.cc:383] Tried to mark 0x2 not contained by any spaces

art E  5955  5955 art/runtime/gc/collector/mark_sweep.cc:384] Attempting see if
it's a bad root
art E  5955  5955 art/runtime/gc/collector/mark_sweep.cc:485] Found invalid
root: 0x2
art E  5955  5955 art/runtime/gc/collector/mark_sweep.cc:486]
Type=RootJavaFrame thread_id=1 location=Visiting method 'java.lang.Object
com.google.gwt.collections.JavaReadableJsArray.get(int)' at dex PC 0x0002
(native PC 0xf19609d9) vreg=1

В этом случае vreg=1 внутри com.google.gwt.collections.JavaReadableJsArray.get должен содержать ссылку на кучу, но содержит недопустимый указатель адреса 0x2 . Это неверный корень. Чтобы устранить эту проблему, используйте oatdump для файла oat и просмотрите метод с недопустимым корнем. В данном случае ошибка оказалась ошибкой компилятора в серверной части x86. Вот список изменений, которые это исправили: https://android-review.googlesource.com/#/c/133932/

Пример поврежденного объекта

Если объект не является корневым, вывод будет аналогичен следующему:

01-15 12:38:00.196  1217  1238 E art     : Attempting see if it's a bad root
01-15 12:38:00.196  1217  1238 F art     :
art/runtime/gc/collector/mark_sweep.cc:381] Can't mark invalid object

Если повреждение кучи не является недопустимым корнем, отладку затруднительно. Это сообщение об ошибке указывает на то, что в куче был хотя бы один объект, указывающий на недопустимый объект.