Giới thiệu về tương tác bằng giọng nói

API dịch vụ tương tác bằng giọng nói cung cấp sự trừu tượng hóa về các ứng dụng điều khiển bằng giọng nói tiềm năng khác nhau. Việc triển khai có thể được phát triển theo các nguyên tắc được mô tả trong Phát triển ứng dụng . Nội dung trong hướng dẫn tích hợp này mô tả cách tích hợp các ứng dụng này vào hình ảnh hệ thống Android Automotive OS (AAOS) cụ thể.

Thuật ngữ

Những thuật ngữ này được sử dụng thông qua hướng dẫn này:

  • Hỗ trợ dữ liệu. Khi phiên tương tác bằng giọng nói được bắt đầu, hệ thống có thể ghi lại các lượt xem và ảnh chụp màn hình, đồng thời chuyển thông tin này đến phiên. Ứng dụng có thể hiển thị thông tin bổ sung bằng cách triển khai Activity#onProvideAssistData()Activity#onProvideAssistContent() .
  • Nhấn để nói (PTT) . Nút điều khiển bằng giọng nói vật lý, thường nằm ở vô lăng.
  • Dịch vụ nhận dạng (RS). Dịch vụ nhận dạng giọng nói được các ứng dụng sử dụng thông qua API SpeechRecognizer . VIA phải bao gồm cả VoiceInteractionService RecognitionService .
  • Nhấn để nói (TTT) . Nút điều khiển bằng giọng nói của phần mềm, thường được bao gồm như một phần của giao diện người dùng hệ thống). Trong Android, tính năng này còn được gọi là Cử chỉ hỗ trợ .
  • VoiceInteractionService . Dịch vụ hệ thống nhẹ do nhà phát triển VIA triển khai. Dịch vụ đã chọn được liên kết với dịch vụ hệ thống khi khởi động và luôn chạy.
  • Phiên tương tác giọng nói (VIS). Lớp này gói gọn logic nghiệp vụ tương tác của người dùng. Nó chịu trách nhiệm hiển thị cho người dùng trạng thái tương tác bằng giọng nói, xử lý các yêu cầu VoiceInteractor và nhận dữ liệu hỗ trợ và ảnh chụp màn hình.
  • Dịch vụ VoiceInteractionSessionService (VSS). Một dịch vụ, một phần của VIA, chịu trách nhiệm xử lý phiên tương tác bằng giọng nói. Dịch vụ này bị ràng buộc với dịch vụ hệ thống của Android trong quá trình tương tác bằng giọng nói với người dùng. Tất cả logic nghiệp vụ của phiên này được triển khai trong lớp VoiceSession . Dịch vụ này chỉ được đảm bảo duy trì hoạt động trong một phiên thoại của một người dùng.
  • Ứng dụng tương tác bằng giọng nói (VIA). Ứng dụng Android được thiết kế để đóng vai trò điều khiển bằng giọng nói (gọi tắt là trợ lý ). Những ứng dụng này có thể được xác định bằng cách đưa VoiceInteractionService vào bảng kê khai của chúng. Tại một thời điểm trong hệ thống, chỉ có thể chọn một trong những ứng dụng này làm mặc định . Chỉ ứng dụng mặc định mới được duy trì hoạt động (bị ràng buộc bởi dịch vụ hệ thống) và sẽ là nơi nhận các sự kiện Push-To-Talk (PTT) hoặc Tap-To-Talk (TTT) .

Trách nhiệm

Bảng này mô tả trách nhiệm của mỗi bên.

Các nhà sản xuất ô tô (OEM) AOSP Nhà phát triển ứng dụng
  • Xây dựng hệ thống thông tin giải trí tương thích với AAOS.
  • Triển khai đầu vào và đầu ra âm thanh, tùy chọn bao gồm hỗ trợ phát hiện từ nóng DSP.
  • Cấp quyền đặc quyền của hệ thống cho các dịch vụ tương tác bằng giọng nói.
  • Tôn trọng các yêu cầu VoiceInteractionService liên quan đến quyền truy cập vào màn hình cài đặt của ứng dụng.
  • Xác định và phát triển VoiceInteractionService cũng như các API liên quan.
  • Cung cấp tài liệu API, mã mẫu và tài liệu hỗ trợ khác cho nhà phát triển VIA.
  • Cung cấp hướng dẫn UX với các yêu cầu và đề xuất.
  • Triển khai API VoiceInteractionService , API nhận dạng và API notificationListenerService (xem mô tả chi tiết tại Phát triển ứng dụng ).
  • Cung cấp giao diện người dùng có thể tùy chỉnh mà các OEM có thể điều chỉnh để phù hợp với từng hệ thống thiết kế ô tô.

Yêu cầu về trải nghiệm người dùng

OEM có trách nhiệm cuối cùng trong việc cung cấp trải nghiệm người dùng tốt cho khách hàng. OEM phải đảm bảo rằng tất cả các dịch vụ tương tác bằng giọng nói được cài đặt sẵn đều đáp ứng các yêu cầu được mô tả trong Trợ lý được tải sẵn: Hướng dẫn UX .

Trải nghiệm trợ lý cốt lõi

Ứng dụng Tương tác giọng nói trên ô tô (VIA) thực hiện các hành động sau:

  • [PHẢI] Phản hồi các trình kích hoạt tương tác bằng giọng nói do hệ thống xử lý (PTT, TTT).
  • [PHẢI] Hiển thị hình ảnh trực quan về tiến trình của họ (ví dụ: nghe, xử lý và hoàn thành).
  • [PHẢI] Sử dụng giọng nói hoặc âm thanh để biểu thị sự hiểu biết và hoàn thành các yêu cầu của người dùng.
  • [PHẢI] Đóng vai trò là trình nhận dạng giọng nói cho các ứng dụng khác (xem API SpeechRecognizer ).
  • [NÊN] Phản hồi lại kích hoạt từ nóng.
  • [CÓ THỂ] Hiển thị hoạt động cài đặt trong đó người dùng có thể định cấu hình VIA này (ví dụ: quyền, cấu hình từ nóng và đăng nhập).
  • [CÓ THỂ] Xử lý dữ liệu hỗ trợ ( Intent#ACTION_ASSIST )
  • [CÓ THỂ] Hỗ trợ tương tác bằng giọng nói từ Keyguard (màn hình khóa).

Các thành phần

Ở cấp độ cao, ứng dụng tương tác bằng giọng nói tương tác với các tác nhân sau:

Diễn viên tương tác bằng giọng nói

Hình 1. Diễn viên tương tác bằng giọng nói

Chi tiết:

  • VoiceInteractionManagerService . Dịch vụ hệ thống này chịu trách nhiệm quản lý VIA mặc định và hiển thị chức năng của nó cho phần còn lại của hệ thống.
  • RecognitionService Dịch vụ này cung cấp khả năng nhận dạng giọng nói cho các ứng dụng khác trong hệ thống.
  • SoundTrigger . Triển khai quản lý từ nóng và nó có sẵn cho VIA thông qua AlwaysOnHotwordDetector.
  • MediaRecorder . Cung cấp quyền truy cập vào đầu vào âm thanh để phát hiện từ nóng (khi sử dụng CPU) và nhận dạng giọng nói.
  • PhoneWindowManager / CarInputService . Các dịch vụ này chịu trách nhiệm (trong số những việc khác) xử lý các sự kiện quan trọng, định tuyến PTT đến VIA bằng VoiceInteractionManagerService .
  • User . Người dùng tương tác với VIA bằng Trình kích hoạt (PTT, TTT, Hotword) hoặc UI Bảng giọng nói.
  • CarService, Thông báo, Phương tiện, Điện thoại, ContactsProvider, v.v. Các dịch vụ và ứng dụng được VoiceInteractionSession sử dụng để thực hiện các lệnh của người dùng.

Các khái niệm dành riêng cho ô tô

AAOS khác với Android ở các khía cạnh sau:

  • Bên cạnh các chức năng Trợ lý thông thường, AAOS VIA có thể điều khiển các chức năng của xe (ví dụ: HVAC, ghế ngồi và đèn nội thất). Các chức năng này có thể được tích hợp bằng API CarPropertyManager (xem thêm tại Đọc thuộc tính xe ) với điều kiện OEM định cấu hình quyền truy cập chính xác như được mô tả trong Danh sách cho phép đặc quyền .
  • Khả năng tùy chỉnh và tính nhất quán có liên quan nhiều hơn đến Ô tô hơn bất kỳ kiểu dáng nào khác. Xem Tùy chỉnh để đọc thêm về cách triển khai các nguyên tắc này.