「Hi Alexa! 我想找 Google」 — Amazon 單一裝置多載語音系統設計指南

本篇為提供在單一裝置欲同時乘載多套語音系統時，如何設計體驗與其規範。

Tempo Chang

8 min readSep 24, 2020

[本文為譯文，原文取自 Voice Interoperability Initiative Design Guild，下方連結中的報告，作者為 Amazon 的 Aaron Rubenson]

VII Announcement New Members and Multi-Agent Desigh Guide

The Multi-Agent design guide, authored by Amazon and reflecting feedback from VII members, captures design…

developer.amazon.com

本文將翻譯並整理 Amazon 在今年九月初公布與多家廠商公布針對單一裝置同時乘載多語音系統的設計指南中的部份重點。

內容較為進階，適合對語音使用者體驗已有基本了解的設計師及有志於套用多套語音系統於一個裝置者。

本文架構
一、VII（Voice Interoperability Initiative，語音互通性倡議）是什麼？
二、正式進入介紹
三、多語音系統共存之體驗設計
   3.1 探索與使用教學
   3.2 語音助理開發商與品牌
   3.3 人機介面設計
   3.4 語音助手間的轉換
四、提供使用者選擇權與各語音助理之喚醒詞
五、隱私權與安全性
六、小記

以下為翻譯內容，其中的我/我們為 Amazon。本設計指南重點介紹在一台設備上同時存在多個語音代理時出現的行為和互動挑戰。

一、VII（Voice Interoperability Initiative，語音互通性倡議）是什麼？

在一個擁有各種語音智能助理（原文：語音服務，後統稱語音助理方便理解）的世界下，我們相信消費者有自由選擇語音助理的權利。我們的目標是在同一設備上，能夠提供多種語音助理，每個助理有不同的喚醒詞，我們希望使用者呼叫設備時，能夠簡單並安全地說出喚醒詞。

二、正式進入介紹

語音助理系統是目前極度快速成長的消費性產品與服務。市面上多種語音助理如果能在單一設備同時存在，消費者將能有更多選擇，也能讓每個不同語音助理發揮其特點和個性。

然而越來越多的語音助理將對於語音設備帶來挑戰，我們該如何在設備上整合不同的語音助理，使其之間的基本操作和互動都能帶給使用者良好的體驗？我們能夠簡化需求並確定設計一致性以減少開發工作量嗎？

三、多語音系統共存之體驗設計

在考慮多語音助理共存的語音設備體驗時，有三個基礎大方向需要被考量：

隱私：
當使用者操作一個共存有多個語音助理的設備時，請提供他們透明化的體驗，確保使用者知道他們正在與哪個語音助理進行互動。而如果多個語音助理間需要共享數據時，應該向客戶明確表示，並尋求同意。
可預測性：
在不同設備上與不同語音助理互動對於使用者可能更為複雜。我們應該努力避免使用者感到困惑、額外認知負擔及牴觸行為。為了避免使用者覺得複雜，我們應該盡量以使用者能夠預期及熟悉的方式進行互動。
容易使用：
使用者應該能夠與他們的語音助理進行直觀的交互，而不必記住複雜的規則或令人困惑的指導。交互和命令應該感覺很自然，客戶應該可以輕鬆地訪問設備控件。

滿足了以上三個基礎之後，
你可以開始規劃讓使用者面對多個語音助理的使用體驗，以下分為四個面向。

3.1 語音助理的探索與使用

我們必須幫助使用者從多樣的語音助手中找到他們適合的，提供選擇，並探索功能，並且需要向使用者展示如何使用它們。

那麼問題來了，該怎麼有效地向使用者展示產品上的所有語音助理呢？😱

由於語音在很大程度上是一種無形的模式，它嚴重依賴於使用者的記憶。
因此為了清楚地讓使用者了解不同語音助手的互動方式，可以在產品的開箱體驗（OOBE）期間提供註冊和教學流程，這也是向使用者介紹有哪些語音助手是可以被使用的好時機！

這邊有一些設計是在這個階段你可以嘗試：

鼓勵使用者探索：
以各種方式鼓勵使用者嘗試，包含列出各語音助手的特色，包含示例對話。
簡化流程：
了解使用者選擇和初次註冊語音助手時所需要的步驟，並且讓這個流程盡可能的簡單，特別是在開箱體驗的階段。
名單：
提供簡單易取得的語音助理列表。
強化各個語音助理的印象：
- 描述不同語音助理的強項，為每個語音助理分類能夠幫助使用者了解並記憶如何運用它們。
- 挑選能夠展示每個語音助理獨特性和價值所在的示例對話。
配套 app：
許多語音助理的使用教學和初始設置都是在產品的開箱體驗流程中。過長及複雜的流程可能會導致使用者的認知過載。而對於那些選擇跳過設定，或者希望更改其設置的使用者，可以為他們提供一種隨時訪問這些設置的簡單方法，例如在一個配套應用程式中。
- 將各種設定功能設置於一個單一、易尋找的配套 app 中。所有設備應該提供如：註冊設定、語言設定等在其裝置配套的 app 中。

3.2 能夠辨識語音助理的開發商與品牌

在同時能使用各種語音助理的設備時，應該讓使用者知道他們在和哪個語音助理交談。

表現方式可以是明確的（例如顏色、徽標），也可以通過不同的視覺和聲音提示來表示。除此還可以包括語音助理特有的個性和行為。

3.3 人機介面設計

一個考慮周到的人機介面將對於使用者對隱私信任和操作理解有很大的提升。提供多個語音助理的產品在設計控制介面如：按鈕、以提示系統及音效呈現目前狀態等，都存在著特別的挑戰。

在於實體介面，特別需要考量以下三點：

麥克風：
我們強烈建議允許語音喚醒的所有設備（不只是按鍵通話）都有一個麥克風開/關控制按鈕，並且此功能應該是通用，能夠同時關閉所有語音助理的麥克風功能。其他輸入設備（如攝像機或傳感器）也建議提供開/關控制。
啟動/執行：
在合適的狀況下，設備應該擁有一個「啟動/執行」的按鈕，能夠重啟新的一段對話或打斷語音助理的回應。
音量調整：
設備應該包含一個物理控制按鈕來同步調節所有語音助理的音量。

而不論是實體還是虛擬介面，設計者需留意所有會與語音助理互動的按鈕（如播放和暫停按鈕）的互動行為保持一致。

3.4 語音助手間的轉換

當多個語音助手共存於一個設備上時，使用者通常會將不同的語音助手視為獨立的。不過，有時使用者可能會向語音助手提出無法直接實現的請求。在這種情況下能夠透過互通性模式幫助使用者實現語音助手間的轉換。

舉例：
使用者：「語音助手A，播放音樂」
（語音助手A 無法播放音樂，但知道語音助手B 可以滿足這個要求）
語音助手A：「嗯⋯⋯這聽起來語音助手B 可以幫助你」
（轉換聲音出現）
語音助手B：「嗨！我可以幫你什麼？」
（使用者不需要說任何話來喚醒語音助手B，但仍需重複要求）
使用這：「播放音樂」
語音助手B：「好的，播放 80 年代的搖滾樂」
（音樂透過語音助手B 自設備播放出）

四、提供使用者選擇權與各語音助理之喚醒詞

對於許多設備，喚醒詞是使用者主要呼叫設備的方法。
喚醒詞及語音助理的聲音同時是語音助理重要的角色個性（Persona）及品牌形象。

在考慮設定語音助理的喚醒詞前，有三個前提需要注意：

當設備上共存多個語音助理時，不管使用者用哪個喚醒詞應當都能喚醒設備。
語音助理應當隨時讓使用者能夠呼叫，除了以下兩點例外：
＊當一個語音助理正被使用，且正將使用者的對話上傳時，其他系統不應該被偵測到。例如：如果使用者說「Hey 語音助理A，請告訴我關於語音助理B 的訊息」，則不應該呼叫出語音助理B。
＊語音助手不能通過 TTS（文字轉語音）以喚醒詞呼叫另一個語音助手。
當一個語音助理處於對話狀態回應使用者時，使用者應該能夠用其他語音系統的喚醒詞來中斷該系統的進行。

而如果使用者將使用喚醒詞與裝置互動，記得在設計時考慮：

喚醒詞差異化：
喚醒詞需要跟其他喚醒詞做出差異，同時容易被記憶，這樣能避免使用者困惑且減少設備呼叫錯誤語音系統。
注意其他語音助理的設計：
如果允許使用者選擇選擇其他喚醒詞呼叫設備，需要注意語音助理的喚醒詞和可呼叫訊息。

五、隱私權與安全性

設備上的狀態系統是建立和維護使用者信任的重要因素，就如同一般單一語音系統的設備，同時共存多種語音系統的設備應該跟使用者清楚的溝通目前處於何種狀態，以及狀態何時改變。以下將建議所有多載語音裝置至少傳達的三個狀態系統：

聆聽中：
一個語音助理被喚醒，抑或是語音或觸摸，並且正在錄音、聆聽使用者的說話內容。
思考中：
語音助理或設備正在處理使用者的要求或是等待語音服務的回覆。（但當系統無延遲時，可能不會出現。）
說話中：
播放語音助手的回應內容，或以其他方式回覆使用者，如透過圖像在設備上顯示。

六、小節

看到這裡的人完全佩服，Amazon 的原報告十分混亂，看得十分混亂，整理出來的也是很混亂⋯⋯🤣 本文有省略部分內容，如果發現，ㄜ，怎麼好像講到一半，那一定是直接被跳過了😂，有興趣者可以自行閱讀原文。

翻譯這篇文章完全是陰差陽錯⋯原本以為是多家廠商共同歸納出的各裝置語音助手指南，邊看邊記下筆記發現完全跑太遠了，而且超級 Hard Core，不知道什麼時機點會設計到這樣的產品？🙃

不過看都看了，只好貼出來給有緣人，讓這幾個小時有點價值吧😭

腦中一直浮現這首歌⋯⋯

結束。