“Hey Siri”要成為歷史了。
(資料圖)
今年 6 月,iOS 17 發(fā)布開發(fā)者版本,其中一個很有意思的改動是“Hey Siri”將沒有“Hey”了——用戶僅需說“Siri”就能喚醒語音助手。
但就是這么一個簡單的變化,卻愁壞一大堆程序員。從去年年末消息放出到現(xiàn)在將近半年,iOS 依然沒有正式更新該功能。拿走一個“Hey”,對語音助手來說有多難?
為什么不要“Hey”了?
對著智能音箱或語音助手喊“Hey Siri”和“小愛同學(xué)”,這都叫做“喚醒詞”,目的是讓智能音箱知道你要開始對它說話下達(dá)指令了——這就像過年回家,你奶喊你:嘿,狗剩~趕緊把院里的雞喂了去!
如下圖所示,語音助手的工作分為四個模塊,像人一樣,它也需要先聽到語音、理解語音、才能做出反應(yīng)并通過語音反饋給用戶。
語音助手的工作模塊|作者提供
其中“喚醒質(zhì)量”是衡量語音助手好壞的重要指標(biāo),業(yè)內(nèi)一般通過兩個標(biāo)準(zhǔn)來衡量。第一項(xiàng)是識別的準(zhǔn)確率,比如一共說 1 萬次喚醒詞,能成功識別出多少次。在實(shí)際用戶數(shù)據(jù)下,這需要能達(dá)到 99% 左右。第二項(xiàng)是誤喚醒率,在持續(xù)語音輸入的環(huán)境下,24 小時內(nèi)誤喚醒的次數(shù)。這個指標(biāo)跟具體播放的內(nèi)容有關(guān),但一般一天內(nèi)要少于 2-3 次。
目前業(yè)內(nèi)公司采取用特定的喚醒詞來觸發(fā)語音助手的方案,比如蘋果語音助手 Siri 的喚醒詞為“Hey Siri”,小米的是“小愛同學(xué)”,阿里的是“天貓精靈”,百度的是“小度小度”,亞馬遜 Alexa 的是“Alexa”、“Amazon”、“Computer”、“Echo”、“Ziggy”(是的這五個都是它的喚醒詞)。
Computer是Alexa的喚醒詞|Giphy
喚醒詞音節(jié)越多越復(fù)雜,喚醒成功率就會越高,誤喚醒率就會越低。但是,在實(shí)際使用當(dāng)中,更短的喚醒詞更受用戶的喜愛,特別在用戶急于發(fā)出指令時。
像三星語音助手的喚醒詞是“Hi Bixby”(大致發(fā)音為:嗨 碧克斯碧),由 5 個音節(jié)構(gòu)成,但是大量的用戶在使用中會減少一個音節(jié),發(fā)音為“嗨 碧克斯”或者“嗨 碧斯碧”。
2018 年,微軟就將旗下語音助手 Cortana 的喚醒詞由“Hey Cortana”改為“Cortana”,現(xiàn)在輪到 Siri。“Hey Siri”由三個音節(jié)構(gòu)成,“Siri”由兩個音節(jié)構(gòu)成。雖然只是少一個音節(jié),但也是語音助手升級的必經(jīng)之路。
那之前“Hey”這么一下為了啥?
可是越短的喚醒詞,越容易跟其他詞混淆,與“Siri”具有類似發(fā)音的詞匯很多,比如 Syria(英文:敘利亞)、Sirie(英文:人名),Sire(英文:陛下),容易產(chǎn)生誤喚醒。為了提升喚醒的準(zhǔn)確性,音節(jié)最好豐富一點(diǎn)。
其實(shí)哪怕是豐富些的“Hey Siri”,也有很多用戶抱怨在說“History”(英文:歷史)時,會誤喚醒出 Siri。
此外在噪音較大,或者手機(jī)離說話人較遠(yuǎn)的情況下,“Siri”的第一個音素,即發(fā)音類似于“斯”的部分(見圖 1 綠框),聲音頻率較高——頻率高的聲音衰減快,容易與環(huán)境噪音混淆。這意味著在用戶開車,聽廣播,看電視或者遠(yuǎn)距離呼叫 Siri 時,Siri 可能更難喚醒。
Hey Siri 音頻及其頻譜圖|作者提供
而“Hey”是包含一個較大能量的低頻發(fā)音,可以將比較短而且能量小的其他音素(主要指 Si 和 Ri 這兩個)與噪音區(qū)分開來。
你是省事了,Siri 可費(fèi)了勁
關(guān)于發(fā)音相近的詞導(dǎo)致的誤喚醒問題。一種方案是使用對比學(xué)習(xí)(contrastive leaning)等方法,刻意消除易混淆詞語的誤喚醒。其原理類似于,單獨(dú)拎出來“History”和“Syrian”等音頻,告訴喚醒模型,這些發(fā)音是錯的!
但這種方法必須在事前由人來找出容易混淆的單詞,有一定局限。
另外一種解決誤喚醒的方案是通過語音識別以及語義信息的分析,綜合判斷用戶的發(fā)音是否意圖在喚醒手機(jī)語音助手。例如“Hey Siri”發(fā)音雖然與“History”相近,但是用戶在說出“Hey Siri”之后的內(nèi)容,大概率與說出“History”之后的內(nèi)容有很大差異。
通過核對喚醒詞之后的語音,可以讓語音助手在一些聊天場景中“保持冷靜”,比如當(dāng)你和朋友聊天剛好提到 Siri,但并不是為了喚醒它時。
你可以試下喚醒一屋子的語音助手|Giphy
使用聲紋識別技術(shù)也可以提高喚醒的準(zhǔn)確性。類似于指紋識別通過每個人的指紋區(qū)分用戶,聲紋識別也可以通過用戶發(fā)音特征的不同,實(shí)現(xiàn)對用戶的區(qū)分,讓語音助手只對機(jī)主的聲音作出反饋,并忽略掉其他人的語音指令。
在開啟 Siri 的時候,需要說五段話,就是在完成聲紋識別注冊這一步。
此外,對開發(fā)者而言,去掉“Hey”,還要死掉不少腦細(xì)胞。比如有的用戶在閑暇時會說“Good morning Siri”,或是在使用完語音助手之后說“Goodbye Siri”;有時用戶喚醒語音助手好幾次沒成功時,還會說“Come on siri”,這種時候要不要喚醒?
從產(chǎn)品經(jīng)理的角度考慮,最優(yōu)方案當(dāng)然是聽懂用戶的所有意圖,比如“Goodbye Siri”意味著不需要喚醒,而“Good morning Siri”意味著用戶想要溝通。但由于語音喚醒模型比較簡單,功能沒那么強(qiáng),一直運(yùn)行也比較耗電,所以大部分產(chǎn)品會選擇一刀切——要么都喚醒,要么都不喚醒,但這又破壞了用戶體驗(yàn)。
根據(jù)目前放出的 iOS17 開發(fā)者版本來看,蘋果暫時不支持“Good morning Siri”,“Come on Siri”等情況下的喚醒。
ChatGPT 會取代語音助手么?
微軟 CEO 薩蒂亞·納德拉曾直言不諱語音助手的“愚蠢”:“無論是 Cortana、Alexa、Google Assistant 還是 Siri,這些語音助手笨得像塊石頭。”
與最新最熱的生成式聊天 AI 相比,語音助手似乎是上個時代的產(chǎn)物,它們只能回答簡單直接的指令,從數(shù)據(jù)庫選一些已有的東西來語音播報,還常常出錯;而 GPT 們可以生成小說,講一個世界上曾經(jīng)沒有的笑話,應(yīng)付人類各種的語焉不詳,跟你談笑風(fēng)生。
甚至成為你的朋友|Giphy
實(shí)際上,語音助手使用的也是深度學(xué)習(xí)模型,只是數(shù)據(jù)量和計算需求沒有 ChatGPT 這類大語言模型大。短期來看,大語音模型可以替代語音助手工作模塊中語義理解的功能。對語義理解模塊之前的語音喚醒和語音識別影響有限。但是更好的語義理解,也能在一定程度上修復(fù)前面兩個模塊帶來的錯誤。
目前亞馬遜已表示要用大語言模型給旗下語音助手 Alexa 做升級,阿里也宣布未來所有產(chǎn)品都將接入“通義千問”大模型,其中也包括天貓精靈。
可能在一段時間之后,手機(jī)中的語音助手還可以借助 ChatGPT 綜合分析用戶的歷史信息,并結(jié)合用戶所處的場景,更準(zhǔn)確地了解用戶的意圖,那樣就可以做到無需喚醒詞的人機(jī)自然對話了。
一個AI
我聽到你意念叫我了。
作者:魏浩然
編輯:睿悅
標(biāo)簽:














