蘋果決定刪掉一個單詞_新視野

2023-07-02 09:02:41 來源：果殼

“Hey Siri”要成為歷史了。

(資料圖)

今年 6 月，iOS 17 發(fā)布開發(fā)者版本，其中一個很有意思的改動是“Hey Siri”將沒有“Hey”了——用戶僅需說“Siri”就能喚醒語音助手。

但就是這么一個簡單的變化，卻愁壞一大堆程序員。從去年年末消息放出到現(xiàn)在將近半年，iOS 依然沒有正式更新該功能。拿走一個“Hey”，對語音助手來說有多難？

為什么不要“Hey”了？

對著智能音箱或語音助手喊“Hey Siri”和“小愛同學(xué)”，這都叫做“喚醒詞”，目的是讓智能音箱知道你要開始對它說話下達(dá)指令了——這就像過年回家，你奶喊你：嘿，狗剩～趕緊把院里的雞喂了去！

如下圖所示，語音助手的工作分為四個模塊，像人一樣，它也需要先聽到語音、理解語音、才能做出反應(yīng)并通過語音反饋給用戶。

語音助手的工作模塊｜作者提供

其中“喚醒質(zhì)量”是衡量語音助手好壞的重要指標(biāo)，業(yè)內(nèi)一般通過兩個標(biāo)準(zhǔn)來衡量。第一項(xiàng)是識別的準(zhǔn)確率，比如一共說 1 萬次喚醒詞，能成功識別出多少次。在實(shí)際用戶數(shù)據(jù)下，這需要能達(dá)到 99% 左右。第二項(xiàng)是誤喚醒率，在持續(xù)語音輸入的環(huán)境下，24 小時內(nèi)誤喚醒的次數(shù)。這個指標(biāo)跟具體播放的內(nèi)容有關(guān)，但一般一天內(nèi)要少于 2-3 次。

目前業(yè)內(nèi)公司采取用特定的喚醒詞來觸發(fā)語音助手的方案，比如蘋果語音助手 Siri 的喚醒詞為“Hey Siri”，小米的是“小愛同學(xué)”，阿里的是“天貓精靈”，百度的是“小度小度”，亞馬遜 Alexa 的是“Alexa”、“Amazon”、“Computer”、“Echo”、“Ziggy”（是的這五個都是它的喚醒詞）。

Computer是Alexa的喚醒詞｜Giphy

喚醒詞音節(jié)越多越復(fù)雜，喚醒成功率就會越高，誤喚醒率就會越低。但是，在實(shí)際使用當(dāng)中，更短的喚醒詞更受用戶的喜愛，特別在用戶急于發(fā)出指令時。

像三星語音助手的喚醒詞是“Hi Bixby”（大致發(fā)音為：嗨碧克斯碧），由 5 個音節(jié)構(gòu)成，但是大量的用戶在使用中會減少一個音節(jié)，發(fā)音為“嗨碧克斯”或者“嗨碧斯碧”。

2018 年，微軟就將旗下語音助手 Cortana 的喚醒詞由“Hey Cortana”改為“Cortana”，現(xiàn)在輪到 Siri。“Hey Siri”由三個音節(jié)構(gòu)成，“Siri”由兩個音節(jié)構(gòu)成。雖然只是少一個音節(jié)，但也是語音助手升級的必經(jīng)之路。

那之前“Hey”這么一下為了啥？

可是越短的喚醒詞，越容易跟其他詞混淆，與“Siri”具有類似發(fā)音的詞匯很多，比如 Syria（英文：敘利亞）、Sirie（英文：人名），Sire（英文：陛下），容易產(chǎn)生誤喚醒。為了提升喚醒的準(zhǔn)確性，音節(jié)最好豐富一點(diǎn)。

其實(shí)哪怕是豐富些的“Hey Siri”，也有很多用戶抱怨在說“History”（英文：歷史）時，會誤喚醒出 Siri。

此外在噪音較大，或者手機(jī)離說話人較遠(yuǎn)的情況下，“Siri”的第一個音素，即發(fā)音類似于“斯”的部分（見圖 1 綠框），聲音頻率較高——頻率高的聲音衰減快，容易與環(huán)境噪音混淆。這意味著在用戶開車，聽廣播，看電視或者遠(yuǎn)距離呼叫 Siri 時，Siri 可能更難喚醒。

Hey Siri 音頻及其頻譜圖｜作者提供

而“Hey”是包含一個較大能量的低頻發(fā)音，可以將比較短而且能量小的其他音素（主要指 Si 和 Ri 這兩個）與噪音區(qū)分開來。

你是省事了，Siri 可費(fèi)了勁

關(guān)于發(fā)音相近的詞導(dǎo)致的誤喚醒問題。一種方案是使用對比學(xué)習(xí)（contrastive leaning）等方法，刻意消除易混淆詞語的誤喚醒。其原理類似于，單獨(dú)拎出來“History”和“Syrian”等音頻，告訴喚醒模型，這些發(fā)音是錯的！

但這種方法必須在事前由人來找出容易混淆的單詞，有一定局限。

另外一種解決誤喚醒的方案是通過語音識別以及語義信息的分析，綜合判斷用戶的發(fā)音是否意圖在喚醒手機(jī)語音助手。例如“Hey Siri”發(fā)音雖然與“History”相近，但是用戶在說出“Hey Siri”之后的內(nèi)容，大概率與說出“History”之后的內(nèi)容有很大差異。

通過核對喚醒詞之后的語音，可以讓語音助手在一些聊天場景中“保持冷靜”，比如當(dāng)你和朋友聊天剛好提到 Siri，但并不是為了喚醒它時。

你可以試下喚醒一屋子的語音助手｜Giphy

使用聲紋識別技術(shù)也可以提高喚醒的準(zhǔn)確性。類似于指紋識別通過每個人的指紋區(qū)分用戶，聲紋識別也可以通過用戶發(fā)音特征的不同，實(shí)現(xiàn)對用戶的區(qū)分，讓語音助手只對機(jī)主的聲音作出反饋，并忽略掉其他人的語音指令。

在開啟 Siri 的時候，需要說五段話，就是在完成聲紋識別注冊這一步。

此外，對開發(fā)者而言，去掉“Hey”，還要死掉不少腦細(xì)胞。比如有的用戶在閑暇時會說“Good morning Siri”，或是在使用完語音助手之后說“Goodbye Siri”；有時用戶喚醒語音助手好幾次沒成功時，還會說“Come on siri”，這種時候要不要喚醒？

從產(chǎn)品經(jīng)理的角度考慮，最優(yōu)方案當(dāng)然是聽懂用戶的所有意圖，比如“Goodbye Siri”意味著不需要喚醒，而“Good morning Siri”意味著用戶想要溝通。但由于語音喚醒模型比較簡單，功能沒那么強(qiáng)，一直運(yùn)行也比較耗電，所以大部分產(chǎn)品會選擇一刀切——要么都喚醒，要么都不喚醒，但這又破壞了用戶體驗(yàn)。

根據(jù)目前放出的 iOS17 開發(fā)者版本來看，蘋果暫時不支持“Good morning Siri”，“Come on Siri”等情況下的喚醒。

ChatGPT 會取代語音助手么？

微軟 CEO 薩蒂亞·納德拉曾直言不諱語音助手的“愚蠢”：“無論是 Cortana、Alexa、Google Assistant 還是 Siri，這些語音助手笨得像塊石頭。”

與最新最熱的生成式聊天 AI 相比，語音助手似乎是上個時代的產(chǎn)物，它們只能回答簡單直接的指令，從數(shù)據(jù)庫選一些已有的東西來語音播報，還常常出錯；而 GPT 們可以生成小說，講一個世界上曾經(jīng)沒有的笑話，應(yīng)付人類各種的語焉不詳，跟你談笑風(fēng)生。

甚至成為你的朋友｜Giphy

實(shí)際上，語音助手使用的也是深度學(xué)習(xí)模型，只是數(shù)據(jù)量和計算需求沒有 ChatGPT 這類大語言模型大。短期來看，大語音模型可以替代語音助手工作模塊中語義理解的功能。對語義理解模塊之前的語音喚醒和語音識別影響有限。但是更好的語義理解，也能在一定程度上修復(fù)前面兩個模塊帶來的錯誤。

目前亞馬遜已表示要用大語言模型給旗下語音助手 Alexa 做升級，阿里也宣布未來所有產(chǎn)品都將接入“通義千問”大模型，其中也包括天貓精靈。

可能在一段時間之后，手機(jī)中的語音助手還可以借助 ChatGPT 綜合分析用戶的歷史信息，并結(jié)合用戶所處的場景，更準(zhǔn)確地了解用戶的意圖，那樣就可以做到無需喚醒詞的人機(jī)自然對話了。

一個AI

我聽到你意念叫我了。

作者：魏浩然

編輯：睿悅

標(biāo)簽：