許多事物都有不同稱呼,比如碳酸飲料又名汽水,毛衣又名針織衫,美式足球又名橄欖球。這些名稱差異有的是語言功能使然,有的是在反映文化上的細微差異,也有單純因為地域不同,所以有同樣的東西有不同的稱呼。COVID-19 就是一個非常具有代表性的例子。先前,我們必須學會辨識大家用來指稱新型冠狀病毒的每個詞組,以確保為來自世界各地的搜尋者呈現優質且及時的資訊,讓大家都能從世界衛生組織、美國疾病控制與預防中心等值得信賴的衛生主管機關獲得正確情報。如今一年過去,疫苗名稱又為我們帶來了類似的挑戰。但和先前不同的是,我們現在有了 Multitask Unified Model (MUM) 這項新工具。
了解針對疫苗資訊的搜尋
根據我們的分析,AstraZeneca、CoronaVac、Moderna、Pfizer、Sputnik 等廣泛使用的疫苗在全世界共有超過 800 種名稱。使用者在搜尋疫苗資訊時,可能會使用「Coronavaccin Pfizer」、「mRNA-1273」、「CoVaccine」等各式各樣的關鍵字。我們是否能正確識別所有的疫苗名稱,對於使用者能否獲得可靠的最新疫苗資訊至關重要。然而,要想辨識出全球使用者對於疫苗的不同稱呼,就得付出大量的時間成本,以人工而言需要幾百小時。但現在有了 MUM,我們就可以在短短幾秒鐘內辨識出 800 種以上超過 50 種語言用來稱呼疫苗的詞語。在驗證 MUM 的搜尋結果後,我們已能將這個模型應用在 Google 搜尋服務中,幫助使用者找到全世界有關 COVID-19 疫苗的優質及時資訊。
跨語言轉移知識
MUM 之所以能在幾秒內完成一項原本需要數週時間的工作,
MUM 也因為具有知識轉移能力,
使用 MUM 來改善 Google 搜尋
MUM 的第一個應用讓我們能幫助世界各地的使用者及時取得關鍵資訊,
本文作者:Google 搜尋研究員暨副總裁 Pandu Nayak
留言列表