機器之心報道
機器之心編輯部
在前段時間舉辦的「SearchOn」活動中,谷歌宣布,BERT現在幾乎為谷歌搜索引擎上的每一個基于英文的查詢提供支持。而在去年,這一比例僅為10%。
BERT是谷歌開源的一款自然語言處理預訓練模型,一經推出就刷新了11項NLP任務的SOTA記錄,登頂GLUE基準排行榜。
具體到搜索引擎來說,BERT可以幫助搜索引擎更好地理解web頁面上的內容,從而提高搜索結果的相關性。BERT模型中創新性的Transformer架構是一大亮點。Transformer處理一個句子中與所有其他單詞相關的單詞,而不是按順序逐個處理。基于此,BERT模型就可以借助某個單詞前后的詞來考慮其所處的完整語境,這對于理解查詢語句背后的意圖非常有用。
2019年9月,谷歌宣布將BERT用到搜索引擎中,但僅有10%的英文搜索結果得到改善;2019年12月,谷歌將BERT在搜索引擎中的使用擴展到70多種語言。如今,這家搜索巨頭終于宣布:幾乎所有英文搜索都能用上BERT了。
BERT對于搜索引擎意味著什么?
作為自然語言處理領域里程碑式的進展,BERT為該領域帶來了以下創新:
利用無標簽文本進行預訓練;
雙向上下文模型;
transformer架構的應用;
masked語言建模;
注意力機制;
文本蘊涵(下一句預測);
……
這些特性使得BERT對于搜索引擎的優化非常有幫助,尤其是在消除歧義方面。用上BERT之后,對于比較長、會話性比較強的查詢,或者在「for」、「to」等介詞比較重要的語句中,谷歌搜索引擎將能夠理解查詢語句中詞的上下文。用戶可以用更加自然的方式進行搜索。
此外,BERT對于搜索中的指代消解、一詞多義、同形異義、命名實體確定、本文蘊涵等任務也有很大的幫助。其中,指代消解指的是追蹤一個句子或短語在某個語境或廣泛的會話查詢中指代的是誰或什么東西;一詞多義指同一個詞有多個義項,幾個義項之間有聯系,搜索引擎需要處理模棱兩可的細微差別;同形異義是指形式相同但意義毫不相同的詞;命名實體確定是指從許多命名實體中了解文本與哪些相關;文本蘊含是指下一句預測。這些問題構成了搜索引擎面臨的常見挑戰。
在過去的一年,谷歌擴展了BERT在搜索引擎中的應用范圍,「搜索引擎營銷之父」DannySullivan和G-SquaredInteractive的SEO顧問GlennGabe等人在推特中介紹了谷歌搜索的最近亮點。
在谷歌搜索中,有十分之一的搜索查詢拼寫錯誤。很快,一項新的變革將幫助我們在檢測和處理拼寫錯誤方面取得比過去五年更大的進步。
另一個即將到來的變化是,谷歌搜索將能夠識別網頁中的單個段落,并將它們處理為與搜索最相關的段落。我們預計這會改善7%的Google搜索查詢。
SearchOn2020:谷歌可以索引一個網頁的段落,而不僅僅是整個網頁。新算法可以放大一段回答問題的段落,而忽略頁面的其余部分。從下個月開始。
使用人工智能,我們可以更好地檢測視頻的關鍵部分,并幫助人們直接跳到感興趣的內容,而不需要創作者手動標記。到今年年底,10%的谷歌搜索將使用這項技術。
此外,谷歌還表示,他們還應用神經網絡來理解搜索相關的子主題,當你搜索寬泛的內容時,這有助于提供更多樣化的內容。這項服務預計年底推出。
參考鏈接:
https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193
https://searchengineland.com/a-deep-dive-into-bert-how-bert-launched-a-rocket-into-natural-language-understanding-324522
https://blog.google/products/search/search-on/