当前位置: 首页>编程笔记>正文

Deep Learning for Matching in Search and Recommendation 搜索與推薦中的深度學習匹配(1 引言)

Deep Learning for Matching in Search and Recommendation 搜索與推薦中的深度學習匹配(1 引言)

#1.1 搜索與推薦的概述
搜索和推薦中的根本問題是從海量信息中識別滿足用戶信息需求的信息對象。合適時間合適的地點合適上下文。(這個地方得寫的專業一點)

##搜索
搜索是一個用戶主動輸入query(一系列關鍵詞),并用query比較明確的表達自己需求。搜索引擎通過query-doc的match匹配,返回用戶最可能點擊的文檔。

##推薦
推薦一般是非主動觸發的,通常不需要用戶輸入的query。推薦系統就是系統根據用戶的屬性(如性別、年齡、學歷、地域、職業),用戶在系統里過去的行為(例如瀏覽、點擊、搜索、購買、收藏等),以及當前上下文環境(如網絡、手機設備、時間等),從而給用戶推薦用戶可能感興趣的物品(如電商的商品、feeds推薦的新聞、應用商店推薦的app等),從這個過程來看,推薦系統就是一個給user匹配(match)感興趣的item的過程。

下表總結了搜索與推薦的不同之處:
在這里插入圖片描述
(1)意圖不同

搜索是用戶帶著明確的目的,通過給系統輸入query來主動觸發的;而推薦是系統被動觸發,用戶是以一種閑逛的姿態過來的,系統是帶著一種“猜”的狀態給用戶推送物品。

簡單來說,搜索是一次主動pull的過程,用戶用query告訴系統,我需要什么,你給我相關的結果就行;而推薦是一次push的過程,用戶沒有明顯意圖,系統給用戶被動push認為用戶可能會喜歡的東西。

(2)關注點

搜索引擎更關注user,目的就是為用戶快速準確地找到想要的信息。

推薦需要對信息生產者和消費者同時滿足,(這里也需要一句專業的話)

(3)時效不同

搜索需要盡快滿足用戶此次請求query,如果搜索引擎無法滿足用戶當下的需求,最重要的是相關性和低延遲。搜索引擎是一個效率工具,越快速的幫助用戶找到信息越好,不希望用戶沉迷其中。所以搜索引擎一般不會是一個時間殺手。

推薦更希望能增加用戶的時長和留存從而提升整體LTV(long time value,衡量用戶對系統的長期價值),例如視頻推薦系統希望用戶能夠持續的沉浸在觀看系統推薦的視頻流中;電商推薦系統希望用戶能夠多逛多點擊推薦的商品從而提高GMV。

(4)相關性

搜索有嚴格的query限制,搜索結果需要保證相關性,搜索結果量化評估標準也相對容易。給定一個query,系統給出不同結果,在上線前就可以通過相關性對結果進行判定相關性好壞。例如下圖中搜索query為“pool schedule”,搜索結果“swimming pool schedule”認為是相關的、而最后一個case,用戶搜索“why are windows so expensive”想問的是窗戶為什么那么貴,而如果搜索引擎將這里的windows理解成微軟的windows系統從而給出結果是蘋果公司的mac,一字之差意思完全不同了,典型的bad case。
在這里插入圖片描述推薦除了相關性還考了探索。EE。信息繭房。(待補充)

而推薦沒有明確的相關性要求。一個電商系統,用戶過去買了足球鞋,下次過來推薦電子類產品也無法說明是bad case,因為用戶行為少,推完全不相關的物品是系統的一次探索過程。推薦很難在離線階段從相關性角度結果評定是否好壞,只能從線上效果看用戶是否買單做評估。

(5) 實體不同

搜索中的兩大實體是query和doc,本質上都是文本信息。這就是上文說到的為什么搜索可以通過query和doc的文本相關性判斷是否相關。Query和doc的匹配過程就是在語法層面理解query和doc之間gap的過程。

推薦中的兩大實體是user和item,兩者的表征體系可能完全沒有重疊。例如電影推薦系統里,用戶的特征描述是:用戶id,用戶評分歷史、用戶性別、年齡;而電影的特征描述是:電影id,電影描述,電影分類,電影票房等。這就決定了推薦中,user和item的匹配是無法從表面的特征解決兩者gap的。但是這里不是也可以表征成詞向量衡量嗎

(6)個性化要求不同

雖然現在但凡是一個推薦系統都在各種標榜如何做好個性化,“千人千面”,但搜索和推薦天然對個性化需求不同。搜索有用戶的主動query,本質上這個query已經在告訴系統這個“用戶”是誰了,query本身代表的就是一類用戶,例如搜索引擎里搜索“深度學習綜述”的本質上就代表了機器學習相關從業者或者對其感興趣的這類人。在一些垂直行業,有時候query本身就夠了,甚至不需要其他用戶屬性畫像。例如在app推薦系統里,不同的用戶搜索“京東”,并不會因為用戶過去行為、本身畫像屬性不同而有所不同。

而推薦沒有用戶主動的query輸入,如果沒有用戶畫像屬性和過去行為的刻畫,系統基本上就等于瞎猜。這個地方也少那么些東西

總結

維度搜索推薦
意圖意圖明確,主動觸發非主動觸發
關注點useruser 與 provider
??
相關性
實體query和doc都是文本信息,可以通過文本的相關性判斷是否相關
個性化要求

##1.2搜索和推薦中匹配統一性
Garcia-Molina等指出,搜索和推薦中的根本問題是識別滿足用戶信息需求的信息對象。此外,搜索(信息檢索)和推薦(信息過濾)是一體兩面的,具有很強的聯系和相似性。

我們使用信息對象一詞來表示要檢索/推薦的文檔/item,并使用信息來表示相應任務中的查詢/用戶。即可得到搜索與推薦的統一框架。

在這里插入圖片描述
搜索和推薦已經在一些app中實現結合(例如美團、淘寶等app)。例如,在某些電商app中,當用戶提交查詢時,不僅基于相關性(查詢-產品匹配),而且還基于用戶興趣(用戶-產品匹配)顯示產品的排名列表。搜索與推薦的結合已成為趨勢,從而更好地滿足用戶的需求。其中,匹配起著至關重要的作用。

隨著深度學習技術的使用,搜索、推薦的匹配模型在架構和方法上更加相似,主要體現在:將輸入embedding(查詢,用戶,文檔和項目)作為分布式表示,結合神經網絡來表示匹配函數,并以端到端的方式訓練模型參數。此外,如果搜索和推薦共享相同的信息對象集(如上述電子商務網站和生活方式app的示例),則可以聯合建模和優化。
##1.3搜索匹配中的挑戰
在搜索中,queries and documents(通常以標題表示)是文本信息。文檔與查詢的相關性主要由兩者之間的匹配程度來表示。計算機對自然語言的理解仍然具有挑戰性,因此,匹配度的計算仍然僅限于文本級別,而不是語義級別 例如“iphone什么價格?”與“蘋果手機多少錢” 這兩個query的意思是完全一樣的,但是字面上沒有任何的重疊,用bm25和tf-idf來計算,他們的相似度都是0。語義匹配就是要解決這類字面上不一定重疊,但是語義層面是相似的文本匹配問題。此外,查詢是由用戶發出的,而文檔是由編輯者編輯的。由于自然語言的含糊性,用戶和編輯者可能會使用不同的語言樣式和表達方式來呈現相同的概念或主題。轉向交叉模式IR(例如,使用文本查詢來檢索圖像文檔),查詢文檔不匹配問題變得更加嚴重,因為不同的模態具有不同類型的表示形式。在跨模式檢索中,一個主要挑戰是:如何構建一個匹配函數,以彌合這些模式之間的“異質性差距”。

為了解決查詢文檔不匹配的挑戰,方法有提出了在語義級別執行匹配的方法,稱為語義匹配。解決方案中的關鍵思想是執行更多的查詢和文檔理解以更好地表示查詢和文檔的含義,或者構建更強大的匹配功能以彌合查詢和文檔之間的語義鴻溝。傳統的機器學習方法(Li和Xu,2014)和深度學習方法(Guo等,2019b; Mitra和Craswell,2018; Onal等,2018)均已開發用于語義匹配。

##1.4推薦匹配中的挑戰
搜索中的失配問題更為嚴峻。在搜索中,queries and documents均是文本信息。這就使得根據它們的term進行直接匹配至少有意義。
推薦中的兩大實體是user和item,兩者的表征體系可能完全沒有重疊。例如電影推薦系統里,用戶的特征描述是:用戶id,用戶評分歷史、用戶性別、年齡;而電影的特征描述是:電影id,電影描述,電影分類,電影票房等。這就決定了推薦中,user和item的匹配是無法從表面的特征解決兩者gap的。
更具挑戰性的是,這些物品可以通過多模態特征來描述,例如服裝產品的圖像和電影的封面圖像,這可以在影響用戶的決策中發揮關鍵作用。 在這樣的視覺感知場景中,我們需要考慮用戶與多模態內容之間的跨模態匹配。
為了解決上述問題,協同過濾(Collaborative Filtering)被提出,但CF存在諸多缺點,因此矩陣分解算法、神經網絡模型、基于圖的方法等被提出。

##1.5 近期進展

深度神經網絡有足夠的能力對復雜的匹配任務進行建模。它們具有自然擴展到跨模態匹配的靈活性,其中學習公共語義空間來普遍表示不同模態的數據。所有這些特性都有助于處理搜索和推薦的復雜性。

在搜索中,深度神經網絡可以更有效地解決查詢和文檔之間的不匹配問題,包括前饋神經網絡 (FFN)、卷積神經網絡 (CNN) 和循環神經網絡 (RNN),因為它們具有更強的表示學習和匹配函數學習的能力。最值得注意的是,BERT顯著提高了搜索匹配的準確性,并且現在作為最先進的技術脫穎而出。

在推薦方面,最近的重點已經從以行為為中心的協同過濾轉移到信息豐富的用戶-項目匹配,如順序、上下文感知和知識圖增強的推薦,這些都是實際場景驅動的。 在技術方面,圖神經網絡 (GNNs) 成為表示學習的新興工具 (Wang et al., 2019a,b),因為推薦數據可以自然地組織在異構圖中,而 GNNs 有能力利用這種 數據。 為了處理用戶行為序列數據,還采用了 self-attention 和 BERT,這在序列推薦中展示了有希望的結果(Sun et al., 2019; Yuan et al., 2020)。

#其他

協同過濾是個性化推薦系統的基礎,1句話總結協同過濾。(?)

紅色
綠色

#參考鏈接

  1. 推薦系統中的深度匹配模型
  2. 在算法工程師領域,搜索算法與推薦算法有什么區別?
  3. 推薦系統和搜索引擎的關系是什么?
  4. 自然語言處理中“分布式表示”的含義
  5. 這可能是「多模態機器學習」最通俗易懂的介紹

https://www.nshth.com/bcbj/326371.html
>

相关文章:

  • 編程語言難度排名,8 月最新編程語言排行榜
  • 手機usb調試被禁用怎么恢復,解決安卓手機USB接口被外設占用導致無法調試的問題
  • 手機上的安卓模擬器,連接手機模擬器
  • 搜狗輸入法怎么手寫和拼音一起輸入,零彝輸入法用戶協議
  • ubuntu自帶gcc編譯器嗎,安裝ubuntu20.04(安裝vim、gcc、VMtools、中文輸入法、漢化、修改IP、無法連網問題)
  • 輸入法哪個最好用,android ip格式化輸入法,Android設置默認輸入法
  • blkmov指令使用例子,ORB-SLAM2代碼解析
  • windows補丁kb3033929怎么安裝,Win8.1 kb2919355安裝不上怎么辦?
  • 淘寶店鋪如何增加流量,淘寶賣家開店怎么做有效減少淘寶垃圾流量
  • 商標使用必須加TM或R嗎,商標中R標和TM標的區別
  • 沒有商標可以上速賣通嘛,速賣通商標授權怎么弄?速賣通官方授權模板書分享
  • 商標中R跟C分別代表什么,商標TM和R有什么區別
  • 商標中R跟C分別代表什么,CSDN Markdown 商標標志 C、TM、R
  • 有關向量的重要結論,專題-句向量(Sentence Embedding)
  • 信息安全等級保護的5個級別,信息安全等級保護措施之網絡安全技術
  • 書是黃金屋下一句是什么,書中的“黃金屋”
  • gps定位,定位iowait問題
  • 渲染軟件哪個好用,Android平臺上基于OpenGl渲染yuv視頻
  • C# wpf 通過HwndHost渲染視頻
  • h5商城源碼,H5全新紅包直通車網站源碼 包含多款游戲已對接支付
  • android基礎面試題及答案,安卓手機系統開發教程!BTAJ面試有關散列(哈希)表的面試題詳解,大廠直通車!
  • 中交第一公路勘察設計研究院,緯地道路縱斷面設計教程_直通車 | 中交一公局公路勘察設計院有限公司招聘公告...
  • arduino怎么把程序傳到板上,STM32替換Arduino直通車
  • 記錄2015年年初跳槽的經歷!
  • 什么情況下可以跳槽,記錄 2015 年年初跳槽的經歷!
  • 聚合支付公司前十,聚合支付行業的2019年終總結大會!細品,你細品~
  • mastercam后處理論壇,mastercam2017后處理升級_如何升級Mastercam 9.1版后處理?
  • 動態表情包制作,android 視頻轉表情,視頻怎么轉gif?好用軟件分享,自己也能制作出搞笑表情包...
  • pc頁面怎么打開,頁面的版心html,關于PC端網頁版心及網頁自適應問題
  • webp圖片怎樣改成jpg,如何給圖片更改格式?jpg轉webp怎么操作