為什么普通人「出圈」,都在小紅書?
出差期間,我在酒店百無聊賴地打開了小紅書。一篇看似平淡無奇的筆記吸引了我的注意——一位 ID 叫「倚著彩虹看夕陽(yáng)」的用戶發(fā)帖,說自己在酒店的床上看西游記時(shí),感覺到前所未有的放松。
從標(biāo)題到配圖,這篇發(fā)布于去年 5 月的筆記沒有任何明顯的爆點(diǎn),但顯然在小紅書上引發(fā)了廣泛的共鳴,收到了大量的點(diǎn)贊、收藏和評(píng)論。我也被吸引,陷入了#走不出的評(píng)論區(qū)。
現(xiàn)代人的信息獲取方式很大程度上受推薦系統(tǒng)所影響,這篇筆記在發(fā)布 8 個(gè)月后依然能進(jìn)入我的視野,小紅書的推薦系統(tǒng)功不可沒。相比之下,很難想象同樣的內(nèi)容在其他平臺(tái)上也能得到如此廣泛的傳播。
為什么在小紅書上普通人更容易被看見?它的流量算法,如何讓每個(gè)人都有機(jī)會(huì)成為爆款文的主角?為什么身邊人越來越愛刷小紅書?
帶著這些疑問,我走訪了小紅書技術(shù)團(tuán)隊(duì),希望通過他們的解釋,能更深入地了解這個(gè)讓無數(shù)用戶感嘆「特別懂我」且「氛圍極好」的內(nèi)容社區(qū)。
重視普通人表達(dá)——小紅書內(nèi)容分發(fā)和推薦邏輯
隨著近些年用戶和內(nèi)容的快速破圈,小紅書搖身一變,從「人間種草機(jī)」成為「生活百科全書」。作為一個(gè)基于用戶生成內(nèi)容(UGC)的生活指南社區(qū),小紅書融合圖文、視頻、直播等多種內(nèi)容形式,內(nèi)容維度非常豐富。推薦系統(tǒng)需要權(quán)衡多重目標(biāo)優(yōu)化,算法背后的價(jià)值觀讓小紅書選擇了不一樣的技術(shù)路徑——去中心化分發(fā)、注重用戶體驗(yàn)和社區(qū)的高質(zhì)量互動(dòng),這也形成了其特別的內(nèi)容分發(fā)和推薦策略。
小紅書旨在創(chuàng)建一個(gè)「普通人幫助普通人」的內(nèi)容分享社區(qū),滿足普通人的內(nèi)容被看見的需要。有一個(gè)非常典型的案例凸顯了小紅書推薦系統(tǒng)的快速與準(zhǔn)確,曾經(jīng)有一位女孩在信號(hào)較差的火車上發(fā)帖求助衛(wèi)生巾,僅僅兩個(gè)小時(shí)后,她就收到了陌生人的神奇饋贈(zèng)。在這里,任何人都可以分享他們覺得有趣或有用的生活細(xì)節(jié),無論多么微小。
為什么我們?cè)谛〖t書上能看到這么多「素帖爆火」的案例,其中一個(gè)重要的影響因素是技術(shù)分發(fā)的邏輯。小紅書的技術(shù)理念很獨(dú)特,將大約一半的流量給普通 UGC 用戶,讓普通人的創(chuàng)作有平等被看到的機(jī)會(huì)。與此同時(shí),這些普通人的經(jīng)驗(yàn)與生活分享也會(huì)在未來逐步釋放出長(zhǎng)尾價(jià)值。
在小紅書上,筆記被推薦的綜合考慮因素很多,沒有標(biāo)準(zhǔn)的公式一概而論。具體說,納入考慮的因子包括點(diǎn)擊、時(shí)長(zhǎng)、完播、下滑、質(zhì)量、點(diǎn)贊、收藏、關(guān)注、轉(zhuǎn)發(fā)、評(píng)論等。小紅書的推薦系統(tǒng)會(huì)根據(jù)用戶的習(xí)慣調(diào)整各因子的權(quán)重,一般會(huì)綜合考慮消費(fèi)、互動(dòng)和體驗(yàn)類指標(biāo),結(jié)合用戶的消費(fèi)行為偏好,實(shí)現(xiàn)個(gè)性化的權(quán)重組合。同時(shí),小紅書推薦系統(tǒng)也會(huì)根據(jù)筆記的發(fā)布意圖來調(diào)整收藏、轉(zhuǎn)發(fā)和評(píng)論的權(quán)重,例如,日常分享類的筆記更看重點(diǎn)贊,工具類筆記更看重收藏,求助類筆記更看重評(píng)論。
小紅書上各種「被看見」的普通人普通事
當(dāng)一篇新的筆記在小紅書發(fā)布后,它將經(jīng)歷一系列復(fù)雜的處理步驟,通過「人以群分」的內(nèi)容分發(fā)體系,把信息精準(zhǔn)給需要的人。雖說當(dāng)前各種推薦系統(tǒng)的核心算法和基本流程在很大程度上是類似的,但與傳統(tǒng)推薦系統(tǒng)追逐的「全局最優(yōu)」不同,小紅書將流量分層,尋求「局部最優(yōu)」,通過識(shí)別不同的人群,讓好的內(nèi)容從各個(gè)群體中涌現(xiàn)出來,跑出了適合社區(qū)的新一代推薦系統(tǒng)。
那些素帖爆火背后的秘籍,無一不透露著:一個(gè)優(yōu)秀的推薦系統(tǒng),關(guān)鍵在于如何根據(jù)具體的應(yīng)用場(chǎng)景、用戶行為和反饋來調(diào)整和優(yōu)化這些基本方法。
對(duì)小紅書來說,關(guān)鍵的問題包括在冷啟/爬坡階段,如何進(jìn)行內(nèi)容理解從而定位種子人群并進(jìn)行高效的人群擴(kuò)散;在召回/排序環(huán)節(jié),如何提升模型預(yù)測(cè)的精準(zhǔn)度,以及如何進(jìn)行實(shí)時(shí)流量調(diào)控;還有如何保證內(nèi)容的多樣性,使用戶的短期興趣和長(zhǎng)期興趣得到平衡。
挖掘長(zhǎng)尾,高效分發(fā)——多模態(tài)內(nèi)容理解
內(nèi)容理解是推薦分發(fā)的基礎(chǔ)。精細(xì)和準(zhǔn)確的個(gè)性化推薦,離不開對(duì)內(nèi)容的充分理解,只有讓系統(tǒng)真正掌握了到底內(nèi)容在講什么,才能夠推薦得更加準(zhǔn)確。傳統(tǒng)的內(nèi)容理解主要依賴于標(biāo)簽化體系,然而,這種體系的主要問題在于標(biāo)簽粒度過大和標(biāo)簽維度過窄。在小紅書這樣海量且多樣性強(qiáng)的內(nèi)容場(chǎng)景中,這兩個(gè)問題尤其突出。無論如何定義標(biāo)簽體系,都難以覆蓋多樣化、長(zhǎng)尾化的內(nèi)容,同時(shí),標(biāo)簽體系的運(yùn)營(yíng)更新也難以跟上內(nèi)容的迭代和發(fā)展。
為了解決標(biāo)簽化內(nèi)容理解體系的問題,小紅書技術(shù)團(tuán)隊(duì)借助大規(guī)模多模態(tài)預(yù)訓(xùn)練模型,構(gòu)建了向量化的內(nèi)容理解體系。這種向量體系具有更開放的通識(shí)知識(shí)和動(dòng)態(tài)自由的使用方案。作為傳統(tǒng)標(biāo)簽體系的補(bǔ)充,向量化系統(tǒng)通過隱性聚類能力實(shí)現(xiàn)了細(xì)粒度、動(dòng)態(tài)化的內(nèi)容分類;另一方面,通過預(yù)訓(xùn)練和微調(diào)的方式,提高了系統(tǒng)在更多維度上對(duì)內(nèi)容識(shí)別和評(píng)價(jià)的精度。
在多模態(tài)預(yù)訓(xùn)練方面,團(tuán)隊(duì)采用了類似于 CLIP 的對(duì)比學(xué)習(xí),在經(jīng)過清洗和去噪的小紅書筆記樣本上進(jìn)行訓(xùn)練。小紅書是一個(gè)天然的優(yōu)質(zhì)多模態(tài)圖文對(duì)樣本集散地,通過將筆記封面圖和筆記標(biāo)題組對(duì)的方式,不需要人工標(biāo)注,就能獲得數(shù)以十億甚至更大的樣本集合,保證了樣本的規(guī)模性、多樣性和時(shí)效性。在優(yōu)質(zhì)樣本的支持下,團(tuán)隊(duì)開發(fā)出了參數(shù)量從 10M 到 10B 不等的各種 backbone 選型,支持 BERT、RoBERTa、ResNet、Swin-T、ViT 等架構(gòu),以滿足下游的各種使用需求。
以多模態(tài)預(yù)訓(xùn)練向量為基座,實(shí)現(xiàn)對(duì)復(fù)雜多模態(tài)內(nèi)容的綜合語(yǔ)義表征
在應(yīng)用實(shí)例上,團(tuán)隊(duì)實(shí)踐了基于筆記多模態(tài)向量的層次化內(nèi)容聚類,用于 Feed 的多樣性打散。通過向量聚類得到的 ClusterID 作為隱性內(nèi)容標(biāo)簽,并通過調(diào)整聚類相似度門限來動(dòng)態(tài)控制 ClusterID 的粒度,從而實(shí)現(xiàn)自由粒度上的相似內(nèi)容打散和頻控。
基于純靜態(tài)內(nèi)容特征刻畫筆記質(zhì)量,實(shí)現(xiàn)冷啟/長(zhǎng)尾優(yōu)質(zhì)內(nèi)容高效分發(fā)
同時(shí),團(tuán)隊(duì)利用內(nèi)容的后驗(yàn)分發(fā)數(shù)據(jù)(例如點(diǎn)擊率、點(diǎn)贊率、快劃率等),對(duì)預(yù)訓(xùn)練向量進(jìn)行微調(diào),從而實(shí)現(xiàn)對(duì)內(nèi)容分發(fā)質(zhì)量的級(jí)別預(yù)測(cè)。小紅書開創(chuàng)性地構(gòu)建了一整套內(nèi)容質(zhì)量框架,利用封面圖片畫質(zhì)美學(xué)模型和多模態(tài)筆記質(zhì)量分模型,定義有用和美好的內(nèi)容。由于內(nèi)容分發(fā)質(zhì)量完全聚焦在內(nèi)容的靜態(tài)特征上,因此在冷啟動(dòng)和長(zhǎng)尾內(nèi)容推薦上更為有效,不會(huì)受到馬太效應(yīng)的影響,避免了推薦趨向于熱門內(nèi)容的問題。
新筆記冷啟動(dòng),種子人群識(shí)別——去中心化分發(fā)的基礎(chǔ)
小紅書發(fā)現(xiàn),扶持新發(fā)布、低曝光的筆記可以增強(qiáng)作者的發(fā)布意愿。在全域曝光中,大約一半的流量分發(fā)是普通用戶發(fā)表的內(nèi)容。優(yōu)質(zhì)、有價(jià)值、引發(fā)共鳴的內(nèi)容永不過時(shí)。小紅書推薦分發(fā)還具有獨(dú)特的中長(zhǎng)尾流量效應(yīng)。哪怕一條筆記的初始數(shù)據(jù)一般,只要它有價(jià)值,系統(tǒng)捕捉到中長(zhǎng)尾信號(hào),依然會(huì)被推薦給需要的用戶,與發(fā)布時(shí)效無關(guān)。
一個(gè)素人博主沒有多少粉絲,創(chuàng)作的內(nèi)容都有可能成為爆款,帖子點(diǎn)贊量或收藏?cái)?shù)上千。在前文「酒店的床上看西游記」的例子中,發(fā)帖的用戶粉絲量少,主頁(yè)互動(dòng)內(nèi)容也不多,如何對(duì)其進(jìn)行推薦和展示?
這歸結(jié)為推薦系統(tǒng)的一個(gè)核心問題——新內(nèi)容的冷啟動(dòng)。冷啟動(dòng)的問題本質(zhì)是在行為數(shù)據(jù)比較少的情況下充分理解內(nèi)容,從而實(shí)現(xiàn)更精準(zhǔn)的推薦,一般會(huì)被建模為一個(gè) Regret Minimization 問題,主要關(guān)注如何最小化獎(jiǎng)勵(lì)函數(shù)的損失值。其中,獎(jiǎng)勵(lì)函數(shù)的估值標(biāo)準(zhǔn)至關(guān)重要,因?yàn)樗从沉嗣總€(gè)平臺(tái)的不同價(jià)值選擇。
多數(shù)平臺(tái)會(huì)選擇消費(fèi)類指標(biāo),如點(diǎn)擊率和停留時(shí)長(zhǎng),作為獎(jiǎng)勵(lì)函數(shù)的評(píng)估標(biāo)準(zhǔn)。相比別的平臺(tái),小紅書具有更強(qiáng)的 UGC 生態(tài),社區(qū)屬性更強(qiáng)。所以,在冷啟動(dòng)階段,系統(tǒng)更加關(guān)注高質(zhì)量評(píng)論的數(shù)量、挖掘高潛筆記,因?yàn)楦哔|(zhì)量的評(píng)論數(shù)量反映了目標(biāo)人群對(duì)新內(nèi)容的互動(dòng)情況,也即新內(nèi)容是否被準(zhǔn)確分發(fā)到了符合其特性的人群中。
在新內(nèi)容冷啟動(dòng)問題方面,小紅書技術(shù)團(tuán)隊(duì)形成了一套包含 4 步的 pipeline:
1、內(nèi)容信息提?。盒聝?nèi)容剛上傳時(shí),沒有用戶行為信息,只能通過內(nèi)容信息進(jìn)行分發(fā)。技術(shù)團(tuán)隊(duì)運(yùn)用 NLP、CV 和多模態(tài)融合技術(shù),提取內(nèi)容信息,生成相關(guān)的話題和內(nèi)容特征。
2、種子人群圈選和投放:團(tuán)隊(duì)利用內(nèi)容信息定位目標(biāo)人群,這些人群是通過雙塔模型和圖神經(jīng)網(wǎng)絡(luò)產(chǎn)出的用戶 Embedding 進(jìn)行聚類得到的。然后根據(jù)內(nèi)容信息,判斷哪些人群對(duì)新內(nèi)容更感興趣。新內(nèi)容在種子人群中的投放,借助貝葉斯尋優(yōu)調(diào)整 boost 系數(shù),以找到用戶指標(biāo)損失和新內(nèi)容曝光的最優(yōu)權(quán)衡。
3、基于行為反饋的人群擴(kuò)散:在初期分發(fā)后,新內(nèi)容會(huì)積累一定的用戶反饋。小紅書希望將這些新內(nèi)容也分發(fā)給與反饋用戶相似的其他用戶。他們通過 lookalike 模型進(jìn)行人群擴(kuò)散,根據(jù)與新內(nèi)容有過交互的用戶向量生成新內(nèi)容向量,并將其作為向量索引。通過定義不同的用戶向量和新內(nèi)容向量的相似度函數(shù),小紅書推薦系統(tǒng) lookalike 模型的點(diǎn)擊率提高了約 7%。
4、模型承接:在完成初期的冷啟動(dòng)后,新內(nèi)容進(jìn)入正常分發(fā)階段。模型的時(shí)效性決定了模型是否能有效處理新內(nèi)容。通過持續(xù)迭代,目前小紅書首頁(yè)推薦的召回、粗排和精排模型的訓(xùn)練都做到了分鐘級(jí)更新。
最終的效果,小紅書已經(jīng)實(shí)現(xiàn)了每日新內(nèi)容占 40% 曝光,新內(nèi)容的分發(fā)效率(pCTR)與老內(nèi)容持平,且 24 小時(shí)內(nèi)冷啟動(dòng)完成率超過 98%。
推薦多樣性,長(zhǎng)短期興趣的平衡——興趣的探索和保留
在小紅書 APP 首頁(yè),會(huì)用「發(fā)現(xiàn) Explore」定義信息流推薦的場(chǎng)景,希望能夠幫助用戶發(fā)現(xiàn)感興趣的內(nèi)容,或是找到新的興趣。在「發(fā)現(xiàn)」這一目標(biāo)的驅(qū)動(dòng)下,多樣化的推薦顯得尤為重要。
用戶的興趣是多樣化的,并且會(huì)隨著時(shí)間的推移而變化。這些變化可能體現(xiàn)在一天的早晚,一年的四季,或者人生的不同階段。因此,小紅書的推薦系統(tǒng)不僅要提供用戶當(dāng)前感興趣的內(nèi)容,還要積極探索用戶可能感興趣的新領(lǐng)域,以更好地滿足用戶的期待。
為了達(dá)到推薦多樣性的目標(biāo),小紅書推薦系統(tǒng)引入了兩個(gè)關(guān)鍵策略——精細(xì)化信號(hào)利用(Exploitation)和探索(Exploration)。在精細(xì)化信號(hào)利用中,系統(tǒng)對(duì)用戶在多個(gè)場(chǎng)景(如搜索、推薦、個(gè)人頁(yè)和作者頁(yè)等)的各種行為進(jìn)行精細(xì)化利用,歸因不同場(chǎng)景不同權(quán)重,并根據(jù)用戶的行為歷史進(jìn)行序列化建模(實(shí)時(shí)、近一天、近一周、近一個(gè)月、近一年)。這種方法提高了模型對(duì)用戶興趣的捕獲和刻畫能力,有助于滿足用戶的短期興趣。
在探索策略中,系統(tǒng)使用 DPP 和 MGS 等向量打散機(jī)制,解決追打密集導(dǎo)致的實(shí)時(shí)興趣內(nèi)容過量、長(zhǎng)期興趣快速遺忘的問題。同時(shí),系統(tǒng)通過人群召回來解決興趣探索問題,有助于發(fā)現(xiàn)并滿足用戶的長(zhǎng)期興趣。
為了平衡推薦質(zhì)量與多樣性,小紅書提出了滑動(dòng)頻譜分解(Sliding Spectrum Decomposition,SSD)模型。在信息流推薦場(chǎng)景中,SSD 模型通過高效的滑窗計(jì)算,將單篇模型的價(jià)值排序轉(zhuǎn)化為整個(gè)瀏覽周期的建模。
在多樣性的定義中,需要利用 Embedding 來計(jì)算內(nèi)容的相似度。相對(duì)于頭部?jī)?nèi)容,中長(zhǎng)尾內(nèi)容的用戶交互數(shù)據(jù)更加稀疏,傳統(tǒng)的協(xié)同過濾方法在計(jì)算相似度時(shí)效果不佳。因此,團(tuán)隊(duì)設(shè)計(jì)了一種基于內(nèi)容的協(xié)同過濾方法(CB2CF),使用內(nèi)容信息預(yù)測(cè)協(xié)同過濾的結(jié)果,更有效地衡量中長(zhǎng)尾內(nèi)容的相似性。CB2CF 方法僅使用內(nèi)容作為輸入,依賴模型的泛化能力為新內(nèi)容提供良好的預(yù)測(cè)結(jié)果,同時(shí)依賴全體用戶的協(xié)同標(biāo)注獲取用戶感知的信號(hào),從而提高推薦質(zhì)量。
CB2CF 的思想源于微軟 2019 年發(fā)表在 RecSys 上的工作。小紅書在此基礎(chǔ)上改進(jìn)了 loss 的構(gòu)造方法,取得了更好的結(jié)果
大模型時(shí)代,推薦系統(tǒng)的下一站
作為近年來增長(zhǎng)最快速的移動(dòng)互聯(lián)網(wǎng)平臺(tái)之一,小紅書證明了推薦系統(tǒng)可以兼顧用戶價(jià)值和平臺(tái)利益。當(dāng)用戶在平臺(tái)表達(dá)自己的偏好,如對(duì)哪種類型的內(nèi)容感興趣、希望看到和不希望看到哪些人或事等,推薦系統(tǒng)會(huì)精準(zhǔn)的感知并不斷調(diào)優(yōu)來滿足用戶需求。這樣,用戶的滿意度提升,社區(qū)持續(xù)長(zhǎng)大,平臺(tái)的流量?jī)r(jià)值和商業(yè)利益就在其中自然而然地生長(zhǎng)起來。
在大模型時(shí)代,推薦系統(tǒng)正面臨著前所未有的發(fā)展機(jī)遇。大模型具有強(qiáng)大的泛化能力和知識(shí)理解能力,可以為推薦系統(tǒng)帶來更精準(zhǔn)的推薦結(jié)果、更好的用戶體驗(yàn),以及解決實(shí)際問題的能力。然而,大模型在推薦系統(tǒng)中的應(yīng)用也面臨著諸多挑戰(zhàn),如計(jì)算資源需求、模型可解釋性等。
隨著大模型的蓬勃發(fā)展,小紅書的推薦系統(tǒng)將如何演進(jìn)?
目前,在推薦系統(tǒng)與大模型結(jié)合領(lǐng)域,存在兩種技術(shù)路線:一種是將大語(yǔ)言模型(LLM)發(fā)展或改造成為一個(gè)推薦系統(tǒng),另一種則是將現(xiàn)有推薦系統(tǒng)與 LLM 結(jié)合,例如將 LLM 作為特征編碼器,或者作為推薦 pipeline 的控制/調(diào)度模塊。
在第一種路線上,小紅書進(jìn)行了一系列的嘗試?,F(xiàn)階段而言,主要挑戰(zhàn)在于處理速度過慢。盡管輸入的參數(shù)有時(shí)會(huì)帶來出人意料的結(jié)果,但這種方法與長(zhǎng)期積累的推薦系統(tǒng)工具和算法之間存在斷裂。小紅書技術(shù)團(tuán)隊(duì)發(fā)現(xiàn),如果完全依賴于 LLM 進(jìn)行推薦,那么推薦性能將從一個(gè)相對(duì)高的行業(yè)基線跌落。因此,小紅書技術(shù)團(tuán)隊(duì)目前更偏向于后者,也即在推薦系統(tǒng)的傳統(tǒng)流程中融入 LLM 的功能,他們認(rèn)為這是一個(gè)極具潛力的研究方向。
總的來說,推薦系統(tǒng)與大模型的結(jié)合具有巨大的發(fā)展前景,特別是讓用戶能夠接受和系統(tǒng)進(jìn)行多輪交互這一點(diǎn),與傳統(tǒng)搜推系統(tǒng)場(chǎng)景不同,大多數(shù)用戶都愿意與 ChatGPT 等 LLM 多聊上幾句,讓推薦系統(tǒng)有了更多機(jī)會(huì)去學(xué)習(xí)和了解用戶的意圖和需求,而傳統(tǒng)場(chǎng)景下用戶在最初一兩次搜索沒有得到想要的結(jié)果后便會(huì)離開。因此,對(duì)于有明確業(yè)務(wù)場(chǎng)景的公司,可以在大模型時(shí)代挖掘出新的機(jī)會(huì)。
結(jié)語(yǔ)
在網(wǎng)絡(luò)內(nèi)容爆炸的當(dāng)下,小紅書的推薦系統(tǒng)通過其獨(dú)特的算法和設(shè)計(jì),為普通人提供了一個(gè)發(fā)現(xiàn)和被發(fā)現(xiàn)的平臺(tái)。這種理念背后的用戶導(dǎo)向和社區(qū)價(jià)值,讓每個(gè)用戶的聲音都有可能被放大,成為共鳴的起點(diǎn)。
隨著技術(shù)的發(fā)展,推薦系統(tǒng)需要更多人性化的考慮,例如,如何在確保內(nèi)容質(zhì)量和保持算法公正性之間找到平衡,如何避免讓不具備長(zhǎng)期價(jià)值的內(nèi)容被過度放大。大模型時(shí)代,推薦系統(tǒng)的可解釋性和透明度如何增強(qiáng),也是一個(gè)重要的挑戰(zhàn)。
在小紅書的案例中,我們看到了技術(shù)如何助力構(gòu)建更加平等和多元的內(nèi)容生態(tài),這個(gè)過程中的技術(shù)抉擇和價(jià)值考量是推動(dòng)社區(qū)長(zhǎng)期健康發(fā)展的關(guān)鍵。對(duì)于用戶而言,思考這些問題,不僅是享受個(gè)性化內(nèi)容帶來的便捷,也是理解和參與未來數(shù)字社會(huì)的重要一步。