Electronic retailing marketing type site allows your website are born
你當(dāng)前所在的位置:首頁 > 網(wǎng)站運(yùn)營資訊 > 百度TF-IDF算法詳解
百度百科是這樣說的:
“TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)?!?
文章鏈接:https://baike.baidu.com/item/tf-idf
舉一個(gè)簡單易懂的案例。
假如說我們?cè)诎俣壬纤阉鳌八边@個(gè)詞,百度爬蟲抓取的網(wǎng)站內(nèi)容有下面5個(gè),你覺得哪個(gè)內(nèi)容排名第一?
- 內(nèi)容1: 水果有水果,水果,水果,水果,水果
- 內(nèi)容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子
- 內(nèi)容3: 蔬菜都很好吃,我最愛吃茄子了
- 內(nèi)容4: 蘋果,梨子都是很好吃的水果
- 內(nèi)容5:好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃
相信很多人心里面有了答案,大家憑直覺,內(nèi)容2 跟 內(nèi)容5 應(yīng)該排名靠前,內(nèi)容5很可能是第1,內(nèi)容2是排名第2。
其實(shí)按照TF-IDF算法也能得出這個(gè)結(jié)論,那么TF-IDF是怎么做的,請(qǐng)大家跟上我的步伐。
我們先統(tǒng)計(jì)各個(gè)詞語被包含的文章數(shù)。比如“水果”被4篇文章(內(nèi)容1、2、4、5)引用,4就是“水果”的逆文檔頻率。
分詞后,各個(gè)單詞的逆文檔頻率如下:
水果=4、蘋果=3、好吃=2、菠蘿=2、西瓜=2、梨子=2,桃子=1、獼猴桃=1、蔬菜=1,茄子=1
PS: IDF= log(語料庫中的文件總數(shù) / 包含詞語 t 的文件數(shù)目),為了便于理解,這里做了精簡。
按照我們的直覺,如果一篇文章把逆文檔頻率最高的前面的詞都包含了,說明這篇文章內(nèi)容更貼合用戶意圖,更受到搜索引擎喜歡?;氐嚼?,"水果、蘋果"是本例中重要性最高的2個(gè)詞,如果內(nèi)容中包含“水果、蘋果”,那么這篇內(nèi)容質(zhì)量就越好。
所以把包含“水果、蘋果”的內(nèi)容拿出來,就是比較靠譜的內(nèi)容了:
- 內(nèi)容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子
- 內(nèi)容4: 蘋果,梨子都是很好吃的水果
- 內(nèi)容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃
我們把內(nèi)容1、內(nèi)容3砍掉了,剩下的內(nèi)容2、內(nèi)容4、內(nèi)容5怎么排序。我們想一下,一個(gè)詞語在內(nèi)容中出現(xiàn)的次數(shù)越高,也說明這個(gè)詞語對(duì)這篇文章更重要?;氐奖纠八笔俏覀兊暮诵脑~,那么因?yàn)閮?nèi)容5中出現(xiàn)“水果”兩次,內(nèi)容2、內(nèi)容4次數(shù)是1,那么內(nèi)容5勝出。最后的排序結(jié)果如下
- 內(nèi)容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃 (第一名)
- 內(nèi)容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子(第二名)
- 內(nèi)容4: 蘋果,梨子都是很好吃的水果(第三名)
-內(nèi)容1: 水果有水果,水果,水果,水果,水果(相關(guān)度不夠,被剔除)
-內(nèi)容3: 蔬菜都很好吃,我最愛吃茄子了( 相關(guān)度不夠,被剔除 )
重要的事情說三遍!
我們可以看到,TFIDF算法,不僅可以衡量關(guān)鍵詞對(duì)頁面的重要性,更能衡量文章的廣度相關(guān)性。對(duì)于百度、360、google來說,TFIDF算法的出現(xiàn)屏蔽了一大批用關(guān)鍵詞密度來獲取排名的SEO小白,同時(shí)提升了搜索質(zhì)量啊,真是一箭雙雕。
百度百科里面說了:“除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會(huì)使用基于鏈接分析的評(píng)級(jí)方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序。”。意思是什么?你排名可以由下面的公式?jīng)Q定。文章得分=TFIDF得分+鏈接得分,百度搜索引擎在用TFIDF??!
百度專利中使用TFIDF的實(shí)錘,請(qǐng)查看百度專利文檔《CN102737018A-基于非線性統(tǒng)一權(quán)值對(duì)檢索結(jié)果進(jìn)行排序的方法及裝置-公開》。搜索算法來去匆匆,百度算法更新迭代也非???,但是TFIDF算法有點(diǎn)不同,它是目前最核心的搜索算法之一。
google承認(rèn)在搜索中使用的TFIDF算法:原文鏈接:https://www.searchenginejournal.com/google-tf-idf/304361/
如果搜索引擎確定使用TF-IDF對(duì)網(wǎng)頁內(nèi)容作為評(píng)判質(zhì)量的因子,那么這個(gè)比重有多大?現(xiàn)在的搜索引擎一般用如下的算法計(jì)算網(wǎng)站頁面得分:score(頁面得分) = TFIDF分 * x + 鏈接分 * y + 用戶體驗(yàn)分 * z(其中x+y+z=100%;);
排名得分=40%的內(nèi)容質(zhì)量(TFIDF)+40%的用戶體驗(yàn)分(快排)+20%的鏈接分(域名+外鏈),TFIDF重要程度不言而喻。
上一條:新網(wǎng)站如何做百度收錄
下一條:沒有啦! |