隨著網(wǎng)絡技術和信息技術的飛速發(fā)展,網(wǎng)絡已經成為人們獲取信息的一個重要途徑,F(xiàn)有的搜索引擎面臨的最大一個問題就是返回的結果集中包含大量重復的信息。如何更有效地幫助用戶獲取所需要的信息,能夠快速、準確地為用戶提供信息,是網(wǎng)絡信息服務面臨的新課題。優(yōu)化搜索結果可以采用多種手段,如通過提取網(wǎng)頁的特征進行基于內容的信息檢索,利用用戶反饋的信息進一步精確檢索結果,將結果集中的重復信息盡可能地消除等。
由于網(wǎng)絡信息分布的特點,網(wǎng)站上的信息存在相互轉載及鏡像站點等情況。出現(xiàn)相同網(wǎng)頁主要有以下幾種情形:網(wǎng)頁的URL完全相同;網(wǎng)頁的URL形式不同,但網(wǎng)站域名所對應的IP是相同的;URL雖然不同,但網(wǎng)頁內容完全相同;URL不同,為不同的網(wǎng)頁形式,但網(wǎng)頁上主要內容是相同的。本文主要討論對于網(wǎng)頁內容重復性的消除。