資料挖掘 - 挖掘網際網路

全球資訊網包含了龐大的資訊，如超連結資訊，網頁存取資訊，教育等，提供用於資料挖掘豐富來源。

Web挖掘的挑戰

在網路構成的基礎上，以下意見供資源和知識發現的巨大挑戰：

該網站是過於龐大 - 對纖維網的大小是非常巨大和迅速增加。這似乎是網路過於龐大的資料倉庫和資料挖掘。
Web頁面的複雜性 - 該網頁並沒有統一的結構。相對於傳統的文字文件，他們是非常複雜的。有在網路的數位圖書館大量的檔案。根據在任何特定的排序順序這些庫沒有安排。
網路是動態的資訊源 - 在網路上的資訊被迅速更新。資料如新聞，股市，天氣，體育，購物等會定期更新。
使用者群體的多樣性 - 在網路上的使用者群體正在迅速擴大。這些使用者有不同的背景，興趣，以及使用目的。但是也有一些連線到網際網路，仍然迅速增加超過1億的工作站。
資訊的相關性 - 可以認為，一個特定的人通常是感興趣的網頁只有一小部分，而腹板的部分的其餘部分包含的是不相關的使用者和可能淹沒想要的結果的資訊。

網頁的基本結構是基於文件物件模型（DOM）。 DOM結構指狀結構樹。在這種結構中的頁的HTML標籤對應於DOM樹中的節點。我們可以分段使用預先定義的標籤的HTML網頁。在HTML的語法很靈活，因此，網頁不遵循W3C規範。不遵循W3C的規範可能在DOM樹結構導致錯誤。

DOM結構最初被引入供呈現在瀏覽器中不為所述網頁的語意結構的描述。 DOM結構不能正確識別網頁的不同部分之間的語意關係。

下圖顯示的VIPS演算法的程式：