資料挖掘 - 挖掘網際網路


全球資訊網包含了龐大的資訊,如超連結資訊,網頁存取資訊,教育等,提供用於資料挖掘豐富來源。

Web挖掘的挑戰

在網路構成的基礎上,以下意見供資源和知識發現的巨大挑戰:

  • 該網站是過於龐大 - 對纖維網的大小是非常巨大和迅速增加。這似乎是網路過於龐大的資料倉庫和資料挖掘。

  • Web頁面的複雜性 - 該網頁並沒有統一的結構。相對於傳統的文字文件,他們是非常複雜的。有在網路的數位圖書館大量的檔案。根據在任何特定的排序順序這些庫沒有安排。

  • 網路是動態的資訊源 - 在網路上的資訊被迅速更新。資料如新聞,股市,天氣,體育,購物等會定期更新。

  • 使用者群體的多樣性 - 在網路上的使用者群體正在迅速擴大。這些使用者有不同的背景,興趣,以及使用目的。但是也有一些連線到網際網路,仍然迅速增加超過1億的工作站。

  • 資訊的相關性 - 可以認為,一個特定的人通常是感興趣的網頁只有一小部分,而腹板的部分的其餘部分包含的是不相關的使用者和可能淹沒想要的結果的資訊。

挖掘Web頁面布局結構

網頁的基本結構是基於文件物件模型(DOM)。 DOM結構指狀結構樹。在這種結構中的頁的HTML標籤對應於DOM樹中的節點。我們可以分段使用預先定義的標籤的HTML網頁。在HTML的語法很靈活,因此,網頁不遵循W3C規範。不遵循W3C的規範可能在DOM樹結構導致錯誤。

DOM結構最初被引入供呈現在瀏覽器中不為所述網頁的語意結構的描述。 DOM結構不能正確識別網頁的不同部分之間的語意關係。

基於視覺的網頁分塊(VIPS)

  • VIPS的目的是提取網頁的基礎上它的視覺呈現的語意結構。

  • 這樣的一個語意結構對應於樹結構。在這個樹中的每個節點對應一個塊。

  • 值被分配給每個節點。這個值被稱為相干度。這個值被分配以指示如何相干是基於視覺感知的塊中的內容。

  • 在VIPS演算法首先提取從HTML DOM樹中的所有合適的塊。之後,它發現這些塊之間的分隔符。

  • 分離器是指在網頁中的水平線或垂直線在視覺上沒有塊交叉。

  • 該網頁的語意構造這些塊的基礎上。

下圖顯示的VIPS演算法的程式:

VIPS