資料挖掘的關鍵問題


資料挖掘是不那麼容易。所使用的演算法是很複雜的。資料不可用在需要將其整合形成的各種異構資料源的一個地方。這些因素也造成了一些問題。在這裡,在本教學中,我們將討論有關重大問題:

  • 挖掘方法和使用者互動

  • 效能問題

  • 不同資料型別的問題

下圖描述的重大問題:

Data Mining issues

挖掘方法和使用者互動的問題

它是指下列型別的問題:

  • 挖掘不同型別的知識在資料庫 - 不同使用者的需要是不一樣的。和不同的使用者可能會在感興趣的不同種類的知識。因此,有必要進行資料挖掘涵蓋範圍廣泛的知識發現任務。

  • 知識的多層次的抽象互動挖掘 - 資料挖掘過程需要有互動的,因為它可以讓使用者專注於搜尋模式,提供基於返回的結果提煉資料挖掘請求。

  • 成立背景知識 - 以引導發現過程和要表達的發現的模式,背景知識都可以使用。背景知識可以用來表達發現的模式不僅在簡潔的條款在多個抽象層次.

  • 資料挖掘查詢語言和特殊資料挖掘 - 資料挖掘查詢語言,它允許使用者以描述特設挖掘任務時,應與資料倉庫查詢語言整合和高效,靈活的資料挖掘優化。

  • 演示資料挖掘結果的和視覺化 - 一旦模式被發現,它需要被表達的高階語言,視覺化表示。這個宣告應該是很容易理解的使用者。

  • 處理噪音或不完整的資料 - 資料清洗方法是必需的,可以處理噪聲,不完整的物件,同時挖掘資料的規律性。如果資料清洗方法是不是有那麼發現的模式的精度會很差。

  • 模式評估 - 它指的是該問題的興趣性。因為無論他們代表的常識或缺乏新穎性發現的模式應該是有趣的。

效能問題

它指的是下列問題:

  • 效率和資料挖掘演算法的可延伸性. - 為了有效地從巨大量的資料庫中的資料中提取的資訊,資料挖掘演算法必須是高效的,可延伸的。

  • 並行,分散式和增量挖掘演算法. - 因素,如資料庫規模龐大的資料挖掘方法,資料分布廣,複雜性和激勵的並行和分散式資料挖掘演算法的開發。這些演算法將資料劃分為分割區,其中被進一步處理並行。然後從分割區的結果合併。增量演算法,而無需再次礦井中的資料從頭開始更新資料庫。

不同資料型別的問題

  • 處理關係和複雜型別的資料 - 該資料庫可包含複雜的資料物件,多媒體資料物件,空間資料,時間資料等,這是不可能的一個系統到礦井所有這些種類的資料。

  • 從異構資料庫和全球資訊系統挖掘資訊. - 該資料可在區域網或廣域網的不同的資料源。這些資料源可以被結構化,半結構化或非結構化的。因此,從他們身上挖掘知識增加了挑戰,資料挖掘。