close
謝邦昌教授/ 輔仁大學統計資訊學系教授 & 中華資料採礦協會理事長
統計學和資料採礦有著共同的目標:發現資料中的結構。事實上,由於它們的目標相似,一些人(尤其是統計學家)認為資料採礦是統計學的分支。這是一個不切合實際的看法。因為資料採礦還應用了其他領域的思想、工具和方法,尤其是電腦學科,例如資料庫技術和機器學習,而且它所關注的某些領域和統計學家所關注的有很大不同。
統計學和資料採礦研究目標的重迭自然導致了迷惑。事實上,有時候還導致了反感。統計學有著正統的理論基礎(尤其是經過本世紀的發展),而現在又出現了一個新的學科,有新的主人,而且聲稱要解決統計學家們以前認為是他們領域的問題。這必然會引起關注。更多的是因為這門新學科有著一個吸引人的名字,勢必會引發大家的興趣和好奇。把「資料採礦」這個術語所潛在的承諾和「統計學」作比較的話,統計的最初含義是「陳述事實」,以及找出枯燥的大量資料背後的有意義的資訊。當然,統計學的現代的含義已經有很大不同的事實。而且,這門新學科同商業有特殊的關聯(儘管它還有科學及其它方面的應用)。
本文的目的是逐個考察這兩門學科的性質,區分它們的異同,並關注與資料採礦相關聯的一些難題。首先,我們注意到「資料採礦」對統計學家來說並不陌生。例如,Everitt定義它為:「僅僅是考察大量的資料驅動的模型,從中發現最適合的」。統計學家因而會忽略對資料進行特別的分析,因為他們知道太細緻的研究卻難以發現明顯的結構。儘管如此,事實上大量的資料可能包含不可預測的但很有價值的結構。而這恰恰引起了注意,也是當前資料採礦的任務。
1.統計學的性質
試圖為統計學下一個太寬泛的定義是沒有意義的。儘管可能做到,但會引來很多異議。相反,我要關注統計學不同於資料採礦的特性。差異之一同上節中最後一段提到的相關,即統計學是一門比較保守的學科,目前有一種趨勢是越來越精確。當然,這本身並不是壞事,只有越精確才能避免錯誤,發現真理。但是如果過度的話則是有害的。這個保守的觀點源於統計學是數學的分支這樣一個看法,我是不同意這個觀點的,儘管統計學確實以數學為基礎(正如物理和工程也以數學為基礎,但沒有被認為是數學的分支),但它同其他學科還有緊密的聯繫。
數學背景和追求精確加強了這樣一個趨勢:在採用一個方法之前先要證明,而不是象電腦科學和機器學習那樣注重經驗。這就意味著有時候和統計學家關注同一問題的其他領域的研究者提出一個很明顯有用的方法,但它卻不能被證明(或還不能被證明)。統計雜誌傾向於發表經過數學證明的方法而不是一些特殊方法。資料採礦作為幾門學科的綜合,已經從機器學習那裡繼承了實驗的態度。這並不意味著資料採礦工作者不注重精確,而只是說明如果方法不能產生結果的話就會被放棄。
正是統計文獻顯示了(或誇大了)統計的數學精確性。同時還顯示了其對推理的側重。儘管統計學的一些分支也側重於描述,但是流覽一下統計論文的話就會發現這些文獻的核心問題就是在觀察了樣本的情況下如何去推斷總體。當然這也常常是資料採礦所關注的。下面我們會提到資料採礦的一個特定屬性就是要處理的是一個大資料集。這就意味著,由於可行性的原因,我們常常得到的只是一個樣本,但是需要描述樣本取自的那個大資料集。然而,資料採礦問題常常可以得到資料總體,例如關於一個公司的所有職工資料,資料庫中的所有客戶資料,去年的所有業務。在這種情形下,推斷就沒有價值了(例如,年度業務的平均值),因為觀測到的值也就是估計參數。這就意味著,建立的統計模型可能會利用一系列概率表述(例如,一些參數接近於0,則會從模型中剔除掉),但當總體資料可以獲得的話,在資料採礦中則變得毫無意義。在這裡,我們可以很方便的應用評估函數:針對資料的足夠的表述。事實是,常常所關注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發現很容易。例如,在尋找規則時常常會利用吻合度的單純特性(例如,應用分支定理)。但當我們應用概率陳述時則不會得到這些特性。
統計學和資料採礦部分交迭的第三個特性是在現代統計學中起核心作用的「模型」。或許「模型」這個術語更多的含義是變化。一方面,統計學模型是基於分析變數間的聯繫,但另一方面這些模型關於資料的總體描述確實沒有道理的。關於信用卡業務的回歸模型可能會把收入作為一個獨立的變數,因為一般認為高收入會導致大的業務。這可能是一個理論模型(儘管基於一個不牢靠的理論)。與此相反,只需在一些可能具有解釋意義的變數基礎上進行逐步的搜索,從而獲得一個有很大預測價值的模型,儘管不能作出合理的解釋。(通過資料採礦去發現一個模型的時候,常常關注的就是後者)。
還有其他方法可以區分統計模型,但在這裡我將不作探討。這裡我想關注的是,現代統計學是以模型為主的。而計算,模型選擇條件是次要的,只是如何建立一個好的模型。但在資料採礦中,卻不完全是如此。在資料採礦中,準則起了核心的作用。(當然在統計學中有一些以準則為中心的獨立的特例。Gifi的關於學校的非線性多變數分析就是其中之一。例如,Gifi說,在本書中我們持這樣的觀點,給定一些最常用的MVA(多變數分析)問題,既可以從模型出發也可以技術出發。正如我們已經在1.1節所看到的基於模型的經典的多變數統計分析,……然而,在很多情形下,模型的選擇並不都是顯而易見的,選擇一個合適的模型是不可能的,最合適的計算方法也是不可行的。在這種情形下,我們從另外一個角度出發,應用設計的一系列技術來回答MVA問題,暫不考慮模型和最優判別的選擇。
相對於統計學而言,準則在資料採礦中起著更為核心的作用並不奇怪,資料採礦所繼承的學科如電腦科學及相關學科也是如此。資料集的規模常常意味著傳統的統計學準則不適合資料採礦問題,不得不重新設計。部分地,當資料點被逐一應用以更新估計量,適應性和連續性的準則常常是必須的。儘管一些統計學的準則已經得到發展,但更多的應用是機器學習。(正如「學習」所示的那樣)
很多情況下,資料採礦的本質是很偶然的發現非預期但很有價值的資訊。這說明資料採礦過程本質上是實驗性的。這和確定性的分析是不同的。(實際上,一個人是不能完全確定一個理論的,只能提供證據和不確定的證據。)確定性分析著眼於最適合的模型-建立一個推薦模型,這個模型也許不能很好的解釋觀測到的資料。很多,或許是大部分統計分析提出的是確定性的分析。然而,實驗性的資料分析對於統計學並不是新生事務,或許這是統計學家應該考慮作為統計學的另一個基石,而這已經是資料採礦的基石。所有這些都是正確的,但事實上,資料採礦所遇到的資料集按統計標準來看都是巨大的。在這種情況下,統計工具可能會失效:百萬個偶然因素可能就會使其失效。
如果資料採礦的主要目的是發現,那它就不關心統計學領域中的在回答一個特定的問題之前,如何很好的蒐集資料,例如實驗設計和調查設計。資料採礦本質上假想資料已經被蒐集好,關注的只是如何發現其中的秘密。
2.資料採礦的性質
由於統計學基礎的建立在電腦的發明和發展之前,所以常用的統計學工具包含很多可以手工實現的方法。因此,對於很多統計學家來說,1000個資料就已經是很大的了。但這個「大」對於英國大的信用卡公司每年350,000,000筆業務或AT&T每天200,000,000個長途呼叫來說相差太遠了。很明顯,面對這麼多的資料,則需要設計不同於那些「原則上可以用手工實現」的方法。這意味這電腦(正是電腦使得大資料可能實現)對於資料的分析和處理是關鍵的。分析者直接處理資料將變得不可行。相反,電腦在分析者和資料之間起到了必要的過濾的作用。這也是資料採礦特別注重準則的另一原因。儘管有必要,把分析者和資料分離開很明顯導致了一些關聯任務。這裡就有一個真正的危險:非預期的模式可能會誤導分析者,這一點我下面會討論。
我不認為在現代統計中電腦不是一個重要的工具。它們確實是,並不是因為資料的規模。對資料的精確分析方法如bootstrap方法、隨機測試,迭代估計方法以及比較適合的複雜的模型正是有了電腦才是可能的。電腦已經使得傳統統計模型的視野大大的擴展了,還促進了新工具的飛速發展。
下面來關注一下歪曲資料的非預期的模式出現的可能性。這和資料品質相關。所有資料分析的結論依賴於資料品質。GIGO的意思是垃圾進,垃圾出,它的引用到處可見。一個資料分析者,無論他多聰明,也不可能從垃圾中發現寶石。對於大的資料集,尤其是要發現精細的小型或偏離常規的模型的時候,這個問題尤其突出。當一個人在尋找百萬分之一的模型的時候,第二個小數位的偏離就會起作用。一個經驗豐富的人對於此類最常見的問題會比較警覺,但出錯的可能性太多了。
此類問題可能在兩個層次上產生。第一個是微觀層次,即個人記錄。例如,特殊的屬性可能丟失或輸錯了。我知道一個案例,由於挖掘者不知道,丟失的資料被記錄為99而作為真實的資料處理。第二個是宏觀層次,整個資料集被一些選擇機制所歪曲。交通事故為此提供了一個好的示例。越嚴重的、致命的事故,其記錄越精確,但小的或沒有傷害的事故的記錄卻沒有那麼精確。事實上,很高比例的資料根本沒有記錄。這就造成了一個歪曲的映像-可能會導致錯誤的結論。
統計學很少會關注即時分析,然而資料採礦問題常常需要這些。例如,銀行事務每天都會發生,沒有人能等三個月得到一個可能的欺詐的分析。類似的問題發生在總體隨時間變化的情形。我的研究組有明確的例子顯示銀行債務的申請隨時間、競爭環境、經濟波動而變化。
至此,我們已經論述了資料分析的問題,說明了資料採礦和統計學的差異,儘管有一定的重迭。但是,資料採礦者也不可持完全非統計的觀點。首先來看一個例子:獲得資料的問題。統計學家往往把資料看成一個按變數交叉分類的平面表,存儲於電腦等待分析。如果資料量較小,可以讀到記憶體,但在許多資料採礦問題中這是不可能的。更糟糕的是,大量的資料常常分佈在不同的電腦上。或許極端的是,資料分佈在全球互聯網上。此類問題使得獲得一個簡單的樣本不大可能。(先不管分析「整個資料集」的可能性,如果資料是不斷變化的這一概念可能是不存在的,例如電話呼叫)
當描述資料採礦技術的時候,我發現依據以建立模型還是模式發現為目的可以很方便的區分兩類常見的工具。我已經提到了模型概念在統計學中的核心作用。在建立模型的時候,儘量要概括所有的資料,以及識別、描述分佈的形狀。這樣的「全」模型的例子如對一系列資料的聚類分析,回歸預測模型,以及基於樹的分類法則。相反,在模式發現中,則是儘量識別小的(但不一定不重要)偏差,發現行為的異常模式。例如EEG軌跡中的零星波形、信用卡使用中的異常消費模式,以及不同於其他特徵的物件。很多時候,這第二種實驗是資料採礦的本質-試圖發現渣滓中的金塊。然而,第一類實驗也是重要的。當關注的是全局模型的建立的話,樣本是可取的(可以基於一個十萬大小的樣本發現重要的特性,這和基於一個千萬大小的樣本是等效的,儘管這部分的取決於我們想法的模型的特徵。然而,模式發現不同於此。僅選擇一個樣本的話可能會忽略所希望檢測的情形。
儘管統計學主要關注的是分析定量資料,資料採礦的多來源意味著還需要處理其他形式的資料。特別的,邏輯資料越來越多-例如當要發現的模式由連接的和分離的要素組成的時候。類似的,有時候會碰到高度有序的結構。分析的要素可能是圖像,文本,語言信號,或者甚至完全是(例如,在交替分析中)科學研究資料。
3.討論
資料採礦有時候是一次性的實驗。這是一個誤解。它更應該被看作是一個不斷的過程(儘管資料集時確定的)。從一個角度檢查資料可以解釋結果,以相關的觀點檢查可能會更接近等等。關鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。資料採礦的本質是發現非預期的模式-同樣非預期的模式要以非預期的方法來發現。
與把資料採礦作為一個過程的觀點相關聯的是認識到結果的新穎性。許多資料採礦的結果是我們所期望的-可以回顧。然而,可以解釋這個事實並不能否定挖掘出它們的價值。沒有這些實驗,可能根本不會想到這些。實際上,只有那些可以依據過去經驗形成的合理的解釋的結構才會是有價值的。
顯然在資料採礦存在著一個潛在的機會。在大資料集中發現模式的可能性當然存在,大資料集的數量與日俱增。然而,也不應就此掩蓋危險。所有真正的資料集(即使那些是以完全自動方式蒐集的資料)都有產生錯誤的可能。關於人的資料集(例如事務和行為資料)尤其有這種可能。這很好的解釋了絕大部分在資料中發現的「非預期的結構」本質上是無意義的,而是因為偏離了理想的過程。(當然,這樣的結構可能會是有意義的:如果資料有問題,可能會干擾蒐集資料的目的,最好還是瞭解它們)。與此相關聯的是如何確保(和至少為事實提供支援)任何所觀察到的模式是「真實的」,它們反應了一些潛在的結構和關聯而不僅僅是一個特殊的資料集,由於一個隨機的樣本碰巧發生。在這裡,記分方法可能是相關的,但需要更多的統計學家和資料採礦工作者的研究。
統計學和資料採礦有著共同的目標:發現資料中的結構。事實上,由於它們的目標相似,一些人(尤其是統計學家)認為資料採礦是統計學的分支。這是一個不切合實際的看法。因為資料採礦還應用了其他領域的思想、工具和方法,尤其是電腦學科,例如資料庫技術和機器學習,而且它所關注的某些領域和統計學家所關注的有很大不同。
統計學和資料採礦研究目標的重迭自然導致了迷惑。事實上,有時候還導致了反感。統計學有著正統的理論基礎(尤其是經過本世紀的發展),而現在又出現了一個新的學科,有新的主人,而且聲稱要解決統計學家們以前認為是他們領域的問題。這必然會引起關注。更多的是因為這門新學科有著一個吸引人的名字,勢必會引發大家的興趣和好奇。把「資料採礦」這個術語所潛在的承諾和「統計學」作比較的話,統計的最初含義是「陳述事實」,以及找出枯燥的大量資料背後的有意義的資訊。當然,統計學的現代的含義已經有很大不同的事實。而且,這門新學科同商業有特殊的關聯(儘管它還有科學及其它方面的應用)。
本文的目的是逐個考察這兩門學科的性質,區分它們的異同,並關注與資料採礦相關聯的一些難題。首先,我們注意到「資料採礦」對統計學家來說並不陌生。例如,Everitt定義它為:「僅僅是考察大量的資料驅動的模型,從中發現最適合的」。統計學家因而會忽略對資料進行特別的分析,因為他們知道太細緻的研究卻難以發現明顯的結構。儘管如此,事實上大量的資料可能包含不可預測的但很有價值的結構。而這恰恰引起了注意,也是當前資料採礦的任務。
1.統計學的性質
試圖為統計學下一個太寬泛的定義是沒有意義的。儘管可能做到,但會引來很多異議。相反,我要關注統計學不同於資料採礦的特性。差異之一同上節中最後一段提到的相關,即統計學是一門比較保守的學科,目前有一種趨勢是越來越精確。當然,這本身並不是壞事,只有越精確才能避免錯誤,發現真理。但是如果過度的話則是有害的。這個保守的觀點源於統計學是數學的分支這樣一個看法,我是不同意這個觀點的,儘管統計學確實以數學為基礎(正如物理和工程也以數學為基礎,但沒有被認為是數學的分支),但它同其他學科還有緊密的聯繫。
數學背景和追求精確加強了這樣一個趨勢:在採用一個方法之前先要證明,而不是象電腦科學和機器學習那樣注重經驗。這就意味著有時候和統計學家關注同一問題的其他領域的研究者提出一個很明顯有用的方法,但它卻不能被證明(或還不能被證明)。統計雜誌傾向於發表經過數學證明的方法而不是一些特殊方法。資料採礦作為幾門學科的綜合,已經從機器學習那裡繼承了實驗的態度。這並不意味著資料採礦工作者不注重精確,而只是說明如果方法不能產生結果的話就會被放棄。
正是統計文獻顯示了(或誇大了)統計的數學精確性。同時還顯示了其對推理的側重。儘管統計學的一些分支也側重於描述,但是流覽一下統計論文的話就會發現這些文獻的核心問題就是在觀察了樣本的情況下如何去推斷總體。當然這也常常是資料採礦所關注的。下面我們會提到資料採礦的一個特定屬性就是要處理的是一個大資料集。這就意味著,由於可行性的原因,我們常常得到的只是一個樣本,但是需要描述樣本取自的那個大資料集。然而,資料採礦問題常常可以得到資料總體,例如關於一個公司的所有職工資料,資料庫中的所有客戶資料,去年的所有業務。在這種情形下,推斷就沒有價值了(例如,年度業務的平均值),因為觀測到的值也就是估計參數。這就意味著,建立的統計模型可能會利用一系列概率表述(例如,一些參數接近於0,則會從模型中剔除掉),但當總體資料可以獲得的話,在資料採礦中則變得毫無意義。在這裡,我們可以很方便的應用評估函數:針對資料的足夠的表述。事實是,常常所關注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發現很容易。例如,在尋找規則時常常會利用吻合度的單純特性(例如,應用分支定理)。但當我們應用概率陳述時則不會得到這些特性。
統計學和資料採礦部分交迭的第三個特性是在現代統計學中起核心作用的「模型」。或許「模型」這個術語更多的含義是變化。一方面,統計學模型是基於分析變數間的聯繫,但另一方面這些模型關於資料的總體描述確實沒有道理的。關於信用卡業務的回歸模型可能會把收入作為一個獨立的變數,因為一般認為高收入會導致大的業務。這可能是一個理論模型(儘管基於一個不牢靠的理論)。與此相反,只需在一些可能具有解釋意義的變數基礎上進行逐步的搜索,從而獲得一個有很大預測價值的模型,儘管不能作出合理的解釋。(通過資料採礦去發現一個模型的時候,常常關注的就是後者)。
還有其他方法可以區分統計模型,但在這裡我將不作探討。這裡我想關注的是,現代統計學是以模型為主的。而計算,模型選擇條件是次要的,只是如何建立一個好的模型。但在資料採礦中,卻不完全是如此。在資料採礦中,準則起了核心的作用。(當然在統計學中有一些以準則為中心的獨立的特例。Gifi的關於學校的非線性多變數分析就是其中之一。例如,Gifi說,在本書中我們持這樣的觀點,給定一些最常用的MVA(多變數分析)問題,既可以從模型出發也可以技術出發。正如我們已經在1.1節所看到的基於模型的經典的多變數統計分析,……然而,在很多情形下,模型的選擇並不都是顯而易見的,選擇一個合適的模型是不可能的,最合適的計算方法也是不可行的。在這種情形下,我們從另外一個角度出發,應用設計的一系列技術來回答MVA問題,暫不考慮模型和最優判別的選擇。
相對於統計學而言,準則在資料採礦中起著更為核心的作用並不奇怪,資料採礦所繼承的學科如電腦科學及相關學科也是如此。資料集的規模常常意味著傳統的統計學準則不適合資料採礦問題,不得不重新設計。部分地,當資料點被逐一應用以更新估計量,適應性和連續性的準則常常是必須的。儘管一些統計學的準則已經得到發展,但更多的應用是機器學習。(正如「學習」所示的那樣)
很多情況下,資料採礦的本質是很偶然的發現非預期但很有價值的資訊。這說明資料採礦過程本質上是實驗性的。這和確定性的分析是不同的。(實際上,一個人是不能完全確定一個理論的,只能提供證據和不確定的證據。)確定性分析著眼於最適合的模型-建立一個推薦模型,這個模型也許不能很好的解釋觀測到的資料。很多,或許是大部分統計分析提出的是確定性的分析。然而,實驗性的資料分析對於統計學並不是新生事務,或許這是統計學家應該考慮作為統計學的另一個基石,而這已經是資料採礦的基石。所有這些都是正確的,但事實上,資料採礦所遇到的資料集按統計標準來看都是巨大的。在這種情況下,統計工具可能會失效:百萬個偶然因素可能就會使其失效。
如果資料採礦的主要目的是發現,那它就不關心統計學領域中的在回答一個特定的問題之前,如何很好的蒐集資料,例如實驗設計和調查設計。資料採礦本質上假想資料已經被蒐集好,關注的只是如何發現其中的秘密。
2.資料採礦的性質
由於統計學基礎的建立在電腦的發明和發展之前,所以常用的統計學工具包含很多可以手工實現的方法。因此,對於很多統計學家來說,1000個資料就已經是很大的了。但這個「大」對於英國大的信用卡公司每年350,000,000筆業務或AT&T每天200,000,000個長途呼叫來說相差太遠了。很明顯,面對這麼多的資料,則需要設計不同於那些「原則上可以用手工實現」的方法。這意味這電腦(正是電腦使得大資料可能實現)對於資料的分析和處理是關鍵的。分析者直接處理資料將變得不可行。相反,電腦在分析者和資料之間起到了必要的過濾的作用。這也是資料採礦特別注重準則的另一原因。儘管有必要,把分析者和資料分離開很明顯導致了一些關聯任務。這裡就有一個真正的危險:非預期的模式可能會誤導分析者,這一點我下面會討論。
我不認為在現代統計中電腦不是一個重要的工具。它們確實是,並不是因為資料的規模。對資料的精確分析方法如bootstrap方法、隨機測試,迭代估計方法以及比較適合的複雜的模型正是有了電腦才是可能的。電腦已經使得傳統統計模型的視野大大的擴展了,還促進了新工具的飛速發展。
下面來關注一下歪曲資料的非預期的模式出現的可能性。這和資料品質相關。所有資料分析的結論依賴於資料品質。GIGO的意思是垃圾進,垃圾出,它的引用到處可見。一個資料分析者,無論他多聰明,也不可能從垃圾中發現寶石。對於大的資料集,尤其是要發現精細的小型或偏離常規的模型的時候,這個問題尤其突出。當一個人在尋找百萬分之一的模型的時候,第二個小數位的偏離就會起作用。一個經驗豐富的人對於此類最常見的問題會比較警覺,但出錯的可能性太多了。
此類問題可能在兩個層次上產生。第一個是微觀層次,即個人記錄。例如,特殊的屬性可能丟失或輸錯了。我知道一個案例,由於挖掘者不知道,丟失的資料被記錄為99而作為真實的資料處理。第二個是宏觀層次,整個資料集被一些選擇機制所歪曲。交通事故為此提供了一個好的示例。越嚴重的、致命的事故,其記錄越精確,但小的或沒有傷害的事故的記錄卻沒有那麼精確。事實上,很高比例的資料根本沒有記錄。這就造成了一個歪曲的映像-可能會導致錯誤的結論。
統計學很少會關注即時分析,然而資料採礦問題常常需要這些。例如,銀行事務每天都會發生,沒有人能等三個月得到一個可能的欺詐的分析。類似的問題發生在總體隨時間變化的情形。我的研究組有明確的例子顯示銀行債務的申請隨時間、競爭環境、經濟波動而變化。
至此,我們已經論述了資料分析的問題,說明了資料採礦和統計學的差異,儘管有一定的重迭。但是,資料採礦者也不可持完全非統計的觀點。首先來看一個例子:獲得資料的問題。統計學家往往把資料看成一個按變數交叉分類的平面表,存儲於電腦等待分析。如果資料量較小,可以讀到記憶體,但在許多資料採礦問題中這是不可能的。更糟糕的是,大量的資料常常分佈在不同的電腦上。或許極端的是,資料分佈在全球互聯網上。此類問題使得獲得一個簡單的樣本不大可能。(先不管分析「整個資料集」的可能性,如果資料是不斷變化的這一概念可能是不存在的,例如電話呼叫)
當描述資料採礦技術的時候,我發現依據以建立模型還是模式發現為目的可以很方便的區分兩類常見的工具。我已經提到了模型概念在統計學中的核心作用。在建立模型的時候,儘量要概括所有的資料,以及識別、描述分佈的形狀。這樣的「全」模型的例子如對一系列資料的聚類分析,回歸預測模型,以及基於樹的分類法則。相反,在模式發現中,則是儘量識別小的(但不一定不重要)偏差,發現行為的異常模式。例如EEG軌跡中的零星波形、信用卡使用中的異常消費模式,以及不同於其他特徵的物件。很多時候,這第二種實驗是資料採礦的本質-試圖發現渣滓中的金塊。然而,第一類實驗也是重要的。當關注的是全局模型的建立的話,樣本是可取的(可以基於一個十萬大小的樣本發現重要的特性,這和基於一個千萬大小的樣本是等效的,儘管這部分的取決於我們想法的模型的特徵。然而,模式發現不同於此。僅選擇一個樣本的話可能會忽略所希望檢測的情形。
儘管統計學主要關注的是分析定量資料,資料採礦的多來源意味著還需要處理其他形式的資料。特別的,邏輯資料越來越多-例如當要發現的模式由連接的和分離的要素組成的時候。類似的,有時候會碰到高度有序的結構。分析的要素可能是圖像,文本,語言信號,或者甚至完全是(例如,在交替分析中)科學研究資料。
3.討論
資料採礦有時候是一次性的實驗。這是一個誤解。它更應該被看作是一個不斷的過程(儘管資料集時確定的)。從一個角度檢查資料可以解釋結果,以相關的觀點檢查可能會更接近等等。關鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。資料採礦的本質是發現非預期的模式-同樣非預期的模式要以非預期的方法來發現。
與把資料採礦作為一個過程的觀點相關聯的是認識到結果的新穎性。許多資料採礦的結果是我們所期望的-可以回顧。然而,可以解釋這個事實並不能否定挖掘出它們的價值。沒有這些實驗,可能根本不會想到這些。實際上,只有那些可以依據過去經驗形成的合理的解釋的結構才會是有價值的。
顯然在資料採礦存在著一個潛在的機會。在大資料集中發現模式的可能性當然存在,大資料集的數量與日俱增。然而,也不應就此掩蓋危險。所有真正的資料集(即使那些是以完全自動方式蒐集的資料)都有產生錯誤的可能。關於人的資料集(例如事務和行為資料)尤其有這種可能。這很好的解釋了絕大部分在資料中發現的「非預期的結構」本質上是無意義的,而是因為偏離了理想的過程。(當然,這樣的結構可能會是有意義的:如果資料有問題,可能會干擾蒐集資料的目的,最好還是瞭解它們)。與此相關聯的是如何確保(和至少為事實提供支援)任何所觀察到的模式是「真實的」,它們反應了一些潛在的結構和關聯而不僅僅是一個特殊的資料集,由於一個隨機的樣本碰巧發生。在這裡,記分方法可能是相關的,但需要更多的統計學家和資料採礦工作者的研究。
全站熱搜
留言列表