根據運行的環境,操作系統可以分為桌面操作系統,手機操作系統,服務器操作系統,嵌入式操作系統等。 CN43—1258 / TPI SSN 1007—130X計算機工程與科學C()MPU'I'ER ENGINEERING&. 科學2010卷. 32 No.8 VoI. 32.第8號. 2010年,文章編號: 1007-130X(2010)08-0094-04一種用于高維數據聚類的遺傳算法遺傳算法孫浩君. 熊朗煥孫浩俊. 熊勇(汕頭大學計算機科學系,廣東汕頭515063)(汕頭計算機科學系)摘要: 聚類分析是數據挖掘中的重要研究課題. 在許多實際應用中,聚類分析的數據通常具有很高的數據維度,例如文檔數據,基因微陣列等,可以達到數千個維度. 在高維數據空間中,數據的分配相對稀疏. 受這些因素的影響,許多對低維數據有效的經典聚類算法高維數據聚類經常失敗. 針對此類問題,本文提出了一種基于遺傳算法的高維數據聚類新方法. 該方法利用遺傳算法的全局搜索能力搜索特征空間,以找到有效的聚類特征子空間. 同時,為了研究子空間聚類中特征維的特征,本文基于特征維對子空間聚類的貢獻率設計了適應度函數. 人工數據,真實數據的實驗結果以及采用k-means算法的對比實驗證明了該方法的可行性和有效性. 摘要: 肛門肛門是我的重要主題,在數據參考中是必不可少的. 例如,文檔數據和一千個尺寸. 在高密度空間中,那些傳統的企業級數據將在低層環境下工作,這樣的問題是一種新的高密度數據分類,其方法研究的能力通用的gorithm是針對圖例中所示的二維特征而開發的. 紙張上的健身功能. k均值算法用于實融,醫藥,工程等多個方面得到了廣泛的應用. (8151503101000016)作者簡介: 孫浩軍(1963-1). 男. 來自河北衡水的人們. 醫生,教授,研究方向是模式識別,數據挖掘等;熊朗歡. 碩士生. 研究方向是數據挖掘. 通訊地址: 廣東省汕頭市汕頭大學計算機系515063;電話: 1371993t396;電子郵件: haoj unsun @ stu. edtL Hunger地址: 汕頭大學計算機科學系. 廣東汕頭515063,P.RChi na94研究??了特征選擇的方法,并利用遺傳算法的全局搜索能力找到有效的特征子類進行聚類. 2相關工作遺傳算法[2]通過模擬自然環境中生物的遺傳和進化過程而形成的自適應全局最優化概率搜索算法. 它廣泛用于解決復雜的優化問題. 它從代表潛在問題集fuj問題的初始種群JF開始,該種群中的每個可行解都稱為一個個體,并且通過對可行解進行編碼來獲得每個個體. 初始種群產生牛后,根據優勝劣汰和優勝劣汰的原理,在每一代中,根據問題域中個體的適合度來選擇個體,然后進行交叉和變異操作以生成代表新解集的種群. 人口中最適合的個體是最優化問題的近似最優解,遺傳算法作為一種高效的全局最優化搜索算法已被許多研究人員應用到聚類分析中,毛利克提出了遺傳聚類算法(G-clusteri ng) 2000年被引用,它利用遺傳算法的全局搜索功能進行了優化聚類中心,可提高聚類精度. 但是,由于該算法使用實際的聚類中心數據作為基因表示,因此大量的浮點運算大大增加了該算法的計算時間成本,并且該算法將所有維都聚類在一個狹窄的范圍L中,可以解決高維問題. 不可行. 文獻[4]提出了一種針對基因表達數據的新特征選擇方法,該方法在特征子集搜索中使用遺傳算法進行隨機搜索,在特征子集評估中使用遺傳算法作為學習算法. 在計算中,聚類錯誤率用作指標,這限制了它在無監督學習中的應用. 本文針對高維數據聚類問題設計了一種新的方案. 利用遺傳算法搜索特征子空間,改進了編碼方式,提出了一種新的適應度函數計算方法. 為了說明其可行性和優越性,進行了兩組人工數據和真實數據實驗,并與k-means算法進行了比較. 3遺傳高維聚類算法3.1算法描述本文用于解決商數據聚類的遺傳算法具有與基本遺傳相似的結構. 基本步驟如下: Begi nsteplt ---- 0;步驟2初始化總體P(f);步驟3使用k-means算法對P(f)進行聚類,并根據特征維對子空間聚類的貢獻率計算P(£)的適應度值. st e#t = t +1;如果滿足終止條件,則進入步驟10. 步驟6從P(t-1)保留10%的杰出個人,然后使用賭選擇方法選擇剩余個人以形成P(f); step7使用單點交叉法對P(£)進行交叉運算;步驟使用基本位突變方法對P(£)執行突變操作;步驟9轉到步驟3; step10輸出最佳個人并停止. 結束此算法著重于幾個部分的設計,例如編碼,適應度函數和遺傳運算. 各部分的具體設計如下. 3.2編碼,解碼和初始化常用的編碼方法包括二進制編碼和實數編碼. 與兩者相比,二進制編碼具有更大的搜索空間,并且更便于交叉和變異操作. 本文采用二進制編碼. 我們設計的代碼空間由兩部分組成(CA,CB),CA代表要素子空間二進制代碼字符串,而CB代表類中心的二進制代碼字符串. 為了控制代碼的長度,指定了所選特征尺寸的最大數量. 在最大f“ um的條件下,使用長度為5的二進制數表示原始特征集中的所選特征的序列號. . CA二進制字符串的長度是fnum * k,當mzl x像小于特征總數時,結果二進制字符串將大大縮短. 假設原始特征集中的特征總數為Fnum,則為Il b FnumI. 在最大類數為nl ax_C?l Ul qz的條件下,使用長度為h的二進制數表示原始數據集中所選類別中心的序列號,那么CB二進制字符串的長度為7,1個端口z- c9“ m * h. 當H枚舉遠小于數據總數時,如果原始數據集中的數據總數為Dnum,則^ = ll b Dnuml. 對于max-,選擇null和mn的工作值都是根據經驗. 解碼個人時,從最左側開始到CA部分,其中每個k位二進制字符串都轉換為相應的十進制數;然后說明CB部分,并將每個h位二進制字符串轉換為相應的十進制數. 初始種群采用隨機生成的方案并隨機選擇. 斧頭將對um個特征尺寸和最大位數中心點進行編碼,并重復popsize(設置總體大小)次以完成初始總體的建立. 3.3適應度函數適應度值是遺傳算法搜索的直接依據高維聚類分析,因此適應度函數直接影響算法的搜索方向和收斂性. 在高維數據聚類中,目標聚類通常僅與某些要素維有關. 為了研究子空間聚類中特征維的特征,提出了利用特征維來表征子空間聚類. 假設在某個子空間中有一個特征維J,其中五個是{C-,G'. . ·,G)是中心類{A. ,Az,...,Al},為每個類At(i-1,2,...,go)考慮以下函數: 螄: 邕殍1㈣螄2-face和五個j曩_'1J口,貢獻率: 如果yc}小,則aij i大. 從幾何意義上講,這意味著類At上的數據點的第j個維度接近中心點的第j個維度,而類Af在特征維度J上. 它是密集的,也就是說,維度J具有對A級做出巨大貢獻;相反,據說維度j對Ai類的貢獻很小. 然后根據以下兩個公式計算: Af =÷Zhi: F(2)A =-“ _一>: Af(3)77 cast z-J nti m ='A,即維度J. 空間聚類的速率,A是個體(特征子空間)的適應度值. 實際過程如下: (1)解碼染色體; (2)判斷該個體是否為合法個體,判斷條件為: 解碼后得到的特征維數范圍為[1,最大特征維數],中心點范圍為[],數據點數]#(3)如果是法人,則使用k均值算法對所選數據子空間進行聚類,然后按照公式(1)和(2)進行計算,然后公式(3)計算適合度值,否則適合度為0. 3.4遺傳操作和終止條件遺傳操作包括i部分: 選擇,交叉和突變. 每種操作有很多方法. 本文使用的方法如下: (1)選擇操作. 選擇操作體現了遺傳算法的“適者生存”原則. 個人的適應度越高,參與下一代生殖的可能性就越高. 在本文中,10%的杰出個人將直接進入下一代,然后使用賭選擇方法來選擇剩余的人. 個人. (2)交織操作. 交叉感官操作是模仿自然界中有性生殖的基因重組過程. 它的功能是將原始指甲的出色基礎閃光傳給下一代個體,并生成結構更復雜的新個體. 本文采用單點交叉法,即根據一定的交叉概率Pc進行交叉操作. 首先,隨機選擇交叉位置,然后用t交換位置右側的部分基因片段,以產生f {: 兩個新個體. Pf的值越高,收斂到最有希望的最優解區域??的速度越快,但是值太大會導致收斂過早,通常為0.4?0. 9L四川. 本文采用Pc = 0.8. (3)變異操作. 突變操作模擬了一種現象,即染色體上的某個基因在自然牛對象的進化過程中發生了牛突變,從而改變了染色體的結構和物理形狀. 本文使用基本的位突變方法. 即,根據一定的突變概率Pm執行突變操作. 首先,隨機選擇突變位置,然后取反該位置的基因,即0變為1,1變為0. 在本文中,“世代數超過了預設值(拋出z-gen)作為算法終止條件. 4實驗結果與分析我們通過對兩組人進行實驗,分析該算法的性能: f數據和真實數據. 并與k_means算法進行比較. 在使用本文中的算法獲得更好的解決方案(即特征子空間)之后,我們使用錯誤率來比較其聚類結果. 錯誤率的計算過程如下(在分類的情況下我們知道數據): 假設第i個類別的錯誤率是c,第i個類別數據本身包含數據NUM,并且包含與第i個類別相對應的群集中的第i個原始類別的數據是A. 然后是G-NU和M mine-A. 具體結果和分析如下. 4.1人工數據在這組實驗中,我們使用計算機模擬生成了一組150 * l O數據集,總共150個數據,每個數據都具有10維屬性: ABCDEFGHIJ. 我們知道這組數據可以根據二維CG分為三個明顯的類別,也可以根據二維CJ和GJ分為三個類別,但是效果不如和CG一樣好. 根據其他屬性,此數據沒有三個類別. 該類的特征如圖1,圖2和圖3所示. 這組實驗的具體實驗參數如下: Popsi ze = 50,rr /. 一個. r-c竹“,” = 3,最大特征= 2,Pc = O. 8.Pm = O. 02運行本文中的算法后,我們可以準確地找到特征尺寸CG,所有類型的錯誤率均為0;同時,在人群中也可以找到兩組CJ和GJ解決方案. 只是它們的錯誤率大于0,并且聚類結果不如96. 該實驗的結果與我們的預期結果相同. 該算法可以在高維中找到更有效的特征維. ...一一一十一11-^-^ ...一...一戰?尊一一一. 1}一一j —_有一個“''o; ———— r ,; two = .:嘏. ”二j一: ≯演繹一二: 圖1人1二數據CG二維顯示? j =. 刪除K2. L ——————一·————●X. 逐個. 1: 兩個三一一我報警,兩個?. ———. -t’?’●—————. “‘. ’----. —. 1圖2人工數據CJ的二維顯示1. Huang類型耗盡了主體. 1 2?一—Zhu——0'智慧: ?“ Mangshang”是一個不錯的選擇,但比選擇7維的結果還差,因此選擇7維是該算法的最佳解決方案. 圖4選擇4維時的各種錯誤率圖5選擇7維時的各種錯誤率圖6選擇8維時的各種錯誤率om!!o—b clamor =; Xi-?10.08 .: +: ': ....: ._'. : . 圖7: 各種情況下的總錯誤率總之,選擇7個維度的結果是該算法找到的最佳解決方案. 聚類結果優于其他子空間的聚類結果,也優于所有維度的聚類結果,說明了該算法的可行性和有效性. 它可以在一定程度上解決高維數據. 簇『口j問. 5結束語本文提出了一種基于遺傳算法的高維數據聚類方法. 該方法通過遺傳算法搜索特征空間,以特征維對特征子空間聚類的貢獻率作為適應度函數,找到有效特征維,并找到有效聚類特征子空間. 實驗結果證明,該方法可有效解決高維數據聚類問題,但在適應度函數上仍有進一步改進的空間. 這將是我們未來工作的重點. 同時,如何在此基礎上進行子空間聚類也是未來研究的方向. 參考文獻: [E1] Parsons L. Haque E.關鍵詞: 高空間數據,子空間群,回顧SIGKDD說明. 2004.6(1): 90-105. [23潘正軍,康立山,陳玉平. 進化計算[M]. 北京: 清華大學出版社,1998. [3] Maul i k U,Bandyopadhyay S Geneti c Al gori thm-based cl us-teri ng techn [J]. 模式識別,2000,33(9): 1455-1465. [4]任江濤. 黃煥宇,孫敬武. 等基于遺傳算法和聚類的基因表達數據特征選擇[J]. 計算機科學. 2006,33(9): 164-165. [5] http: // archi ve. 我CS. uci. edu / ml / datasets /無線. (接第80頁)[4] PatiP B,Ramakri shnan A G.關鍵詞: 多語言,文字,文字,語法[J]. 字母的模式識別,2008,29(9): 1218-1229.
|
溫馨提示:喜歡本站的話,請收藏一下本站!