人人做人人澡人人爽欧美,国产主播一区二区,久久久精品五月天,羞羞视频在线观看免费

當前位置:蘿卜系統 > 硬件軟件教程 > 詳細頁面

集群區分

集群區分

更新時間:2023-06-20 文章作者:未知 信息來源:網絡 閱讀次數:

根據運行的環境,操作系統可以分為桌面操作系統,手機操作系統,服務器操作系統,嵌入式操作系統等。

維普查重超級高怎么破_spss系統聚類結果分析_高維聚類分析

集群分析(CA)是一種典型的無監督學習方法. 此方法根據對象的特征將對象分為不同的組. 將一組對象分組為相似對象的過程稱為聚類. 類. 群集是同一群集中彼此相似但與其他群集中的對象不相似的數據對象的集合. 一組數據對象可以視為一組,因此聚類方法也可以視為一種數據壓縮形式.

盡管分類是區分對象組或類別的有效手段,但是它通常需要昂貴的收集和標記大量訓練元組或模式,并且分類器使用這些元組或模式對每個組進行建模. 作為一種無監督的學習方法,聚類在這方有天然的優勢.

集群分析是一項重要的人類活動. 在兒童早期,我們學習如何區分貓和狗或動植物,并不斷改進潛意識聚類方案. 通過自動聚類,我們可以識別對象空間中的密集區域和稀疏區域,從而發現整體分布模式和數據屬性之間有趣的關聯. 聚類分析已廣泛應用于許多應用領域,包括市場研究,模式識別,數據分析和圖像處理. 在業務中,集群可以幫助營銷人員發現其客戶組中的不同組,并根據購買模式來表征客戶組. 在生物學中,它可以用于推導出動植物分類標準,對具有相似功能的基因進行分類,并深入了解種群的內部結構. 集群還可以幫助在地球觀測中識別相似的土地使用區域,根據房屋類型,價值和地理位置確定城市中的住房類別,并為汽車保險集團保單持有人確定更高的平均理賠成本. 它也可以用于幫助分類信息發現和Web上的文檔分類.

在某些應用程序中,聚類也稱為數據分段,因為聚類分析會根據大型數據集的相似性將其分為幾類. 聚類也可以用于離群值檢測. 離群值檢測的應用包括檢測欺詐和監視電子商務中的活動. 例如,交易中的異常情況(例如非常昂貴和頻繁購買)可能是欺詐活動的標志. 作為數據挖掘功能,聚類分析可以用作獨立工具,以深入了解數據分布,觀察每個聚類的特征,并專注于特定的聚類集以進行進一步分析. 或者,它可以用作其他算法的預處理步驟,例如表征,屬性子集選擇和分類,然后將對檢測到的聚類和選定的屬性或特征進行操作.

K均值是使用最廣泛的聚類方法. 其他方法包括k-Medoid,分層聚類和DBSCAN. 期望最大化(EM)也是用于聚類分析的解決方案. 聚類分析在許多領域都有應用,例如數據挖掘,市場研究和離群值檢測. 此外,降維技術也是一種類似于聚類分析的無監督學習方法,其典型代表是主成分分析(PCA),線性判別分析和Isomap.

[描述來源: Han J .;坎伯M.裴建(2011). 數據挖掘: 概念和技術. 摩根·考夫曼. ]

關于聚類分析的早期研究開始于60年前-K-means算法的出現,該算法由Steinhaus于1955年首次提出,然后Stuart Lloyd在1957年提出了K-means聚類算法. 推薦系統中使用的技術. 用戶可以分為不同的組以獲得有針對性的建議. 因此,聚類分析分為應用階段. 1978年,David Harrison和Daniel L Rubinfeld使用K-means聚類算法研究房地產市場數據. 他們使用房地產市場數據來衡量購買清潔空氣的意愿. 1987年,Kaufman和Rousseeuw提出了圍繞Medoids聚類進行分區的方法,該方法是我們現在熟悉的許多聚類算法的基礎. 1992年,Vladimir Batagelj,Anu?kaFerligoj和Patrick Doreian開發了一種改進的重定位算法和一種改進的聚集層次算法. 在1996年,Martin Ester,Hans-Peter Kriegel,J?rgSander和Xuxiaowei提出了使用噪聲/ DBSCAN的基于密度的應用程序空間聚類.

此算法基于密度: 給定空間中的一組點,該算法可以將附近的點歸為一組(具有許多相鄰點的點),并標記出位于低密度區域中的點DBSCAN是最常用的聚類分析算法之一,也是最常被引用的科學文章之一,這對聚類分析產生了深遠的影響. 2014年高維聚類分析,該算法在數據挖掘會議KDD上被授予“時間測試”獎,該獎項被授予在理論和實踐水平上一直受到關注的某些算法. 同年高維聚類分析,誕生了使用層次結構的平衡迭代減少和聚類(BIRCH)方法. BIRCH(使用層次結構進行平衡的迭代約簡和聚類)是一種無監督的數據挖掘算法,用于對特別大的數據集執行分層聚類. BIRCH的一個優點是,它可以遞增地和動態地聚合輸入的多維測量數據點,以便為給定的資源集(內存和時間限制)生成最佳質量的群集. 在大多數情況下,BIRCH只需要掃描一次. 它的發明者聲稱BIRCH是“領域中提出的第一個有效處理“噪聲”(數據點不是基本模式的一部分)的聚類算法”,并在模型性能方面擊敗了DBSCAN. 該算法于2006年推出,榮獲SIGMOD10年測試獎.

高維聚類分析_維普查重超級高怎么破_spss系統聚類結果分析

關于聚類分析的研究已經相當成熟,目前集中在聚類算法的工業應用上. 例如,自2005年以來,Netflix使用DBSCAN來查找異常速度比主流服務器慢得多的異常服務器. 2011年,Roman Filipovych其他學者引用了聚類分析來測試的健康狀況,并評估了他們用于發現人腦MR圖像聚類問題的聚類方法的性能.

使用IEEE搜索時,我們發現了1500萬個與聚類分析有關的結果;但是,聚類分析僅受到回歸分析關注的一半,因此該模型可能比公眾的感知距離還小.

年份

事件

相關論文/參考文獻

1955

Steinhaus提出了K-means算法的原型

Steinhaus,H.(1956). 參加團體聯誼會. Bull.acad.polon.sci.cl.iii,801-804.

高維聚類分析_spss系統聚類結果分析_維普查重超級高怎么破

1957

Stuart Lloyd首先開發了K-means算法(也稱為Lloyd算法)

勞埃德(Lloyd,S.P.)(1982). PCM中的最小二乘量化,IEEE信息理論學報,28(2): 129–137.

1978

Harrison D.和Rubinfeld D.L.用K-means聚類算法研究房地產市場數據

Harrison,D .; Rubinfeld,D.L.(1978),享樂主義的住房價格和對清潔空氣的需求,《環境經濟與管理》. 5(1): 81-102.

1987

Kaufman和Rousseeuw提出了圍繞類固醇聚類的分區(圍繞類固醇聚類的分區)

維普查重超級高怎么破_高維聚類分析_spss系統聚類結果分析

Kaufman,L .; Rousseeuw,P .; (1987). 借助類固醇進行聚類. 基于L1范數和相關方法的統計數據分析. 405-416頁.

1992

Vladimir Batagelj,Anu?kaFerligoj,Patrick Doreian開發了一種改進的重定位算法和一種改進的聚集層次算法

Batagelj,V .; A. Ferligoj; Doreian,P.(1992年),《結構對等的直接和間接方法》,《社交網絡》. 14(1-2): 63-90.

1996

Martin Ester,Hans-Peter Kriegel,J?rgSander和Xuxiaowei提出了基于密度的應用噪聲/ DBSCAN的應用程序空間聚類

Ester,M.; Kriegel,H.-P .;桑德(J. Xu,X.(1996). 一種基于密度的算法,用于在帶有噪聲的大型空間中發現聚類. 第二屆知識發現和數據挖掘國際會議論文集(KDD-96).

1996

spss系統聚類結果分析_維普查重超級高怎么破_高維聚類分析

誕生了使用層次/ BIRCH方法的均衡迭代約簡和聚類

Zhang,T .;拉馬克里希南(Ramakrishnan,R.) Livny,M. (1996). BIRCH: 一種用于大型的有效數據聚類方法. 1996年ACM SIGMOD國際數據管理大會(96年代)的會議錄. pp. 103–114.

2011

羅馬·費利波維奇(Roman Filipovych)等學者引用聚類分析法測試的健康狀況

Filipovych,R .; Resnick,S.M .; Davatzikos,C.(2011年). 影像數據的半監督聚類分析. NeuroImage. 54(3): 2185-2197.

聚類是一個充滿挑戰的研究領域. 以下是聚類分析面臨的一些典型挑戰:

可擴展性: 許多聚類算法適用于包含少于幾百個數據對象的小型數據集. 但是,大型可能包含數百萬個對象. 聚類分析很容易受到規模(例如K均值)的影響,有時并不是很可靠. 特定大型數據集的樣本聚類可能會導致結果有偏差,因此我們需要高度可擴展的聚類算法. 處理不同類型的屬性的能力: 許多算法旨在對基于間隔的(數字)數據進行聚類. 但是,應用程序可能需要同時群集其他類型的數據,例如二進制,分類(標稱)和有序數據,或者這些數據類型的混合. 不限于某個距離度量聚類算法(發現具有任意形狀的聚類): 許多聚類算法都是基于歐幾里得距離度量或Manhattan距離度量來確定聚類的. 基于這種距離度量的算法往往會找到大小和密度相似的球形簇. 但是,簇可以是任何形狀. 開發可以檢測任意形狀的簇的算法非常重要. 強大的超參數值(確定輸入參數的領域知識的最低要求): 許多聚類算法要求用戶在聚類分析中輸入某些超參數(例如所需的聚類數).

聚類結果可能對輸入參數非常敏感,它取決于分析人員做出正確的選擇,并且聚類分析的解決方案可能不是唯一的. 但是,這些超參數在實際情況下通常很難確定,尤其是對于包含高維對象的數據集. 這不僅給用戶帶來負擔,而且使群集的質量難以控制. 另外,在DBSCAN中,如果數據集的密度不一致,則很難確定ε的選擇. 處理噪聲數據的能力: 大多數現實世界包含異常值或丟失,未知或錯誤的數據. 一些聚類算法對這些數據敏感,并可能導致質量較差的聚類結果. 增量聚類和對輸入記錄的順序不敏感: 一些聚類算法無法將新插入的數據(即更新)合并到現有的聚類結構中. 相反,必須從頭開始確定一個新的聚類. 其他聚類算法對輸入數據的順序敏感. 換句話說,給定一組數據對象,這種算法可以根據輸入對象的表示順序返回明顯不同的聚類. 開發增量聚類算法和對輸入順序不敏感的算法非常重要. 高維度: 可以包含多個維度或屬性.

許多聚類算法擅長處理低維數據,僅涉及二維到三維. 人眼非常擅長判斷多達三個維度的聚類質量. 在高維空間中查找數據對象的群集非常具有挑戰性,尤其是考慮到這些數據可能稀疏且高度偏斜. 基于約束的群集: 實際應用程序可能需要在各種約束下執行群集. 假設您的工作是在城市中選擇給定數量的新自動銀行機(ATM)的位置. 要做出這樣的決定,您可以考慮城市河流和公路網等約束條件,以及每個集群中客戶的類型和數量,對家庭進行分組. 找到滿足指定約束并具有良好性能的聚類結果非常具有挑戰性. 可解釋性和可用性: 用戶期望聚類結果是可解釋的,可理解的和可用的. 換句話說,可能需要將聚類綁定到特定的語義解釋和應用. 研究應用目標如何影響集群功能和方法的選擇很重要.

此外,從理論上講,聚類分析始終假設存在分組,但是這種假設可能是弱的或錯誤的.

在將來的應用中,聚類分析可用作“第一步”技術. 似乎還可以使用“后集群”技術來減少錯誤,使聚類分析更加可靠和穩定,并可以在更多行業中應用.

撰稿人: 李媛媛,張莫斯


本文來自本站,轉載請注明本文網址:
http://www.pc-fly.com/a/jisuanjixue/article-286583-1.html



溫馨提示:喜歡本站的話,請收藏一下本站!

本類教程下載

系統下載排行

網站地圖xml | 網站地圖html
主站蜘蛛池模板: 大埔县| 盘山县| 静乐县| 田林县| 靖江市| 淄博市| 保德县| 新河县| 本溪| 碌曲县| 斗六市| 荣成市| 平潭县| 兴隆县| 齐河县| 阿鲁科尔沁旗| 蕉岭县| 延川县| 柳林县| 常德市| 宣城市| 吉木萨尔县| 涟水县| 黑水县| 葵青区| 蒙自县| 洛南县| 安平县| 嘉荫县| 玉田县| 庆元县| 康平县| 巨野县| 郓城县| 铁岭县| 治多县| 百色市| 胶州市| 察隅县| 丹巴县| 阳泉市|