根據運行的環境,操作系統可以分為桌面操作系統,手機操作系統,服務器操作系統,嵌入式操作系統等。 第一章是緒論,主要總結了技術和概念. 但是在我的閱讀中,本書中的一些概念對初學者來說是非常不友好的,語言組織的邏輯也很差,有很多奇怪的單詞,沒有解釋. 我不知道我是否會聽不懂它,或者翻譯不正確,所以為了理解這些內容,我只是自己檢查一下信息,然后在這里寫下我的理解,以便隨時可以參考. 對于像我一樣困惑的學生也很方便. . 由于我還是新手,邊看邊寫,因此對某些事物的理解可能僅限于毛病甚至偏差,因此隨著我不斷加深理解,我將繼續加深這一系列文章. 同時,我也希望所有學生提出批評和指正,以便一起交流和學習. ——————————————————分區線—————————————————— 閱讀整本書花了兩個多月的時間. 發現這本書確實是一本非常好的書,但是它確實不適合初學者. 因為盡管本書是經過概述和概述的,所以Takanoya還是對KDD進行了總體描述,但這之所以簡單并不是因為它并不深入,而是因為讀者沒有達到這一水平. 查看摘要,可以在云中看到非常精致的話. 當我閱讀本書時,我還查閱了許多奇怪的名詞. 學習了很多算法后,我回頭看了看這本書,確實是同一回事. 但是,本書仍然存在一些缺陷. 首先是整本書的翻譯沒有到位,而且被懷疑已經翻過來了?第二個是書中的某些地方會出現錯誤,包括錯誤描述和數據錯誤. 但總的來說,這些錯誤不會影響閱讀. 建議讀者在閱讀本書時閱讀更多的信息并學習算法數據挖掘概念與技術,以便在閱讀本書后會受益匪淺. 本系列文章是我在閱讀本書時做的一些筆記,解釋了我認為不是很了解的書中的一些概念描述,還解釋了一些基本的通用算法. 當然,我在互聯網上已經提到很多文章,并且我也有自己的看法. 為了讓書中有更好的解釋,我沒有單獨解釋它們,只需閱讀這些書即可. 我的系列文章的權利是本書的補充和參考材料. 我們為什么要進行數據挖掘? 這本書在本章中不斷強調數據挖掘是部分實際應用的主題. 該學科的起源和發展來自社會的強烈需求. 什么是數據挖掘? “數據挖掘”一詞實際上并不能準確反映該學科. 更準確的定義應該是KDD(KDD: 中的知識發現),這是從數據中挖掘出有價值的知識,需要特別注意. 而且,數據挖掘是一個連續的過程! ! !它不是一次性的. 當然,這個形容詞是有價值的,有很多種理解,這里不贅述,只了解. 而且由于各種原因,我們經常說通用術語“數據挖掘”是指“ KDD” 和數據倉庫之間的區別 有關這兩個概念的理解和區別,請參見Zhicheng Chen Cheng對這個問題的回答. 和數據倉庫之間的本質區別是什么? 其中,有關數據倉庫的更多信息. 數據倉庫的目的是為決策提供數據支持. 換句話說,它的作用不在于業務,而在于提供數據證明以幫助管理者做出決定. 因此,它將存儲從多個數據源獲得的大量組織數據. 這里的意思是有序的組織意味著數據倉庫的數據結構. 和數據倉庫之間有什么區別? 實際上,兩者之間的主要區別在于數據結構! 中的建模通常遵循三個范式,數據倉庫建模具有特定的方式,通常使用多維建模(星型,雪花型). 數據倉庫使用這些建模方法的原因是為了方便OLAP的建立并提高統計查詢率. 坦率地說,通常的數據倉庫是建立在上的,但是技術的使用卻有所不同. 如果軟件產品實際上是一個關系(如果放在現在就不嚴格了. 但是在早期它是正確的),例如: ORACLE,MS SQL SERVER等,有一些特殊之處,例如Teradata等. 在這里,我們將首先遇到數據立方體的參數. 在這里,有一個坑=. 讓我們形成先入為主的想法. 認識到數據倉庫中數據的形式是一個多維數據集! ! !實際上,事實并非如此! ! !這是我最初的想法. 后來,當我看到第四章時,我看得越多,情況就越糟. 我花了很多時間才弄清楚. 實際上,在嚴肅的數據倉庫中沒有像數據立方體這樣的東西. 做這個東西的原因完全是為了促進我們的理解. 這確實是一個巨大的坑. = 好吧,正是因為存儲在數據倉庫中的數據是多維模型(同樣,也不是數據立方體!!!). 因此,它特別適用于OLAP(分析處理) OLAP在這里引入了一個新概念. 其實這個概念也很容易理解. 它的定義是這樣的: 分析處理OLAP是一種軟件技術,它使分析人員能夠快速,一致且交互地觀察各個方面的信息,以深入了解數據. 讓我們仔細看一下這個定義,但這很容易理解. 我們可以彌補這樣的情況: 在宇宙中,有一個神秘的立方體(立方體是數據)漂浮在其中,作為人類推薦的人,您被送到這里觀察這件事,希望在其中找到一些東西. . 因為您處于失重狀態,所以可以輕松地移動并從不同的方向和角度觀察立方體. 您甚至可以上下滾動多維數據集(上下)以查看更多信息. 我這樣說,每個人都應該能夠理解嗎? 下面是和數據倉庫的比較圖. 數據挖掘的步驟是什么? 關于數據挖掘的步驟,您會在書中或Internet上看到許多版本. 乍一看,您會覺得它們并不相同,但實際上,一般步驟是相同的??,僅是幾個步驟,但是這些不同的版本在特定步驟的命名和細節順序上是不同的. 我檢查了很多信息,并認為以下版本最合適. 1. 數據集選擇 此步驟的具體方法是: 根據您的目的,抽象出數據分析所需數據的特征,然后選擇適當的收集方法來收集滿足您要求的數據,并將數據存儲在. 通常,數據集已經存在或至少知道如何獲取它(例如,您可以自己編寫一個搜尋器以從Internet搜尋數據,或者可以使用其他人已經發布的數據). 重要的是要注意,數據收集是整個過程的第一步,也是基礎步驟. 這一步很重要! ! !數據集的選擇對于數據挖掘模式是否有趣至關重要. 例如,如果您的目的是分析制藥行業的數據,但您正在從物流行業收集數據,那么結果是.........(盡管也許會有一些意外,但這看起來中獎的可能性太小. )其次,對于海量數據,選擇合適的數據存儲和管理數據倉庫至關重要. 2. 數據預處理 (1)數據清理 中的某些數據不完整(某些感興趣的屬性缺少屬性值),因此需要數據清理以將完整,正確和一致的數據信息存儲在數據倉庫中. 否則,挖掘結果將無法令人滿意. (2)數據集成 邏輯上或物理上集中了來自不同來源,格式和特征的數據,以為企業提供全面的數據共享. (3)數據減少 數據精簡是指在最大程度地簡化數據量的同時,盡可能保留數據的原始外觀(完成此任務的必要前提是理解挖掘任務并熟悉內容的內容. 數據本身),同時進行業務運營數據挖掘. 通常很大. 數據約簡技術可用于獲取數據集的約簡表示. 它雖然要小得多數據挖掘概念與技術,但是仍要保持原始數據的完整性,并且還原后的數據挖掘結果與還原前的數據相同或幾乎相同. (4)數據轉換和數據離散化 通過平滑聚合,數據泛化,規范化等將數據轉換為適合于數據挖掘的數據. 重要的一步. 3. 數據分析算法 這就是我們所說的數據挖掘,即特定的數據處理. 稍后再討論. 4. 模型評估 從業務角度看,行業專家驗證了數據挖掘結果的準確性. 實際上,并不一定需要行業專家來. 如本文開頭所述,數據挖掘實際上是一個偏向實際應用的主題. 它通常與特定的子行業緊密聯系. 因此,我們通過數據挖掘獲得的結論或預測最好留給了解該行業的人來看一下并確定是否有意義. 5. 結果顯示 通過數據挖掘獲得的分析信息以可視方式呈現給用戶,或作為新知識存儲在知識庫中,供其他應用程序使用. 上面列出的過程只是數據挖掘所需的一般過程. 并非所有項目都需要完成該過程. 這里應該特別注意: 數據挖掘過程是一個迭代過程. 如果每個步驟均未達到預期目標,則需要返回上一步,重新調整并執行. 可以使用哪些類型的圖案? 可以使用哪些類型的圖案?實際上,挖掘的目的是什么,或者最終希望得到什么?可以執行哪些形式的操作? 這里對模式的概念有很好的理解. 我以前還不了解模式的概念,直到第6章才對其進行了深化 此步驟導致了許多新概念,我將解釋這些概念. 數據表征: 其定義如下: 使用目標數據的一般特征或特征進行總結. 可以這樣理解. 例如,數據中有1,000個計算機定義的描述. 然后,您可以從這些數據中提取特征,將其匯總并壓縮為這樣的數據: 計算機是具有馮·諾依曼體系結構的機器. (此處給出的示例可能不是很正確,每個人都主要理解其含義,因此不必深入研究=. =) 另一個例子是,一個人特別丑陋,有1000條數據描述了他的丑陋程度. 然后,在提取特征之后,我們可以這樣說. 他丑陋而令人難忘. 實際上,每個人都應該能夠想到它. 數據表征的主要目的應該是規范化數據. 坦率地說,是在保留原始數據特征的同時減小原始數據的大小. 數據區別: 其定義是這樣的: 數據區分是將目標數據對象的一般特征與一個或多個對比對象的一般特征進行比較. 這個定義比較長,但是很容易理解. 看一些例子以了解 老虎和貓都是貓科動物,但是它們之間是有區別的,那么它們之間有什么區別? 微信和QQ都是即時通訊工具,但是它們之間有區別,所以它們有什么區別? 因此,數據區別實際上很容易理解. 坦率地說,就是區分兩個不同的東西. 然后我們通常區分兩件事實際上是在看他們的不同特質或特征. 因此,數據差異化與數據表征之間的關系實際上非常接近. 頻繁模式 頻繁模式的定義是這樣的: 它是指頻繁出現在數據中的模式. 頻繁模式的類型很多,包括頻繁項集,頻繁子序列和頻繁子結構. 這看起來很復雜,但實際上非常簡單. 頻繁項目集實際上可以理解為頻繁出現的事物的集合,例如面包和牛奶,啤酒和尿布是頻繁項目集. 頻繁子序列是經常出現的序列. 例如,購買電子產品的順序通常是: 臺式計算機-“筆記本計算機-手機-照相機”. 此序列應該經常發生. 從更廣泛的意義上講,頻繁的子結構是頻繁的項目集和頻繁的子序列,并且具有更大的容忍度. 例如,購買臺式計算機后,有些人可能會購買用于下一個電子產品的筆記本電腦,而有些人可能會購買平板電腦. 如果列出這些內容,則可能形成樹或圖之類的數據結構. 深入研究這些內容之后,您會發現許多事物之間存在關聯和關聯. 分類和回歸 分類和回歸的概念很難解釋. 以支持向量機為例. 分類和回歸問題都需要根據訓練樣本找到實值函數g(x). 回歸問題的要求是: 給定一個新模型,然后根據訓練集推斷出相應的輸出y(實數)是多少. 也就是說,使用y = g(x)推斷與任何輸入x對應的輸出值. 分類問題是: 給定一個新模式,從訓練集中推斷出其對應的類別(例如: + 1,-1). 也就是說,使用y = sign(g(x))推斷與任何輸入x對應的類別. 總之,回歸問題和分類問題的性質相同,唯一的區別是它們的輸出范圍不同. 在分類問題中,僅允許輸出采用兩個值;在回歸問題中,輸出可以取任何實數. 分類和回歸之間的區別是輸出變量的類型. 定量輸出稱為回歸或連續變量預測; 定性輸出稱為分類或離散變量預測. 例如: 預測明天的氣溫多少,這是一項回歸任務; 預測明天是多云,晴天還是下雨是一項分類任務. 實際上,我們所說的術語是指索引值預測和類標簽預測. 在這里,我們可以暫時將數值預測理解為回歸,將類別標簽預測理解為分類. 我知道我對此有疑問. 請參考這里. 在上面的解釋中,出現了短語“給定樣式”. 這里提到的模式是指模型,例如分類規則,決策樹,數學公式或神經網絡. 稍后再說. 集群分析 所謂的集群是類或集群的聚集,而類是數據對象的集合. 在許多情況下,一開始就沒有標簽數據,因此可以使用聚類分析來生成數據組的類標簽. 聚類有時稱為分割,是指將具有相同特征的人分組,然后將這些特征平均以形成“特征向量”或“”. 聚類系統通常可以通過靜態分類將相似的對象分為不同的組或更多的子集,以便同一子集中的成員對象具有相似的屬性. 某些提供程序使用群集來直接提供有關不同訪問者組或客戶組的特征的報告. 聚類算法是數據挖掘的核心技術之一. 除了自身的算法應用外,聚類分析還可以用作數據挖掘算法中其他分析算法的預處理步驟. 在業務中,聚類可以幫助市場分析員從消費者中區分不同的消費者群體,并總結每種類型消費者的消費模式或消費習慣. 作為數據挖掘的模塊,它可以用作發現中分布的一些深層信息的單獨工具,也可以專注于特定類別以進行進一步分析并總結每個類別的數據特征. 離群分析 這很容易理解. 數據集中可能有一些數據對象. 它們與數據的一般行為或模型不一致. 這些數據是異常值. 分析異常值可能會導致異常或意外的收獲. 好的,所有新術語都將進行解釋. 讓我們回到原來的問題. 我們可以在數據挖掘中做什么?實際上,坦率地說,我個人認為數據挖掘只具有兩個功能. 一個是描述性功能(概括存在的功能),另一個是預測性功能(預測是未知的推斷). 其他方面,本書中進行了詳細的描述,相對容易理解. 這里沒有太多要說明的
|
溫馨提示:喜歡本站的話,請收藏一下本站!