根據運行的環境,操作系統可以分為桌面操作系統,手機操作系統,服務器操作系統,嵌入式操作系統等。 Longyuan Journal基于網絡的HDFS分布式存儲策略分析: 致于狄建宏來源: 《智能計算機與應用》 2016年01月摘要: 本文重點介紹HDFS機架感知和用于HDFS分布的副本存儲策略分析類型存儲. 副本存儲策略和機架感知主要使用Datanode節點形成的樹狀網絡拓撲來獲取Namenode節點,從而確定副本存儲的位置. 這種方法確保了數據的極高容錯能力,同時還考慮了本地數據. 它提高了集群網絡中數據傳輸的效率. 基于此,提出了一個假設. 希望通過深入挖掘副本存儲策略,根據Datanode數據節點的實時狀態信息,實現數據塊副本的定向存儲,進而實現數據驅動的任務分配. 分配給每個Datanode數據節點. 更合適的任務來實現負載平衡并提高資源利用率. 關鍵字: HDFS;分布式存儲;復制存儲策略;數據驅動的中文圖書館分類號: TP391.41文檔標識號: A文章號: 2095-2163(2015)05-摘要: 本文重點介紹ReplicationTargetChooser和RackAwareness的策略來分析HDFS分布式存儲. 為了實現ReplicationTargetChooser和Rack-Awareness的策略,HDFS形成了Datanode的網絡拓撲樹,主要是讓Namenode節點確定復制位置,從而確保在考慮數據的同時具有極高的數據容錯能力本地,以提高群集網絡中數據傳輸的效率. 在此基礎上,本文提出了一個想法,希望進一步了解ReplicationTargetChooser的策略,基于實時的狀態信息Datanode節點來實現數據塊的定向,將數據驅動的任務重新分配給Datanode的每個節點分配更適合于實現負載平衡效果并提高資源利用率的任務. 關鍵字: HDFS;分布式存儲;復制策略;數據驅動0簡介在21世紀,社會已經處于信息時代,它每天都在產生大量數據. 如何存儲和利用這些海量數據已成為IT工作者,經常遇到且日益引起人們關注的熱點研究問題. 但是,就存儲空間,存儲速度或數據存儲安全性而言,傳統文件系統無法滿足當前的處理要求[1]. 直到近年來Hadoop的出現,才為該問題獲得了突破性的解決方案. Hadoop提出了一種現實有效的解決方案,用于存儲和處理海量數據. 因此hdfs分布式存儲,Hadoop已受到Google,Yahoo和Amazon等知名IT公司的青睞. 諸如騰訊,阿里,百度,華為等一些國內公司已經將Hadoop視為企業處理海量數據的解決方案[2]. HDFS分布式文件系統是Hadoop的核心組件,也是解決,海量數據存儲和利用的重要技術手段. 因此,深入了解HDFS分布式文件系統的存儲策略對HDFS分布式文件系統的未來應用和改進具有重要意義. 1復制機制HDFS將每個文件的數據存儲在塊中,每個數據塊存儲多個副本. 特定數量的副本可以在hdfs-site.xml [3]的dfs.replication屬性中配置. 相應的數據塊副本分布在不同的機器節點上. 這種數據塊存儲+復制策略是HDFS確保可靠性和性能的關鍵,主要是因為: (1)將文件存儲在塊中之后,將根據數據塊對其進行讀取. ,提高文件隨機讀取的效率和并發讀取的效率; (2)將數據塊的多個副本保存到不同的機器節點上,在實現可靠性的同時,還提高了同時讀取同一數據塊的效率; (3)數據阻止與MapReduce中的任務分段的思想高度一致. 在這里,副本存儲策略再次成為HDFS實現高可靠性和高性能的關鍵和決定性主題. 2機架感知HDFS使用稱為機架感知的策略來提高數據可靠性,可用性和網絡帶寬利用率. 通過機架識別過程,Namenode可以確定每個Datanode所屬的機架ID. 實際上,Namenode根據相關的ip地址以樹狀網絡拓撲存儲已注冊的Datanode節點,然后Namenode調用ReplicationTargetChooser為每個數據塊副本選擇適當的存儲節點. 但是hdfs分布式存儲,Hadoop對機架的感知不是自適應的,也就是說,Hadoop集群可以區分哪個從機屬于哪個機架而不是系統自覺的,但是需要Hadoop管理器人為地通知Hadoop哪個機器屬于哪個機架
|
溫馨提示:喜歡本站的話,請收藏一下本站!