綜述:可擴展標注語言(eXtensible Markup Language,XML)正被迅速的運用于業界,它已作為與平臺、語言和協議無關的格式描述和交換數據的廣泛應用標準。XML和它的輔助規范可用于描述數據的文檔表現,描述XML文檔類型的限制,描述XML文檔和資源之間的鏈接,描述XML文檔的自動轉換和格式化。
在這個例子中,通過使用簡單的標簽來訪問后臺更為強大的代碼,一個XML被裝載,并且通過一個XSL文件來產生一個結果,并發送給客戶端,全部通過使用一個簡單的標簽調用就做到了。 自定義標簽為在JavaScript/" target="_blank">JSP項目中創建易于重用的代碼打開了一扇大門。你所需要的只是標簽庫和它的文檔說明。 2. 標簽的組件 雖然標簽庫非常易于使用,不過要建立一個內里的設計來支持標簽庫是頗復雜的,起碼要比建立一個簡單的JavaBean復雜。這個復雜是來自于標簽庫是由幾部分構成的。不過,你只需要知道Java和JavaScript/" target="_blank">JSP的知識就夠了。 一個簡單的標簽由下面的元素構成: ⑴ JavaBeans:為了得到Java與生具來的面向對象的好處,可重用的代碼應該放到一個獨立的代碼容器中。這些JavaBeans并不是標簽庫的一部分。不過它是你的代碼庫用來執行相關任務的基本代碼塊。 ⑵ 標簽處理:這是標簽庫的真正核心。一個標簽處理器將引用它需要的任何資源(你的JavaBeans)和訪問你的JavaScript/" target="_blank">JSP頁面的全部信息(pageContext對象)。JavaScript/" target="_blank">JSP頁面也會將所有已經被設置的標簽屬性和JavaScript/" target="_blank">JSP頁面上的標簽體中的內容傳送給標簽處理器。在標簽處理器處理完畢后,它將發回輸出到你的JavaScript/" target="_blank">JSP頁面進行處理。 ⑶ 標簽庫的描述(tld文件):這是一個簡單的XML文件,它記錄著標簽處理器的屬性、信息和位置。JavaScript/" target="_blank">JSP容器通過這個文件來得知從哪里及如何調用一個標簽庫。 ⑷ 網站的web.xml文件:這是你網站的初始化文件,在這個文件中,你定義了網站中用到的自定義標簽,以及哪個tld文件用來描述每個自定義的標簽。 ⑸ 分發文件(一個WAR或者JAR文件):如果你想重用自定義標簽的話,你需要一個方法來將它由一個項目轉移到另一個項目中。將標簽庫打包為一個JAR文件是一個簡單而且有效的方式。 ⑹ 在你的JavaScript/" target="_blank">JSP文件中作標簽庫聲明:很簡單,如果要用到該標簽的話,只要在頁面聲明一下就可以,其后,你就可以在該JavaScript/" target="_blank">JSP頁面的任何地方使用它。 看來要做的工作很多,不過其實并不是很難。它的要點并不在于編碼,而是在于如何將各部分正確地組織起來。不過,這樣的分層是很重要的,它可令標簽的使用靈活和更容易轉移。更重要的是,這些層的存在可讓處理建立標簽的工程通過一個JavaScript/" target="_blank">JSP IDE(JavaScript/" target="_blank">JSP的集成開發環境)自動完成。期望將來的JavaScript/" target="_blank">JSP IDE可自動完成創建一個自定義標簽的大部分工作,這樣你只需要寫代碼和標簽處理就可以了。 注意:一個標簽處理僅定義一個自定義標簽;一個標簽庫是幾個處理相同任務的標簽處理器的集合。 3. 建立自己的標簽 以下將一步一步地教你如何建立自定義的標簽,具體的例子是擴展JavaScript/" target="_blank">JSP,令它擁有自己的HTML編碼功能。這個功能將所有的<和>字符用HTML代碼來代替。它可以很容易地擴展為做其它的編碼處理。為了簡化,這個例子只解釋了建立自定義標簽的基本要素。 ⑴ 創建一個JavaBean 你代碼中任何可重新使用的部分都應該放到一個JavaBean中。這個很重要,因為你要經常在項目的其它地方用到這些代碼。放在標簽處理器中的任何代碼在標簽外都是不可以重新使用的,因此將可重用的代碼部分獨立開來是很重要的。在這個例子總,為HTML編碼的邏輯是常用的,因此放到JavaBean中。 ⑵ HTML編碼JavaBean
⑶ 創建一個標簽處理器 標簽處理器使用以下的代碼:
這個處理很簡單,它包括有: o 讀入標簽開始和結束間的文本 o 調用html編碼函數 o 返回結果到JavaScript/" target="_blank">JSP頁面。 ⑷ 創建一個標簽描述器 需要描述自定義標簽以讓系統知道如何處理。該描述文件的后綴為.tld,通常它的名字和標簽處理器相同,并存放在"/WEB-INF/"目錄。
[page_break] ⑸ 更新Web XML文件 現在可告訴JavaScript/" target="_blank">JSP容器使用標簽庫。為此要修改web.xml文件,具體說來是要在其中加入一個taglib的項目來注冊該標簽庫。最重要的是,要為tag分配一個URI。URI是一個唯一的引用,只應用在該網站的這個特別的標簽上。使用全長的URL或者包名是一個好的習慣,它可以確保唯一性,因為該標簽可以在不同的網站使用。這個例子是簡化了。
⑹ 使用新的標簽 自定義的標簽已經設置好,可以用在一個JavaScript/" target="_blank">JSP頁面上。要做到這一點,只需在該頁面使用taglib指示命令聲明一下該標簽就可以了,該標簽通過它唯一的URI被引用,并且會被分配一個名字空間前綴。前綴可以任意,只要它不與其它的名字空間沖突便可。 在一個JavaScript/" target="_blank">JSP頁面上使用HTML編碼標簽:
通過這個標簽,我就將該頁面的所有代碼編碼了。有趣的是所有的自定義標簽都是在服務器上處理的。這意味著你將不會在輸出的頁面上看到自定義的標簽。 建立一個標簽不是很難吧。最困難的部分是要學習標簽處理的所有細節。這是一個很強大的功能,我們只是提到了最基本的地方。由于這個處理需要幾步,新的JavaScript/" target="_blank">JSP編程者在創建標簽時將會感到迷惑。 如何利用JavaScript/" target="_blank">JSP開發DOM應用? DOM是Document Object Model的縮寫,即文檔對象模型。XML將數據組織為一顆樹,所以DOM就是對這顆樹的一個對象描敘。通俗的說,就是通過解析XML文檔,為XML文檔在邏輯上建立一個樹模型,樹的節點是一個個對象。我們通過存取這些對象就能夠存取XML文檔的內容。 下面我們來看一個簡單的例子,看看在DOM中,我們是如何來操作一個XML文檔的。這是一個XML文檔,也是我們要操作的對象:
下面,我們需要把這個文檔的內容解析到一個個的Java對象中去供程序使用,利用JAXP,我們只需幾行代碼就能做到這一點。首先,我們需要建立一個解析器工廠,以利用這個工廠來獲得一個具體的解析器對象: DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); 我們在這里使用DocumentBuilderFacotry的目的是為了創建與具體解析器無關的程序,當DocumentBuilderFactory類的靜態方法newInstance()被調用時,它根據一個系統變量來決定具體使用哪一個解析器。又因為所有的解析器都服從于JAXP所定義的接口,所以無論具體使用哪一個解析器,代碼都是一樣的。所以當在不同的解析器之間進行切換時,只需要更改系統變量的值,而不用更改任何代碼。這就是工廠所帶來的好處。 DocumentBuilder db = dbf.newDocumentBuilder(); 當獲得一個工廠對象后,使用它的靜態方法newDocumentBuilder()方法可以獲得一個DocumentBuilder對象,這個對象代表了具體的DOM解析器。但具體是哪一種解析器,微軟的或者IBM的,對于程序而言并不重要。 然后,我們就可以利用這個解析器來對XML文檔進行解析了: Document doc = db.parse("c:/xml/message.xml"); DocumentBuilder的parse()方法接受一個XML文檔名作為輸入參數,返回一個Document對象,這個Document對象就代表了一個XML文檔的樹模型。以后所有的對XML文檔的操作,都與解析器無關,直接在這個Document對象上進行操作就可以了。而具體對Document操作的方法,就是由DOM所定義的了。 從得到的Document對象開始,我們就可以開始我們的DOM之旅了。使用Document對象的getElementsByTagName()方法,我們可以得到一個NodeList對象,一個Node對象代表了一個XML文檔中的一個標簽元素,而NodeList對象,觀其名而知其意,所代表的是一個Node對象的列表: NodeList nl = doc.getElementsByTagName("message"); 我們通過這樣一條語句所得到的是XML文檔中所有<message>標簽對應的Node對象的 一個列表。然后,我們可以使用NodeList對象的item()方法來得到列表中的每一個Node對象: Node my_node = nl.item(0); 當一個Node對象被建立之后,保存在XML文檔中的數據就被提取出來并封裝在這個Node中了。在這個例子中,要提取Message標簽內的內容,我們通常會使用Node對象的getNodeValue()方法: String message = my_node.getFirstChild().getNodeValue(); 請注意,這里還使用了一個getFirstChild()方法來獲得message下面的第一個子Node對象。雖然在message標簽下面除了文本外并沒有其它子標簽或者屬性,但是我們堅持在這里使用getFirseChild()方法,這主要和W3C對DOM的定義有關。W3C把標簽內的文本部分也定義成一個Node,所以先要得到代表文本的那個Node,我們才能夠使用getNodeValue()來獲取文本的內容。現在,既然我們已經能夠從XML文件中提取出數據了,我們就可以把這些數據用在合適的地方,來構筑應用程序。 DOM實例 先說說這個例子到底要做的是什么吧,我們在一個名為link.xml文件中保存了一些URL地址,我們希望可以通過DOM把這些URL讀出并顯示出來,也可以反過來向這個XML文件中寫入加入的URL地址。很簡單,卻很實用,也足夠來例示DOM的絕大部分用法了。 第一個程序我們稱為xmldisplay.Java,主要的功能就是讀取這個XML文件中各個節點的內容,然后在格式化輸出在System.out上,我們來看看這個程序:
這是引入必要的類,因為在這里使用的是Sun所提供的XML解析器,因而需要引入Java.xml.parsers包,其中包含了有DOM解析器和SAX解析器的具體實現。org.w3c.dom包中定義了w3c所制定的DOM接口。 DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); DocumentBuilder builder=factory.newDocumentBuilder(); Document doc=builder.parse("links.xml"); doc.normalize(); 除了上面講到的,還有一個小技巧,對Document對象調用normalize(),可以去掉XML文檔中作為格式化內容的空白而映射在DOM樹中的不必要的Text Node對象。否則你得到的DOM樹可能并不如你所想象的那樣。特別是在輸出的時候,這個normalize()更為有用。
剛才說過,XML文檔中的空白符也會被作為對象映射在DOM樹中。因而,直接調用Node方法的getChildNodes方法有時候會有些問題,有時不能夠返回所期望的NodeList對象。解決的辦法是使用Element的getElementByTagName(String),返回的NodeLise就是所期待的對象了。然后,可以用item()方法提取想要的元素。
上面的代碼片斷就完成了對XML文檔內容的格式化輸出。只要注意到一些細節的問題,比如getFirstChile()方法和getElementsByTagName()方法的使用,這些還是比較容易的。 下面的內容,就是在修改了DOM樹后重新寫入到XML文檔中去的問題了。這個程序名為xmlwrite.Java。在JAXP1.0版本中,并沒有直接的類和方法能夠處理XML文檔的寫入問題,需要借助其它包中的一些輔助類。而在JAXP1.1版本中,引入了對XSLT的支持,所謂XSLT,就是對XML文檔進行變換(Translation)后,得到一個新的文檔結構。利用這個新加入的功能,我們就能夠很方便的把新生成或者修改后的DOM樹從新寫回到XML文件中去了,下面我們來看看代碼的實現,這段代碼的主要功能是向links.xml文件中加入一個新的link節點:
新引入的Java.xml.transform包中的幾個類,就是用來處理XSLT變換的。 我們希望在上面的XML文件中加入一個新的link節點,因而首先還是要讀入links.xml文件,構建一個DOM樹,然后再對這個DOM樹進行修改(添加節點),最后把修改后的DOM寫回到links.xml文件中:
為了看清重點,簡化程序,我們把要加入的內容硬編碼到記憶String對象中,而實際操作中,往往利用一個界面來提取用戶輸入,或者通過JDBC從數據庫中提取想要的內容。
首先應該明了的是,無論什么類型的Node,Text型的也好,Attr型的也好,Element型的也好,它們的創建都是通過Document對象中的createXXX()方法來創建的(XXX代表具體要創建的類型),因此,我們要向XML文檔中添加一個link項目,首先要創建一個link對象:
創建節點的過程可能有些千篇一律,但需要注意的地方是,對Element中所包含的text(在DOM中,這些text也是代表了一個Node的,因此也必須為它們創建相應的node),不能直接用Element對象的setNodeValue()方法來設置這些text的內容,而需要用創建的Text對象的setNodeValue()方法來設置文本,這樣才能夠把創建的Element和其文本內容添加到DOM樹中。看看前面的代碼,你會更好的理解這一點: doc.getDocumentElement().appendChild(link); 最后,不要忘記把創建好的節點添加到DOM樹中。Document類的getDocumentElement()方法,返回代表文檔根節點的Element對象。在XML文檔中,根節點一定是唯一的。
然后就是用XSLT把DOM樹輸出了。這里的TransformerFactory也同樣應用了工廠模式,使得具體的代碼同具體的變換器無關。實現的方法和DocumentBuilderFactory相同,這兒就不贅述了。Transformer類的transfrom方法接受兩個參數、一個數據源Source和一個輸出目標Result。這里分別使用的是DOMSource和StreamResult,這樣就能夠把DOM的內容輸出到一個輸出流中,當這個輸出流是一個文件的時候,DOM的內容就被寫入到文件中去了。 [page_break] 如何利用JavaScript/" target="_blank">JSP開發SAX應用? SAX是Simple API for XML的縮寫,它并不是由W3C官方所提出的標準,可以說是"民間"的事實標準。實際上,它是一種社區性質的討論產物。雖然如此,在XML中對SAX的應用絲毫不比DOM少,幾乎所有的XML解析器都會支持它。 與DOM比較而言,SAX是一種輕量型的方法。我們知道,在處理DOM的時候,我們需要讀入整個的XML文檔,然后在內存中創建DOM樹,生成DOM樹上的每個Node對象。當文檔比較小的時候,這不會造成什么問題,但是一旦文檔大起來,處理DOM就會變得相當費時費力。特別是其對于內存的需求,也將是成倍的增長,以至于在某些應用中使用DOM是一件很不劃算的事(比如在applet中)。這時候,一個較好的替代解決方法就是SAX。 SAX在概念上與DOM完全不同。首先,不同于DOM的文檔驅動,它是事件驅動的,也就是說,它并不需要讀入整個文檔,而文檔的讀入過程也就是SAX的解析過程。所謂事件驅動,是指一種基于回調(callback)機制的程序運行方法。(如果你對Java新的代理事件模型比較清楚的話,就會很容易理解這種機制了)在XMLReader接受XML文檔,在讀入XML文檔的過程中就進行解析,也就是說讀入文檔的過程和解析的過程是同時進行的,這和DOM區別很大。解析開始之前,需要向XMLReader注冊一個ContentHandler,也就是相當于一個事件監聽器,在ContentHandler中定義了很多方法,比如startDocument(),它定制了當在解析過程中,遇到文檔開始時應該處理的事情。當XMLReader讀到合適的內容,就會拋出相應的事件,并把這個事件的處理權代理給ContentHandler,調用其相應的方法進行響應。 這樣泛泛的說來或許有些不容易理解,別急,后面的例子會讓你明白SAX的解析過程。看看這個簡單XML文件:
當XMLReader讀到<POEM>標簽時,就會調用ContentHandler.startElement()方法,并把標簽名POEM作為參數傳遞過去。在你實現的startElement()方法中需要做相應的動作,以處理當<POEM>出現時應該做的事情。各個事件隨著解析的過程(也就是文檔讀入的過程)一個個順序的被拋出,相應的方法也會被順序的調用,最后,當解析完成,方法都被調用后,對文檔的處理也就完成了。下面的這個表,列出了在解析上面的那個XML文件的時候,順序被調用的方法: 遇到的項目 方法回調
ContentHandler實際上是一個接口,當處理特定的XML文件的時候,就需要為其創建一個實現了ContentHandler的類來處理特定的事件,可以說,這個實際上就是SAX處理XML文件的核心。下面我們來看看定義在其中的一些方法: void characters(char[] ch, int start, int length):這個方法用來處理在XML文件中讀到字符串,它的參數是一個字符數組,以及讀到的這個字符串在這個數組中的起始位置和長度,我們可以很容易的用String類的一個構造方法來獲得這個字符串的String類:String charEncontered=new String(ch,start,length)。 void startDocument():當遇到文檔的開頭的時候,調用這個方法,可以在其中做一些預處理的工作。 void endDocument():和上面的方法相對應,當文檔結束的時候,調用這個方法,可以在其中做一些善后的工作。 void startElement(String namespaceURI, String localName, String qName, Attributes atts):當讀到一個開始標簽的時候,會觸發這個方法。在SAX1.0版本中并不支持名域,而在新的2.0版本中提供了對名域的支持,這兒參數中的namespaceURI就是名域,localName是標簽名,qName是標簽的修飾前綴,當沒有使用名域的時候,這兩個參數都未null。而atts是這個標簽所包含的屬性列表。通過atts,可以得到所有的屬性名和相應的值。要注意的是SAX中一個重要的特點就是它的流式處理,在遇到一個標簽的時候,它并不會紀錄下以前所碰到的標簽,也就是說,在startElement()方法中,所有你所知道的信息,就是標簽的名字和屬性,至于標簽的嵌套結構,上層標簽的名字,是否有子元屬等等其它與結構相關的信息,都是不得而知的,都需要你的程序來完成。這使得SAX在編程處理上沒有DOM來得那么方便。 void endElement(String namespaceURI, String localName, String qName):這個方法和上面的方法相對應,在遇到結束標簽的時候,調用這個方法。 我們還是沿用講DOM的時候使用的那個文檔例子,但首先,我們先看一個簡單一些的應用,我們希望能夠統計一下XML文件中各個標簽出現的次數。這個例子很簡單,但是足以闡述SAX編程的基本思路了。一開始當然還是import語句了:
然后,我們創建一個繼承于DefaultHandler的類,具體的程序邏輯在這兒可以暫且放在一邊,要注意的是程序的結構:
我們來看看這段程序作了些什么。在main()方法中,主要做的就是創建解析器,然后解析文檔。實際上,在這兒創建SAXParser對象的時候,為了使程序代碼于具體的解析器無關,使用了同DOM中一樣的設計技巧:通過一個SAXParserFactory類來創建具體的SAXParser對象,這樣,當需要使用不同的解析器的時候,要改變的,只是一個環境變量的值,而程序的代碼可以保持不變。這就是FactoryMethod模式的思想。在這兒不再具體講了,如果還有不明白的,可以參看上面DOM中的解釋,原理是一樣的。 不過在這兒還有一點點要注意的地方,就是SAXParser類和XMLReader類之間的關系。你可能有些迷糊了吧,實際上SAXParser是JAXP中對XMLReader的一個封裝類,而XMLReader是定義在SAX2.0種的一個用來解析文檔的接口。你可以同樣的調用SAXParser或者XMLReader中的parser()方法來解析文檔,效果是完全一樣的。不過在SAXParser中的parser()方法接受更多的參數,可以對不同的XML文檔數據源進行解析,因而使用起來要比XMLReader要方便一些。 這個例子僅僅涉及了SAX的一點皮毛,而下面的這個,可就要高級一些了。下面我們要實現的功能,在DOM的例子中已經有實現了,就是從XML文檔中讀出內容并格式化輸出,雖然程序邏輯看起來還是很簡單,但是SAX可不比DOM哦,看著吧。 前面說過,當遇到一個開始標簽的時候,在startElement()方法中,我們并不能夠得到這個標簽在XML文檔中所處的位置。這在處理XML文檔的時候是個大麻煩,因為在XML中標簽的語義,有一部分是由其所處的位置所決定的。而且在一些需要驗證文檔結構的程序中,這更是一個問題。當然,沒有解決不了的問題了,我們可以使用一個棧來實現對文檔結構的紀錄。 棧的特點是先進先出,我們現在的想法是,在startElemnt()方法中用push將這個標簽的名字添加到棧中,在endElement()方法中在把它pop出來。我們知道對一個結構良好的XML而言,其嵌套結構是完備的,每一個開始標簽總會對應一個結束標簽,而且不會出現標簽嵌套之間的錯位。因而,每一次startElement()方法的調用,必然會對應一個endElement()方法的調用,這樣push和pop也是成對出現的,我們只需要分析棧的結構,就可以很容易的知道當前標簽所處在文檔結構中的位置了。
在這兒雖然沒有使用到棧的分析,但實際上棧的分析是一件很容易的事情,應為Java.util.Stack繼承了Java.util.Vector類,而且Stack中的元素是按棧的結構由底至上排列的,因個,我們可以使用Vector類的size()方法來得到Stack的元素個數,還可以使用Vector的get(int)方法來得到具體的每一個元屬。實際上,如果把Stack的元素從底向上逐一排列出來,我們就得到了從XML根節點到當前節點的一條唯一的路徑,有了這條路徑的信息,文檔的結構就在清楚不過了。 到目前為止,我們已經掌握了對于XML編程的兩大利器:DOM和SAX,也知道了該如何在一個Java程序中使用它們。DOM編程相對簡單,但是速度比較慢,占用內存多,而S AX編程復雜一些,但是速度快,占用內存少。所以,我們應該根據不同的環境選擇使用不同的方法。大部分的XML應用基本都可以用它們來解決。需要特別說明的是,DOM和SAX其實都是語言無關的,并非Java所獨有,也就是說,只要有相應的語言實現,DOM和SAX可以應用在任何面向對象的語言中。 |
溫馨提示:喜歡本站的話,請收藏一下本站!