netty系列之:netty中常用的xml編碼解碼器

flydean發表於2022-05-13

簡介

在json之前,xml是最常用的資料傳輸格式,雖然xml的冗餘資料有點多,但是xml的結構簡單清晰,至今仍然運用在程式中的不同地方,對於netty來說自然也提供了對於xml資料的支援。

netty對xml的支援表現在兩個方面,第一個方面是將編碼過後的多個xml資料進行frame拆分,每個frame包含一個完整的xml。另一方面是將分割好的frame進行xml的語義解析。

進行frame拆分可以使用XmlFrameDecoder,進行xml檔案內容的解析則可以使用XmlDecoder,接下來我們會詳細講解兩個decoder實現和使用。

XmlFrameDecoder

因為我們收到的是資料流,所以不確定收到的資料到底是什麼樣的,一個正常的xml資料可能會被拆分成多個資料frame。

如下所示:

   +-------+-----+--------------+
   | <this | IsA | XMLElement/> |
   +-------+-----+--------------+

這是一個正常的xml資料,但是被拆分成為了三個frame,所以我們需要將其合併成為一個frame如下:

   +-----------------+
   | <thisIsAXMLElement/> |
   +-----------------+

還有可能不同的xml資料被分拆在多個frame中的情況,如下所示:

   +-----+-----+-----------+-----+----------------------------------+
   | <an | Xml | Element/> | <ro | ot><child>content</child></root> |
   +-----+-----+-----------+-----+----------------------------------+

上面的資料需要拆分成為兩個frame:

   +-----------------+-------------------------------------+
   | <anXmlElement/> | <root><child>content</child></root> |
   +-----------------+-------------------------------------+

拆分的邏輯很簡單,主要是通過判斷xml的分隔符的位置來判斷xml是否開始或者結束。xml中的分隔符有三個,分別是'<', '>' 和 '/'。

在decode方法中只需要判斷這三個分隔符即可。

另外還有一些額外的判斷邏輯,比如是否是有效的xml開始字元:

    private static boolean isValidStartCharForXmlElement(final byte b) {
        return b >= 'a' && b <= 'z' || b >= 'A' && b <= 'Z' || b == ':' || b == '_';
    }

是否是註釋:

    private static boolean isCommentBlockStart(final ByteBuf in, final int i) {
        return i < in.writerIndex() - 3
                && in.getByte(i + 2) == '-'
                && in.getByte(i + 3) == '-';
    }

是否是CDATA資料:

    private static boolean isCDATABlockStart(final ByteBuf in, final int i) {
        return i < in.writerIndex() - 8
                && in.getByte(i + 2) == '['
                && in.getByte(i + 3) == 'C'
                && in.getByte(i + 4) == 'D'
                && in.getByte(i + 5) == 'A'
                && in.getByte(i + 6) == 'T'
                && in.getByte(i + 7) == 'A'
                && in.getByte(i + 8) == '[';
    

通過使用這些方法判斷好xml資料的起始位置之後,就可以呼叫extractFrame方法將要使用的ByteBuf從原始資料中拷貝出來,最後放到out中去:

final ByteBuf frame =
                    extractFrame(in, readerIndex + leadingWhiteSpaceCount, xmlElementLength - leadingWhiteSpaceCount);
            in.skipBytes(xmlElementLength);
            out.add(frame);

XmlDecoder

將xml資料拆分成為一個個frame之後,接下來就是對xml中具體資料的解析了。

netty提供了一個xml資料解析的方法叫做XmlDecoder,主要用來對已經是一個單獨的xml資料的frame進行實質內容的解析,它的定義如下:

public class XmlDecoder extends ByteToMessageDecoder 

XmlDecoder根據讀取到的xml內容,將xml的部分拆分為XmlElementStart,XmlAttribute,XmlNamespace,XmlElementEnd,XmlProcessingInstruction,XmlCharacters,XmlComment,XmlSpace,XmlDocumentStart,XmlEntityReference,XmlDTD和XmlCdata。

這些資料基本上覆蓋了xml中所有可能出現的元素。

所有的這些元素都是定義在io.netty.handler.codec.xml包中的。

但是XmlDecoder對xml的讀取解析則是借用了第三方xml工具包:fasterxml。

XmlDecoder使用了fasterxml中的AsyncXMLStreamReader和AsyncByteArrayFeeder用來進行xml資料的解析。

這兩個屬性的定義如下:

    private static final AsyncXMLInputFactory XML_INPUT_FACTORY = new InputFactoryImpl();
    private final AsyncXMLStreamReader<AsyncByteArrayFeeder> streamReader;
    private final AsyncByteArrayFeeder streamFeeder;

            this.streamReader = XML_INPUT_FACTORY.createAsyncForByteArray();
        this.streamFeeder = (AsyncByteArrayFeeder)this.streamReader.getInputFeeder();

decode的邏輯是通過判斷xml element的型別來分別進行不同資料的讀取,最後將讀取到的資料封裝成上面我們提到的各種xml物件,最後將xml物件新增到out list中返回。

總結

我們可以藉助XmlFrameDecoder和XmlDecoder來實現非常方便的xml資料解析,netty已經為我們造好輪子了,我們就不需要再自行發明了。

本文已收錄於 http://www.flydean.com/14-7-netty-codec-xml/

最通俗的解讀,最深刻的乾貨,最簡潔的教程,眾多你不知道的小技巧等你來發現!

歡迎關注我的公眾號:「程式那些事」,懂技術,更懂你!

相關文章