第26章：高效字串處理

夢飛發表於2017-03-17

原文網址 : http://www.ituring.com.cn/article/274582

base——String [Char]，bytestring——ASCII，test——Unicode字串

1.bytestring函式庫

處理二進位制資料
vector函式庫中Vector表示這樣的型別

Char預設表示Unicode編碼的字元，所以用Word8來代替C語言裡的Char

--適合大量的連續資料處理
--Data.Vector.Mutable
IOVector Word8
--Data.Vector.Unboxed
Vector Word8
--Data.Vector
Vector Word8

bytestring函式庫ByteString型別（也常稱strict ByteString）
```
import qualified Data.ByteString as BS
data ByteString = PS {-# UNPACK #-} !(ForeignPtr Word8) -- payload
                     {-# UNPACK #-} !Int                -- offset
                     {-# UNPACK #-} !Int                -- length
```
+ByteString包含一個指向Word8的指標，一個偏移量和一個長度

+ForeignPtr可以方便讓外部C呼叫的指標型別

+偏移量和長度的資料可以用來實現快速的字串分割等操作

+函式庫中提供的各種操作函式：head,length,map,foldl,reverse等
Lazy ByteString

使用連續區域儲存資料的問題，拼接操作申請記憶體有可能失敗而不得不把整個資料複製到新區域，且拼接ByteString的操作需要複製整個陣列的資料導致效率低；另一方面，連結串列資料結構是分散在記憶體中，但拼接操作只是對指標的操作，所以效率高，但訪問效能又低下。——Data.ByteString.Lazy中的Lazy ByteString能兼顧這兩種資料結構的優點。

+Lazy ByteString基本思路是分段表示一個字串，每一個子段內部是Strict ByteString，子段間通過指標相連
```
data ByteString = Empty | Chunk {-# UNPACK #-} !S.ByteString ByteString
```
+Data.ByteString.Streaming 流處理 streaming

ByteString Builder

+局域性優化——通過改造程式使用的資料結構，使之充分利用CPU快取記憶體實現加速

--預設返回Chunk尺寸是32KB的Lazy ByteString
hGetContents :: Handle -> IO ByteString
readFile :: FilePath -> IO ByteString
...

+為了自適應Chunk尺寸，尺寸小時使用記憶體複製的方式進行拼接，否則自動轉換為使用指標相連 +Data.ByteString.Builder Builder型別

data BufferRange = BufferRange {-# UNPACK #-} !(Ptr Word8)  -- First byte of range
                               {-# UNPACK #-} !(Ptr Word8)  -- First byte /after/ range


data Buffer = Buffer {-# UNPACK #-} !(ForeignPtr Word8)
                     {-# UNPACK #-} !BufferRange


data BuildSignal a =
    Done {-# UNPACK #-} !(Ptr Word8) a
  | BufferFull
      {-# UNPACK #-} !Int
      {-# UNPACK #-} !(Ptr Word8)
                     (BuildStep a)
  | InsertChunk
      {-# UNPACK #-} !(Ptr Word8)
                     S.ByteString
                     (BuildStep a)


type BuildStep a = BufferRange -> IO (BuildSignal a)


newtype Builder = Builder (forall r. BuildStep r -> BuildStep r)

+操作Builder型別的函式

2.text和utf8-string函式庫

UTF8 UTF16 UTF32

基於UTF16的text函式庫，處理文字

data Text = Text
    {-# UNPACK #-} !A.Array          -- payload (Word16 elements)
    {-# UNPACK #-} !Int              -- offset (units of Word16, not Char)
    {-# UNPACK #-} !Int              -- length (units of Word16, not Char)

在處理Text型別時，通過組合基於Char的操作，在底層操作時text函式庫會自動完成UTF16和UTF32的轉換
text函式庫的模組結構和bytestring類似
處理UTF8編碼字串的 utf8-string函式庫

一個統一的型別類

class IsString a where
    fromString :: String -> a

3. mono-traversable 函式庫

為了抽象上面介紹的關於字串 ByteString、Text 型別
Data.MonoTraversable
Element型別家族
```
type family Element mono
```
推薦使用這個模組去處理一些和底層資料型別無關的計算模組，使得編寫的演算法和底層容器資料型別無關

字串處理
2024-09-15
字串
[譯] Transducers: JavaScript 中高效的資料處理 Pipeline（第 18 部分）
2019-01-07
JavaScript
Guava字串處理Joiner、Splitter
2019-02-23
Guava字串
PHP 陣列 & 字串處理
2019-04-03
PHP陣列字串
bat 批處理字串操作
2024-03-14
BAT字串
簡單的字串處理
2020-12-26
字串
shell字串處理總結
2021-04-08
字串
JavaScript常用的字串處理方法
2019-12-10
JavaScript字串
06.字元和字串處理
2024-07-09
字元字串
使用Excel高效處理資料
2022-07-20
Excel
實用處理字串的linux命令
2019-02-21
字串Linux
處理stdin輸入的字串指令
2024-04-21
字串
Java入門教程四(字串處理)
2019-06-04
Java字串
C語言之字串處理函式
2024-06-23
C語言字串函式
處理字串的方法都在這裡
2022-03-28
字串
MySQL 動態字串處理詳解
2021-09-09
MySql字串
Linux 使用 shell 指令碼處理字串
2020-12-08
Linux指令碼字串
字串和日期時間的處理
2020-11-30
字串
Java基礎-處理json字串解析案例
2018-07-18
JavaJSON字串
JavaScript字串和時間處理隨筆
2024-03-15
JavaScript字串
C++中的字串編碼處理
2023-05-15
C++字串編碼
如何高效的處理陣列對映
2022-03-03
陣列
Python武器庫 - 科研中常用的python字串處理 - 字串擴充
2024-06-15
Python字串
處理一串字串的關鍵字
2018-07-06
字串
精通Python自然語言處理 1 ：字串操作
2018-05-28
Python自然語言處理字串
Java 運算子詳解與字串處理技巧
2024-02-11
Java字串
Laravel response 返回的值全部處理為字串
2019-07-24
Laravel字串
藍橋杯航班時間 (字串處理)C
2020-10-15
字串
MVC字串處理及MVC@RenderSection小計
2019-05-11
MVC字串
Java SimpleDateFormat處理日期與字串的轉換
2019-02-18
JavaORM字串
字串處理，push pop路徑，組合命令
2024-06-10
字串
訊號處理板卡學習資料第524篇：基於XCZU15EG的FMC+ 高效能通用訊號處理板卡
2020-12-14
Golang語言包-字串處理strings和字串型別轉換strconv
2019-05-07
Golang字串型別
SQL中的常用的字串處理函式大全
2018-12-17
SQL字串函式
一個專業處理字串的IDEA外掛
2021-12-07
字串Idea
f-strings: Python字串處理的瑞士軍刀
2022-12-17
Python字串
民聽相理前成第處向aru
2022-02-28
Vaex助力高效處理大規模資料集
2023-10-27
億萬級資料處理的高效解決方案
2021-09-09

第26章：高效字串處理

1.bytestring函式庫

2.text和utf8-string函式庫

3. mono-traversable 函式庫

相關文章