C++ 記憶體分配(new,operator new)詳解

WUDAIJUN的部落格發表於2016-10-23

本文主要講述C++ new運算子和operator new, placement new之間的種種關聯,new的底層實現,以及operator new的過載和一些在記憶體池,STL中的應用。

一 new 運算子和 operator new():

new:指我們在C++裡通常用到的運算子,比如A* a = new A;  對於new來說,有new和::new之分,前者位於std

operator new():指對new的過載形式,它是一個函式,並不是運算子。對於operator new來說,分為全域性過載和類過載,全域性過載是void* ::operator new(size_t size),在類中過載形式 void* A::operator new(size_t size)。還要注意的是這裡的operator new()完成的操作一般只是分配記憶體,事實上系統預設的全域性::operator new(size_t size)也只是呼叫malloc分配記憶體,並且返回一個void*指標。而建構函式的呼叫(如果需要)是在new運算子中完成的。

先簡單解釋一下new和operator new之間的關係:

關於這兩者的關係,我找到一段比較經典的描述(來自於www.cplusplus.com 見參考文獻):

operator new can be called explicitly as a regular function, but in C++, new is an operator with a very specific behavior: An expression with the new operator, first calls function operator new (i.e., this function) with the size of its type specifier as first argument, and if this is successful, it then automatically initializes or constructs the object (if needed). Finally, the expression evaluates as a pointer to the appropriate type.

比如我們寫如下程式碼:

我們知道這裡分為兩步:1.分配記憶體,2.呼叫A()構造物件。事實上,分配記憶體這一操作就是由operator new(size_t)來完成的,如果類A過載了operator new,那麼將呼叫A::operator new(size_t ),如果沒有過載,就呼叫::operator new(size_t ),全域性new操作符由C++預設提供。因此前面的兩步也就是:1.呼叫operator new 2.呼叫建構函式。這裡再一次提出來是因為後面關於這兩步會有一些變形,在關於placement new那裡會講到。

先舉個簡單例子

下面我們跟蹤一下A反彙編程式碼,由於Debug版本反彙編跳轉太多,因此此處通過Release版本在A* a = new A;處設斷點反彙編:
在Release版本中,建構函式和解構函式都是直接展開的。

二 operator new 的三種形式:

operator new有三種形式:

throwing (1)

nothrow (2)

placement (3)

(1)(2)的區別僅是是否丟擲異常,當分配失敗時,前者會丟擲bad_alloc異常,後者返回null,不會丟擲異常。它們都分配一個固定大小的連續記憶體。

用法示例:

(3)是placement new,它也是對operator new的一個過載,定義於中,它多接收一個ptr引數,但它只是簡單地返回ptr。

其在new.h下的原始碼如下:

那麼它究竟有什麼用呢?事實上,它可以實現在ptr所指地址上構建一個物件(通過呼叫其建構函式),這在記憶體池技術上有廣泛應用。
它的呼叫形式為:

前面說到,new運算子都會呼叫operator new,而這裡的operator new(size_t, void*)並沒有什麼作用,真正起作用的是new運算子的第二個步驟:在p處呼叫A建構函式。這裡的p可以是動態分配的記憶體,也可以是棧中緩衝,如char buf[100]; new(buf) A();

我們仍然可以通過一個例子來驗證:


上面的程式碼將物件的分配,構造,析構和釋放分離開來,這也是new和delete運算子兩句就能完成的操作。

先直接執行可以看到程式輸出:

再分別註釋掉new(a) A();和a->~A();兩句,可以看到對應的構造和解構函式將不會被呼叫。

然後檢視反彙編:

平臺: Visual Studio 2008 Debug版

從反彙編中可以看出,其實operator new呼叫了兩次,只不過每一次呼叫不同的過載函式,並且placement new的主要作用只是將p放入ecx,並且呼叫其建構函式。

事實上,在指定地址上構造物件還有另一種方法,即手動呼叫建構函式:p->A::A(); 這裡要加上A::作用域,否則編譯器會報錯:error C2273: “函式樣式轉換”: 位於“->”運算子右邊時非法

用p->A::A();替換掉new(p) A();仍然能達到同樣的效果,反彙編:

比之前的方法更加簡潔高效(不需要呼叫placement new)。不知道手動呼叫建構函式是否有違C++標準或有什麼隱晦,我在其他很多有名的記憶體池(包括SGI STL alloc)實現上看到都是用的placement new,而不是手動呼叫建構函式。

三 operator new 過載:

前面簡單提到過 A* p = new A;所發生的事情:先呼叫operator new,如果類A過載了operator new,那麼就使用該過載版本,否則使用全域性版本::operatro new(size_t size)。那麼類中可以過載operator new的哪些版本?全域性operator new可以過載嗎?全域性和類中過載分別會在什麼時機呼叫?

1.在類中過載 operator new

上面提到的throwing(1)和nothrow(2)的operator new是可以被過載的,比如:


C++ 記憶體分配(new,operator new)詳解
如果類A中沒有對operator new的過載,那麼new A和new(std::nothrow) A;都將會使用全域性operator new(size_t size)。可將A中兩個operator new註釋掉,並且在A外新增一個全域性operator new過載:

程式輸出:

注意,這裡的過載遵循作用域覆蓋原則,即在裡向外尋找operator new的過載時,只要找到operator new()函式就不再向外查詢,如果引數符合則通過,如果引數不符合則報錯,而不管全域性是否還有相匹配的函式原型。比如如果這裡只將A中operator new(size_t, const std::nothrow_t&)刪除掉,就會報錯:

error C2660: “A::operator new”: 函式不接受 2 個引數。

至於placement new,它本身就是operator new的一個過載,不需也儘量不要對它進行改寫,因為它一般是搭配 new(p) A(); 工作的,它的職責只需簡單返回指標。

對operator new的過載還可以新增自定義引數,如在類A中新增

這種過載看起來沒有什麼大作用,因為它operator new需要完成的任務只是分配記憶體,但是通過對這類過載的巧妙應用,可以讓它在動態分配記憶體除錯和檢測中大展身手。這將在後面operator new過載運用技巧中,展現。

2.過載全域性 operator new

全域性operator new的過載和在類中過載並無太大區別,當new A;時,如果類A中沒有過載operator new,那麼將呼叫全域性operator new函式,如果沒有過載全域性operator new,最後會呼叫預設的全域性operator new。

3.類中operator new和全域性 operator new 的呼叫時機

前面已經提到了在new時的呼叫順序,但是這裡提出來的原因是還存在一個全域性的new運算子,也就是::new,這個運算子會直接呼叫全域性operator new,並且也會呼叫建構函式。這可能讓人很犯迷糊,只做瞭解即可。這裡提到的呼叫時機都是指通過new運算子呼叫,沒有討論其他情況,比如主動呼叫。

四 operator new運用技巧和一些例項探索

1.operator new 過載運用於除錯:

前面提到如何operator new的過載是可以有自定義引數的,那麼我們如何利用自定義引數獲取更多的資訊呢,這裡一個很有用的做法就是給operator new新增兩個引數:char* file, int line,這兩個引數記錄new運算子的位置,然後再在new時將檔名和行號傳入,這樣我們就能在分配記憶體失敗時給出提示:輸出檔名和行號。

那麼如何獲取當前語句所在檔名和行號呢,windows提供兩個巨集:__FILE__和__LINE__。利用它們可以直接獲取到檔名和行號,也就是 new(__FILE__, __LINE__) 由於這些都是不變的,因此可以再定義一個巨集:#define new new(__FILE__, __LINE__)。這樣我們就只需要定義這個巨集,然後過載operator new即可。

原始碼如下,這裡只是簡單輸出new的檔名和行號。

輸出:


注意:需要將類的宣告實現與new的使用隔離開來。並且將類標頭檔案放在巨集定義之前。否則在類A中的operator new過載中的new會被巨集替換,整個函式就變成了: void* operator new(__FILE__, __LINE__)(size_t size, char* file, int line)
編譯器自然會報錯。

2.記憶體池優化

operator new的另一個大用處就是記憶體池優化,記憶體池的一個常見策略就是分配一次性分配一塊大的記憶體作為記憶體池(buffer或pool),然後重複利用該記憶體塊,每次分配都從記憶體池中取出,釋放則將記憶體塊放回記憶體池。在我們客戶端呼叫的是new運算子,我們可以改寫operator new函式,讓它從記憶體池中取出(當記憶體池不夠時,再從系統堆中一次性分配一塊大的),至於構造和析構則在取出的記憶體上進行,然後再過載operator delete,它將記憶體塊放回記憶體池。關於記憶體池和operator new在參考文獻中有一篇很好的文章。這裡就不累述了。

3.STL中的 new

在SGI STL原始碼中,defalloc.h和stl_construct.h中提供了最簡單的空間配置器(allocator)封裝,見《STL原始碼剖析》P48。它將物件的空間分配和構造分離開來,雖然在defalloc.h中僅僅是對::operator new和::operator delete的一層封裝,但是它仍然給STL容器提供了更加靈活的介面

SGI STL真正使用的並不是defalloc.h中的分配器,而是stl_alloc.h中的SGI精心打造的”雙層級配置器”,它將記憶體池技術演繹得淋漓盡致,值得細細琢磨。順便提一下,在stl_alloc.h中並沒有使用::operator new/delete 而直接使用malloc和free。具體緣由均可參見《STL原始碼剖析》。

五 delete 的使用

delete的使用基本和new一致,包括operator delete的過載方式這些都相似,只不過它的引數是void*,返回值為void。但是有一點需要注意,operator delete的自定義引數過載並不能手動呼叫。比如

如下呼叫是無法通過的:

那麼過載operator delete有什麼作用?如何呼叫?事實上以上自定義引數operator delete 只在一種情況下被呼叫:當new運算子丟擲異常時。

可以這樣理解,只有在new運算子中,編譯器才知道你呼叫的operator new形式,然後它會呼叫對應的operator delete。一旦出了new運算子,編譯器對於你自定義的new將一無所知,因此它只會按照你指定的delete運算子形式來呼叫operator delete,而至於為什麼不能指定呼叫自定義delete(也就是隻能老老實實delete p),這個就不知道了。

細心觀察的話,上面operator new用於除錯的例子程式碼中,由於我們沒有給出operator new對應的operator delete。在VS2008下會有如下警告:

warning C4291: “void *A::operator new(size_t,const char *,int)”: 未找到匹配的刪除運算子;如果初始化引發異常,則不會釋放記憶體

六 關於 new 和記憶體分配的其他

 1.set_new_handler

還有一些零散的東西沒有介紹到,比如set_new_handler可以在malloc(需要呼叫set_new_mode(1))或operator new記憶體分配失敗時指定一個入口函式new_handler,這個函式完成自定義處理(繼續嘗試分配,丟擲異常,或終止程式),如果new_handler返回,那麼系統將繼續嘗試分配記憶體,如果失敗,將繼續重複呼叫它,直到記憶體分配完畢或new_handler不再返回(丟擲異常,終止)。下面這段程式完成這個測試:

程式執行後會一直輸出call nomem_handler 因為函式裡面只是簡單輸出,返回,系統嘗試分配失敗後,呼叫nomem_handler函式,由於該函式並沒有起到實際作用(讓可分配記憶體增大),因此返回後系統再次嘗試分配失敗,再呼叫nomem_handler,迴圈下去。

在SGI STL中的也有個仿new_handler函式:oom_malloc

2.new 分配陣列

A* p = new A[3];中,會直接呼叫全域性的operator new[](size_t size),而不管A中是否有operator new[]的過載。而delete[]p卻會優先呼叫A::operator delete[](void*)(如果A中有過載)。另外還要注意的是,在operator new[](size_t size)中傳入的並不是sizeof(A)*3。而要在物件陣列的大小上加上一個額外資料,用於編譯器區分物件陣列指標和物件指標以及物件陣列大小。在VS2008下這個額外資料佔4個位元組,一個int大小。測試程式碼如下

輸出:


簡單跟蹤了一下:

operator new[]返回的是0x005b668 而最後new運算子返回給p的是0x005b66c。也就是說p就是陣列的起始地址,這樣程式看到的記憶體就是線性的,不包括前面的額外資料。

在記憶體中,可以看到前面的四個位元組額外資料是0x00000003 也就是3,代表陣列元素個數。後面三個cd是堆在Debug中的預設值(中文的cdcd就是”屯”,棧的初始值為cc,0xcccc中文”燙”)。再後面的0xfdfdfdfd應該是堆塊的結束標誌,前面我有部落格專門跟蹤過。

注:其實在malloc原始碼中也有記憶體池的運用,而且也比較複雜。最近在參考dlmalloc版本和STL空間介面卡,真沒有想到一個記憶體分配能涉及這麼多的東西。

相關文章