在影像處理中,我們可以看到很多函式都是帶有半徑這個引數的,不過99%的情況下這個半徑其實都是矩形的意思,在目前我所實現的演算法中,也只有二值影像的最大值和最小值我實現了圓形半徑的優化,可以參考:SSE影像演算法優化系列二十五:二值影像的Euclidean distance map(EDM)特徵圖計算及其優化 一文,這裡通過特徵圖實現了圓形半徑演算法的O(1)演算法。
在實際的需求中,還有很多場合下需要圓形的最值演算法,我們目前知道的有幾個演算法,比如在Photoshop中,選區的擴充套件和收縮,在圖層樣式的描邊演算法中等等,都不是普通的矩形半徑。所以這個演算法的優化也有著非常重要的意義。
在可以搜尋到的資料中,我曾經在2個地方看到關於這個演算法的優化實現,一個是ImageJ中,其UI介面下的功能如下所示:
我們嘗試了下,在小半徑下,這速度還是比較快的,\但是半徑稍大時,就相對來說有點慢了。這個相關的程式碼可以在RankFilters.java中找到。
還有一個可以參考的程式碼是在GIMP中,這個也是我無意中尋得的,其程式碼路徑分別在:
gimp-master\app\operations\gimpoperationgrow.c 和 gimp-master\app\operations\gimpoperationshrink.c檔案中。
在GIMP中這個函式的主要作用也是對選區進行收縮和擴充套件。
原始選區 GIMP的擴充套件50畫素 PS的擴充套件50畫素
由以上影像看上去,似乎PS的擴充套件選區用的還是菱形半徑,而不是圓形。
我們這裡參考了GIMP的程式碼,以grow為例,其核心程式碼如下:
static void compute_border (gint16 *circ, guint16 xradius, guint16 yradius) { gint32 i; gint32 diameter = xradius * 2 + 1; gdouble tmp; for (i = 0; i < diameter; i++) { if (i > xradius) tmp = (i - xradius) - 0.5; else if (i < xradius) tmp = (xradius - i) - 0.5; else tmp = 0.0; circ[i] = RINT (yradius / (gdouble) xradius * sqrt (SQR (xradius) - SQR (tmp))); } } static inline void rotate_pointers (gfloat **p, guint32 n) { guint32 i; gfloat *tmp; tmp = p[0]; for (i = 0; i < n - 1; i++) p[i] = p[i + 1]; p[i] = tmp; } static gboolean gimp_operation_grow_process (GeglOperation *operation, GeglBuffer *input, GeglBuffer *output, const GeglRectangle *roi, gint level) { /* Any bugs in this function are probably also in thin_region. * Blame all bugs in this function on jaycox@gimp.org */ GimpOperationGrow *self = GIMP_OPERATION_GROW (operation); const Babl *input_format = gegl_operation_get_format (operation, "input"); const Babl *output_format = gegl_operation_get_format (operation, "output"); gint32 i, j, x, y; gfloat **buf; /* caches the region's pixel data */ gfloat *out; /* holds the new scan line we are computing */ gfloat **max; /* caches the largest values for each column */ gint16 *circ; /* holds the y coords of the filter's mask */ gfloat last_max; gint16 last_index; gfloat *buffer; max = g_new (gfloat *, roi->width + 2 * self->radius_x); buf = g_new (gfloat *, self->radius_y + 1); for (i = 0; i < self->radius_y + 1; i++) buf[i] = g_new (gfloat, roi->width); buffer = g_new (gfloat, (roi->width + 2 * self->radius_x) * (self->radius_y + 1)); for (i = 0; i < roi->width + 2 * self->radius_x; i++) { if (i < self->radius_x) max[i] = buffer; else if (i < roi->width + self->radius_x) max[i] = &buffer[(self->radius_y + 1) * (i - self->radius_x)]; else max[i] = &buffer[(self->radius_y + 1) * (roi->width + self->radius_x - 1)]; for (j = 0; j < self->radius_y + 1; j++) max[i][j] = 0.0; } /* offset the max pointer by self->radius_x so the range of the * array is [-self->radius_x] to [roi->width + self->radius_x] */ max += self->radius_x; out = g_new (gfloat, roi->width); circ = g_new (gint16, 2 * self->radius_x + 1); compute_border (circ, self->radius_x, self->radius_y); /* offset the circ pointer by self->radius_x so the range of the * array is [-self->radius_x] to [self->radius_x] */ circ += self->radius_x; memset (buf[0], 0, roi->width * sizeof (gfloat)); for (i = 0; i < self->radius_y && i < roi->height; i++) /* load top of image */ gegl_buffer_get (input, GEGL_RECTANGLE (roi->x, roi->y + i, roi->width, 1), 1.0, input_format, buf[i + 1], GEGL_AUTO_ROWSTRIDE, GEGL_ABYSS_NONE); for (x = 0; x < roi->width; x++) /* set up max for top of image */ { max[x][0] = 0.0; /* buf[0][x] is always 0 */ max[x][1] = buf[1][x]; /* MAX (buf[1][x], max[x][0]) always = buf[1][x]*/ for (j = 2; j < self->radius_y + 1; j++) max[x][j] = MAX (buf[j][x], max[x][j - 1]); } for (y = 0; y < roi->height; y++) { rotate_pointers (buf, self->radius_y + 1); if (y < roi->height - (self->radius_y)) gegl_buffer_get (input, GEGL_RECTANGLE (roi->x, roi->y + y + self->radius_y, roi->width, 1), 1.0, input_format, buf[self->radius_y], GEGL_AUTO_ROWSTRIDE, GEGL_ABYSS_NONE); else memset (buf[self->radius_y], 0, roi->width * sizeof (gfloat)); for (x = 0; x < roi->width; x++) /* update max array */ { for (i = self->radius_y; i > 0; i--) max[x][i] = MAX (MAX (max[x][i - 1], buf[i - 1][x]), buf[i][x]); max[x][0] = buf[0][x]; } last_max = max[0][circ[-1]]; last_index = 1; for (x = 0; x < roi->width; x++) /* render scan line */ { last_index--; if (last_index >= 0) { if (last_max >= 1.0) { out[x] = 1.0; } else { last_max = 0.0; for (i = self->radius_x; i >= 0; i--) if (last_max < max[x + i][circ[i]]) { last_max = max[x + i][circ[i]]; last_index = i; } out[x] = last_max; } } else { last_index = self->radius_x; last_max = max[x + self->radius_x][circ[self->radius_x]]; for (i = self->radius_x - 1; i >= -self->radius_x; i--) if (last_max < max[x + i][circ[i]]) { last_max = max[x + i][circ[i]]; last_index = i; } out[x] = last_max; } } gegl_buffer_set (output, GEGL_RECTANGLE (roi->x, roi->y + y, roi->width, 1), 0, output_format, out, GEGL_AUTO_ROWSTRIDE); } /* undo the offsets to the pointers so we can free the malloced memory */ circ -= self->radius_x; max -= self->radius_x; g_free (circ); g_free (buffer); g_free (max); for (i = 0; i < self->radius_y + 1; i++) g_free (buf[i]); g_free (buf); g_free (out); return TRUE; }
程式碼量不多,雖然不是純C的程式碼,但是也是能看懂意思。
那麼在主函式裡,buf 記憶體的大小是(R + 1) * Width, 他實際上是動態儲存了R+1行畫素對應的最大值,如下所示
6 buf[0] = 0
4 buf[Width] = Max(6, 4)
7 buf[Width * 2] = Max(6, 4, 7)
如果第一列的數值為分別為6/4/7,則 buf[0] = 0, buf[Width] = Max(6, 4),即半徑為1時的列最大值, buf[Width * 2] = Max(6, 4, 7),即半徑為2時的列最大值。
如果計算了一整行的這種不同半徑的最大值,那麼對於一個圓形半徑,我們只要計算沿著行方向上不同半徑組合的最大值即可以得到圓半徑內的最大值。
在程式碼中,compute_border就是計算圓形半徑內每列或者每行的上下對稱尺寸,這樣,沿著行方向分別取不同半徑的最大值做比較即可。
但是在上面程式碼裡,沒有直接這樣,而是做了一定的優化,如下圖所示:
如左圖所示,在水平方向移動計算最大值時,當移動一個畫素時,可以看到右側紅色的半圓(少一個畫素)的左半部分完全在左側的黃色圓形的內部,所以如果我們的黃色圓內的最大值已經在黃色圓的右側,那麼在計算紅色圓內最大值的就沒有必要遍歷整個圓了,只需要計算右側的半圓,那麼這有50%的概率會發生這種事情,可以一定程度的降低計算量。
接著還有一個重要的優化措施,就是在更新每行的新的最值列表時,不是每行的都重新計算,而是基於上一行的結果進行簡單的更新,原理如下所示:
// // 5 // 8 // 6 6 // 4 8 4 // 7 8 7 7 // 5 8 7 5 // 7 7 7 7 // 10 10 10 // 8 10
上述是某一列數的更新過程,注意半徑為2的情況。
這個就是下面的程式碼所要表達的思想:
for (x = 0; x < roi->width; x++) /* update max array */ { for (i = self->radius_y; i > 0; i--) max[x][i] = MAX (MAX (max[x][i - 1], buf[i - 1][x]), buf[i][x]); max[x][0] = buf[0][x]; }
可能需要坐下來好好地想一想才能明白是咋回事的。
上面的GIMP程式碼寫的很晦澀的,可以自己做點優化和美化吧。我測試了下,對於一副1000*1000的灰度圖,半徑為1時,耗時在2ms,半徑為10時,耗時120ms,半徑20時,耗時180ms,半徑100時,耗時590ms。
當半徑比較大時,速度還是有點慢的。
我們嘗試用SIMD指令進行優化,這個有兩點可以說的。一個是更新每行的新的最值列表時,這個程式碼很明顯可以直接用簡單的simd並行優化,那麼接著就是根據列最值獲得園內的最大值,這個時候就不要用上述半圓內優化的演算法了,直接用simd優化最原始的演算法即可。要知道_mm_max_epu8可以一次性處理16個位元組的比較呢。
經過測試,同樣的大小圖,SIMD指令優化後,半徑為1時,耗時在2ms,半徑為10時,耗時8ms,半徑20時,耗時10ms,半徑100時,耗時28ms,半徑越大時提速比幾乎達到了20倍。
其實仔細思考啊,這個演算法只要稍微改造下compute_border 函式還可以實現橢圓、菱形,平行四邊形等對稱形狀的最值的。
Demo下載地址:https://files.cnblogs.com/files/Imageshop/SSE_Optimization_Demo.rar