如何用程式解圖片迷宮?

熊崽Kevin發表於2014-03-21

譯註:原文是StackOverflow上一個如何用程式讀取迷宮圖片並求解的問題,幾位參與者熱烈地討論並給出了自己的程式碼,涉及到用Python對圖片的處理以及廣度優先(BFS)演算法等。

 

問題by Whymarrh:

當給定上面那樣一張JPEG圖片,如何才能更好地將這張圖轉換為合適的資料結構並且解出這個迷宮?

我的第一直覺是將這張圖按畫素逐個讀入,並儲存在一個包含布林型別元素的列表或陣列中,其中True代表白色畫素,False代表非白色畫素(或彩色可以被處理成二值影象)。但是這種做法存在一個問題,那就是給定的圖片往往並不能完美的“畫素化”。考慮到如果因為圖片轉換的原因,某個非預期的白色畫素出現在迷宮的牆上,那麼就可能會創造出一一條非預期的路徑。

經過思考之後,我想出了另一種方法:首先將圖片轉換為一個可縮放適量圖形(SVG)檔案,這個檔案由一個畫布上的向量線條列表組成,向量線條按照列表的順序讀取,讀取出的仍是布林值:其中True表示牆,而False表示可通過的區域。但是這種方法如果無法保證影象能夠做到百分之百的精確轉換,尤其是如果不能將牆完全準確的連線,那麼這個迷宮就可能出現裂縫。

影象轉換為SVG的另一個問題是,線條並不是完美的直線。因為SVG的線條是三次貝塞爾曲線,而使用整數索引的布林值列表增加了曲線轉換的難度,迷宮線條上的所有點在曲線上都必須經過計算,但不一定能夠完美對應列表中的索引值。

假設以上方法的確可以實現(雖然很可能都不行),但當給定一張很大的影象時,它們還是不能勝任。那麼是否存在一種更好地方法能夠平衡效率和複雜度?

這就要討論到如何解迷宮了。如果我使用以上兩種方法中的任意一種,我最終將會得到一個矩陣。而根據這個問答(http://stackoverflow.com/questions/3097556/programming-theory-solve-a-maze/3097677#3097677),一個比較好的迷宮表示方式應該是使用樹的結構,並且使用A*搜尋演算法來解迷宮。那麼如何從迷宮圖片中構造出迷宮樹呢?有比較好的方法麼?

以上廢話太多,總結起來問題就是:如何轉換迷宮圖片?轉換成為什麼樣的資料結構?採用什麼樣的資料結構能夠幫助或阻礙解迷宮?

 

回答by Mikhail:

這是我的解決方案:

1. 將圖片轉換為灰度影象(不是直接二值),調整不同顏色的權重使得最終的灰度看起來比較統一,你可以通過簡單地調節Photoshop 影象->調整->黑白 選單中的控制條來實現。
2. 將上一步得到的灰度圖片轉換為二值圖片,可以通過在PS 影象->調整->閾值 選單中設定適當的閾值來實現
3. 確保正確設定了閾值。使用魔棒工具(引數設定:容差 0、取樣點、連續以及消除鋸齒)選擇空白區域,檢查所選區域的邊緣不是因為錯誤的閾值設定而產生的假邊緣。事實上,這個迷宮中從start到end應該由聯通的空白區域。
4. 人為地在迷宮外部加上邊界,確保迷宮漫遊者^_^不會從start繞著迷宮跑到終點。:)
5. 選擇語言實現廣度優先搜尋演算法(BFS),從start處開始讓程式執行。下面的程式碼我選擇用Matlab實現。正如Thomas提到的,沒必要糾結於影象的表示形式,你可以直接在二值影象上執行。

以下是用MATLAB實現的BFS程式碼:

這是個簡單的實現,應該很容易就能夠改寫為Python或其他語言,下面是程式的執行結果:

 

提問者更新:

我用Python實現了一下Mikhail的方法,其中用到了numpy庫,感謝Thomas推薦。我感覺這個演算法是正確的,但是效果不太如預期,以下是相關程式碼,使用了PyPNG庫處理圖片。

 譯註:很遺憾,我用提問者提供的程式碼並沒有跑通程式,並且似乎程式碼縮排有點問題,而下面其他參與者的程式碼能夠執行通過,並且效果很好。

回答by Joseph Kern:

動態執行效果:

 

回答by Jim

使用樹搜尋太繁雜了,迷宮本身就跟解路徑是可分的。正因如此,你可以使用連通區域查詢演算法來標記迷宮中的連通區域,這將迭代搜尋兩次這些畫素點。如果你想要更好地解決方法,你可以對結構單元使用二元運算(binary operations)來填充每個連通區域中的死路。

下面是相關的MATLAB程式碼及執行結果:

回答by Stefano

stefano童鞋給出了生成搜尋過程GIF及AVI檔案的程式碼 maze-solver-python (GitHub)

相關文章