Neo4j 圖資料庫基礎

發表於2017-07-31

在這個三篇系列文章的第一篇文章中,我們將學習圖資料庫(graph database)的基礎知識,它支援了這地球上最大的一些資料池。

對於海量的各種非結構化資訊來說,圖資料庫已經成為幫助收集、管理和搜尋大量資料的技術。在這三篇系列文章中,我們將使用開源圖資料庫軟體 Neo4j 來研究圖資料庫。

在本文中,我將向你展示圖資料庫的基礎知識,幫助你快速瞭解概念模型。在第二篇中,我將向你展示如何啟動 Neo4j 資料庫,並使用內建的瀏覽器工具填充一些資料。而且,在本系列的最後一篇文章中,我們將探討一些在開發工作中使用的 Neo4j 程式設計庫。

掌握圖資料庫的概念模型是有用的,所以我們從那裡開始。圖資料庫中只儲存兩種資料:節點node和邊edge。

  • 節點是實體:諸如人物、發票、電影、書籍或其他具體事物。這些有些等同於關聯式資料庫中的記錄或行。
  • 邊名關係:連線節點的概念、事件或事物。在關聯式資料庫中,這些關係通常儲存在具有連結欄位的資料庫行中。在圖資料庫中,它們本身就是有用的,是可以以其自己的許可權搜尋的物件。

節點和邊都可以擁有可搜尋的屬性。例如,如果你的節點代表人,他們可能擁有名字、性別、出生日期、身高等屬性。而邊的屬性可能描述了兩個人之間的關係何時建立,見面的情況或關係的性質。

這是一個幫助你視覺化的圖表:

Graph database image 1

在這張圖中,你知道 Jane Doe 有一個新的丈夫 John;一個女兒(來自她以前的夫妻關係)Mary Smith 和朋友 Robert 和 Rhonda Roe。Roes 有一個兒子 Ryan,他正在與 Mary Smith 約會。

看看它怎麼工作?每個節點代表一個獨立於其他節點的人。你需要找到關於那個人的一切都可以儲存在節點的屬性中。邊描述了人們之間的關係,這與你在程式中需要的一樣多。

關係是單向的,且不能是無向的,但這沒有問題。由於資料庫可以以相同的速度遍歷兩個方向,並且方向可以忽略,你只需要定義一次此關係。如果你的程式需要定向關係,則可以自由使用它們,但如果雙向性是暗含的,則不需要。

另外需要注意的是,圖資料庫本質上是無 schema 的。這與關聯式資料庫不同,關聯式資料庫每行都有一組列表,並且新增新的欄位會給開發和升級帶來很多工作。

每個節點都可以擁有一個標籤label;對於大多數程式你需要“輸入”這個標籤,是對典型的關聯式資料庫中的表名的模擬。標籤可以讓你區分不同的節點型別。如果你需要新增新的標籤或屬性,修改程式來用它就行!

使用圖資料庫,你可以直接開始使用新的屬性和標籤,節點將在建立或編輯時獲取它們。不需要轉換東西;只需在你的程式碼中使用它們即可。在這裡的例子中,你可以看到,我們知道 Jane 和 Mary 最喜歡的顏色和 Mary 的出生日期,但是別人沒有(這些屬性)。這個系統不需要知道它;使用者可以在正常使用程式的過程中訪問節點時為其新增資訊(屬性)。

作為一名開發人員,這是一個有用的特性。你可以將新的標籤或屬性新增到由節點處理的表單中並開始使用它,而不必進行資料庫 schema 的修改。對於沒有該屬性的節點,將不顯示任何內容。你可以使用任何一種型別的資料庫來為表單進行編碼,但是你可以放下在關係型資料庫中要進行的許多後端工作了。

讓我們新增一些新的資訊:

Graph database image 2, defining a new type of node

這是一個新的節點型別,它代表一個位置,以及一些相關關係。現在我們看到 John Doe 出生在加利福尼亞州的 Petaluma,而他的妻子 Jane 則出生在德克薩斯州的 Grand Prairie。 他們現在住在得克薩斯州的賽普拉斯,因為 Jane 在附近的休斯頓工作。Ryan Roe 缺乏城市關係對資料庫來說沒有什麼大不了的事情,我們不知道那些資訊而已。當使用者輸入更多資料時,資料庫可以輕鬆獲取新資料並新增新資料,並根據需要建立新的節點和關係。

瞭解節點和邊應該足以讓你開始使用圖形資料庫。如果你像我一樣,已經在考慮如何在一個圖中重組你的程式。在本系列的下一篇文章中,我將向你展示如何安裝 Neo4j、插入資料,並進行一些基本的搜尋。

相關文章