Milvus向量資料庫入門實踐

Rickie發表於2024-05-21
Milvus是一個開源的向量資料庫,可以處理萬億級向量相似性搜尋和分析。


非結構化資料呈爆炸式增長。而我們可以透過機器學習模型,將非結構化資料轉化為 embedding 向量,隨後處理分析這些資料。在此過程中,向量資料庫應運而生。向量資料庫是一套全託管的非結構化資料處理解決方案,可用於儲存、索引、檢索 embedding 向量。

什麼是向量(Vector)?

向量是一系列數值,它們表達了浮點在多個維度上的位置。

用更通俗的語言來說,向量是一個數字列表,比如:[0.34, 2.35, 8.34, 8, 9, ...]。這些數字指出了空間內的一個位置,就像在電子表格中行號和列號指出特定單元格的位置一樣(例如,“B7”)。


什麼是向量資料庫(Vector Database)?
向量資料庫是一種以數學表示形式儲存資料的資料庫。向量資料庫使機器學習模型更容易記住之前的輸入,允許利用機器學習來支援搜尋、推薦和文字生成等用例。資料可以基於相似度度量而非精確匹配來識別,使得計算機模型能夠在上下文中理解資料。

當一個人訪問一家鞋店時,銷售員可能會推薦與個人偏好相似的鞋子。同樣地,當在電子商務商店購物時,商店可能會在“客戶還購買了...”這樣的標題下推薦相似的商品。向量資料庫使得機器學習模型能夠識別類似的物件,就像銷售員能夠找到相似的鞋子,電子商務商店可以推薦相關產品一樣。事實上,電子商務商店可能就是使用這樣的機器學習模型來進行推薦的。

向量資料庫主要用於影像檢索、音訊檢索、文字檢索等領域,其主要特點是能夠高效地儲存和檢索大規模的向量資料。向量資料庫用專門的資料結構和演算法來處理向量之間的相似性計算和查詢。透過構建索引結構,向量資料庫可以快速找到最相似的向量,以滿足各種應用場景中的查詢需求。

Milvus向量資料庫是在2019年建立的,其唯一目標是儲存、索引和管理由深度神經網路和其他機器學習(ML)模型生成的大規模嵌入向量。

作為一個專門設計用於處理輸入向量查詢的資料庫,它能夠處理萬億級別的向量索引。與現有的關係型資料庫主要處理遵循預定義模式的結構化資料不同,Milvus從底層設計用於處理從非結構化資料轉換而來的嵌入向量。

本專欄介紹Milvus向量資料庫的一些基礎操作和入門開發實踐,包括向量資料庫的入門介紹、安裝啟動、PyMilvus庫、Attu圖形化管理工具、Zilliz Cloud雲環境、開發入門實踐等等。


專欄大綱

傳統關係型資料庫更適合用來應對結構化的資料,關係型資料庫採用表格的形式來組織和儲存資料,使用行和列的結構來表示實體和屬性之間的關係。資料以結構化的方式儲存,需要定義表的結構和欄位型別。


向量資料庫專門用於儲存和查詢向量資料。它將向量作為資料的核心組成部分,提供了專門的向量欄位型別和索引結構來支援高效的向量相似性搜尋。

大模型和神經網路,更多面對的是海量的非結構化資料,比如文字、音訊、影片、關係等。它們有一種專門的處理方式:“向量化”。想要按這種方式組織資料,需要一個專門的資料庫——向量資料庫(Vector Database)。把複雜的非結構化資料透過向量化(embedding),處理統一成多維空間裡的座標值,透過計算向量之間的相似度或距離,快速定位最相關的近似值。

當前市面上的向量資料庫也隨著AI的火熱如雨後春筍般出現。Milvus 向量資料庫專為向量查詢與檢索設計,能夠為萬億級向量資料建立索引。與現有的主要用作處理結構化資料的關係型資料庫不同,Milvus 在底層設計上就是為了處理由各種非結構化資料轉換而來的向量而生。


Milvus擁有最高的GitHub星級評級和強大的社群支援,有數量眾多的企業信任這個向量資料庫來滿足業務需求。Milvus 是一款雲原生的開源向量資料庫,專為向量相似性搜尋和 AI 應用賦能。


Milvus 於 2019 年開源,可用於儲存、索引和管理由深度神經網路學習與其他機器學習模型生成的海量向量。Zilliz 將 Milvus 作為孵化專案貢獻給 LF AI & Data 基金會。Milvus 專案於 2021 年 6 月正式畢業,現已成為向量資料庫業內領導者。

Milvus在機器學習和資料科學領域獲得了很高的聲譽,在向量索引和查詢方面擁有出色的能力。利用功能強大的演算法,Milvus提供閃電般的處理和資料檢索速度以及GPU支援,即使在處理非常龐大的資料集時也是如此。Milvus還可以與PyTorch和TensorFlow等其他流行的框架整合,從而允許將其新增到現有的機器學習工作流中。

本專欄介紹Milvus向量資料庫的一些基礎操作和入門開發實踐,包括向量資料庫的入門介紹、安裝啟動、PyMilvus庫、Attu圖形化管理工具、Zilliz Cloud雲環境、開發入門實踐等等。

相關文章