本週大模型、AIGC和資料科學的有趣專案、工具:
1、Grok-1
馬斯克的Grok 公開發布。
Grok-1 目前設計有以下規格:
- 引數: 314B
- 架構: 8 名專家的組合 (MoE)
- 專家利用率:每個token使用 2 名專家
- 層數: 64
- 注意頭: 48 個用於查詢,8 個用於鍵/值
- 嵌入大小: 6,144
- 標記化:具有 131,072 個標記的 SentencePiece 標記生成器
- 附加功能:
- 旋轉嵌入 (RoPE)
- 支援啟用分片和8位量化
2、Skyvern
利用 LLM 和計算機視覺實現基於瀏覽器的工作流程自動化。
Skyvern使用大模型和計算機視覺自動化基於瀏覽器的工作流程。它提供了一個簡單的 API 端點來完全自動化手動工作流程,取代脆弱或不可靠的自動化解決方案。
傳統的瀏覽器自動化方法需要為網站編寫自定義指令碼,通常依賴 DOM 解析和基於 XPath 的互動,只要網站佈局發生變化,這些指令碼就會中斷。
Skyvern 不僅僅依賴於程式碼定義的 XPath 互動,而是新增了計算機視覺和 LLM,以實時解析視口中的專案、建立互動計劃並與它們進行互動。
這種方法給我們帶來了一些優勢:
- Skyvern 可以在以前從未見過的網站上執行,因為它能夠將視覺元素對映到完成工作流程所需的操作,而無需任何自定義程式碼
- Skyvern 能夠抵抗網站佈局更改,因為我們的系統在嘗試導航時沒有預先確定的 XPath 或其他選擇器
- Skyvern 利用法學碩士透過互動進行推理,以確保我們能夠應對複雜的情況。示例包括:[list=1]
- 如果您想從 Geico 獲得汽車保險報價,請參閱常見問題“您有資格在 18 歲時開車嗎?”的答案。可以從 16 歲時獲得駕照的駕駛員推斷出
- 如果您進行競爭對手分析,就會發現 7/11 的 Arnold Palmer 22 盎司罐頭幾乎肯定與 Gopuff 的 23 盎司罐頭產品相同(儘管尺寸略有不同,這可能是舍入誤差!)
Skyvern 的靈感來自於BabyAGI和AutoGPT流行的任務驅動自主代理設計——它有一個主要好處:我們讓 Skyvern 能夠使用Playwright等瀏覽器自動化庫與網站進行互動。
3、MindGraph
利用人工智慧生成和查詢不斷擴充套件的知識圖譜的概念驗證原型。
這是一個概念驗證、開源、API 優先、基於圖形的專案,專為自然語言互動(輸入和輸出)而設計。該原型可作為構建和定製您自己的 CRM 解決方案的模板,重點關注易於整合和可擴充套件性。
特點:
- 實體管理:實體儲存在記憶體圖表中,以便快速訪問和操作,允許對人員、組織及其相互關係進行 CRUD 操作。
- 整合觸發器:可以透過 HTTP 請求觸發自定義整合功能,使 CRM 能夠與外部系統互動或執行其他處理。
- 搜尋功能:可以使用自定義查詢引數輕鬆搜尋實體及其關係。
- 人工智慧就緒:設計時考慮了人工智慧整合,促進智慧資料處理和決策的結合。
前端:
- 圖形視覺化:使用 Cytoscape.js 進行互動式圖形渲染。
- 動態資料互動:支援實時資料獲取、新增和圖形更新,無需重新載入頁面。
- 搜尋和突出顯示:允許使用者搜尋節點、突出顯示和列出匹配項。搜尋表單現在被雙重用於自然語言查詢,這實際上沒有意義,但卻是展示功能的快速方法。 (這旨在用作 API,前端用於演示目的)
- 資料提交表單:包括自然語言、URL 輸入和 CSV 檔案上傳的表單。
- 響應式設計:適應各種裝置和螢幕尺寸。
工作流程
- 初始化:在頁面載入時,使用樣式和佈局初始化圖表。
- 使用者互動:透過介面,使用者可以:
- 搜尋節點,結果在圖表中突出顯示並在側欄中列出。
- 使用支援各種輸入方法的表單新增資料。
- 重新整理圖表以反映最新的後端資料。
- 資料處理:使用者輸入被髮送到後端,進行處理和整合,並相應更新前端圖形視覺化。
模式驅動的知識圖譜建立
MindGraph 利用schema.json檔案來定義其知識圖中實體的結構和關係。該模式充當將自然語言輸入解釋和構建為連貫圖形格式的藍圖。它詳細說明了節點的型別(例如,人員、組織、概念)以及它們之間可能的關係,確保生成的知識圖遵循一致的格式。這種方法允許對自然語言輸入進行自動化、人工智慧驅動的處理,以生成反映輸入文字中固有的複雜相互關係的結構化資料。
- 一致性:確保自然語言輸入生成的所有知識圖都遵循相同的結構規則,使資料整合和解釋更加簡單。
- 靈活性:允許透過修改輕鬆更新和擴充套件知識圖譜結構schema.json,而不需要更改程式碼庫。
- AI 整合:透過為預期輸出提供清晰的結構,促進使用先進的 AI 模型進行自然語言處理,從而增強應用程式從非結構化資料中獲取有意義的見解的能力。
資料庫整合和使用
MindGraph支援靈活的資料庫整合,增強其資料儲存和檢索能力。 MindGraph 開箱即用,支援記憶體資料庫和更強大的基於雲的選項 NexusDB。這種靈活性可以輕鬆適應不同的部署環境和用例。
支援的資料庫
- InMemoryDatabase:一種簡單的記憶體中圖形資料結構,用於快速原型設計和測試。由於其非永續性,不建議用於生產用途。
- NexusDB:一款一體化雲資料庫,設計用於儲存圖形、表格、文件、檔案、向量等。提供共享知識圖譜以進行全面的資料管理和分析。配置資料庫
- NebulaGraph:分散式、可擴充套件、快如閃電的圖形資料庫,支援實時查詢和分析。非常適合大規模圖形資料儲存和處理。
4、Chronos
Chronos 是一系列基於語言模型架構的預訓練時間序列預測模型。用於時間序列機率預測的預訓練(語言)模型。
- 透過縮放和量化將時間序列轉換為標記序列,並使用交叉熵損失對這些標記進行語言模型的訓練。
- 經過訓練後,可以透過在給定歷史背景下對多個未來軌跡進行取樣來獲得機率預測。
- Chronos 模型已經在大量公開的時間序列資料以及使用高斯過程生成的合成資料上進行了訓練。
5、LaVague
透過將自然語言指令轉換為無縫的瀏覽器互動來重新定義網際網路衝浪。利用大型行動模型框架實現自動化。
LaVague 旨在代表使用者自動執行瑣碎的任務。其中許多工都是重複性的、耗時的,並且幾乎不需要認知努力。透過自動化這些任務,LaVague 旨在騰出時間來做更有意義的事情,讓使用者專注於對他們真正重要的事情。
透過提供將自然語言查詢轉換為 Selenium 程式碼的引擎,LaVague 旨在使使用者或其他 AI 能夠輕鬆地自動化輕鬆表達的 Web 工作流程並在瀏覽器上執行它們。
我們看到的關鍵用途之一是自動執行使用者個人需要登入的任務,例如自動化支付賬單、填寫表格或從特定網站提取資料的過程。
LaVague 基於開源專案構建,並利用本地或遠端的開源模型,以確保代理的透明度並確保其符合使用者的利益。
特點
- 自然語言處理:理解自然語言指令以執行瀏覽器互動。
- Selenium 整合:與 Selenium 無縫整合,以實現 Web 瀏覽器自動化。
- 開源:基於 Transformer 和 llama-index 等開源專案構建,並利用本地或遠端的開源模型,以確保代理的透明度並確保其符合使用者的利益。
- 隱私和控制的本地模型:支援本地模型,Gemma-7b以便使用者可以完全控制他們的AI助手並有隱私保障。
- 高階 AI 技術:首先使用本地嵌入 ( bge-small-en-v1.5) 執行 RAG 來提取最相關的 HTML 片段,以提供回答查詢的 LLM,因為直接刪除完整的 HTML 程式碼不適合上下文。然後利用少樣本學習和思想鏈來引出最相關的 Selenium 程式碼來執行操作,而無需微調 LLM ( Nous-Hermes-2-Mixtral-8x7B-DPO) 來生成程式碼。
6、DarkGPT
DarkGPT 是一款基於 GPT-4-200K(推薦使用)的開源情報助手,旨在對洩露的資料庫執行查詢,從而提供可在傳統開源情報流程中發揮作用的人工智慧助手。
7、phospho
Phospho 是 LLM 應用程式的文字分析平臺。檢測問題並從使用者或應用程式的簡訊中提取見解。收集使用者反饋並衡量成功。迭代您的應用程式,為您的使用者創造最佳的對話體驗。
用於 LLM 應用程式的文字分析。用於提示的 PostHog。phospho 利用 LLM(OpenAI、MistralAI、Ollama 等)。
特點:
- 靈活的日誌記錄
- 自動評價
- 洞察提取
- 資料視覺化
該儲存庫包含平臺前端、API 後端和見解提取管道的實現。
- phospho-python:帶有分析引擎的Python客戶端
- extractor:包裝分析引擎的FastAPI分析服務
- backend:FastAPI後端
- platform: NextJS 前端
- internal-tools:平臺管理工具
8、LLM4Decompile
使用大型語言模型反編譯二進位制程式碼。
- LLM4Decompile是致力於反編譯的開創性開源大型語言模型。其當前版本支援將 Linux x86_64 二進位制檔案(從 GCC 的 O0 到 O3 最佳化級別)反編譯為人類可讀的 C 原始碼。我們的團隊致力於擴充套件該工具的功能,並不斷努力納入更廣泛的架構和配置。
- Decompile-Eval是第一個反編譯基準測試,重點評估反編譯程式碼的可重編譯性和可重執行性方面。它是 HumanEval 資料集的 C 語言改編版,提供了一套 C 解決方案和斷言來評估反編譯程式碼的實際效用。
指標
- 可重新編譯性評估反編譯程式碼是否可以使用原始編譯器設定和配置成功重新編譯。
- 可重執行性評估反編譯後的程式碼是否可以正確執行並透過所有預定義的測試用例。
可重編譯性和可重執行性是驗證反編譯過程有效性的關鍵指標。當反編譯的程式碼可以重新編譯時,它提供了語法完整性的有力證據。它確保反編譯的程式碼不僅可讀,而且遵守編譯器期望的結構和語法標準。然而,語法本身並不能保證與原始預編譯程式的語義等效。可重執行性提供了語義正確性的關鍵衡量標準。透過重新編譯反編譯的輸出並執行測試用例,我們評估反編譯是否保留了程式邏輯和行為。可重編譯性和可重執行性共同表明語法恢復和語義保留——這對於可用和健壯的反編譯來說都是至關重要的。
9、sqlelf
一個利用 SQLite 虛擬表功能的工具,允許您透過 SQL 探索 Linux ELF 物件。
傳統上探索 ELF 檔案僅限於objdump或 等工具readelf。雖然這些工具的解析功能功能齊全,但輸出格式和提出探索性問題的能力有限。
SQL是以陳述性方式提出問題的通用語言。讓我們增強內省二進位制檔案的能力!
10、Magix
Magix 是一個簡約的工具包,用於透過靈活的資料和模型並行訓練 LLM。
利用模型並行性為 huggingface 轉換器增效。
特點:
- 在 GPU 和 TPU 上訓練數十億規模的大模型。
- 熟悉的 Huggingface 模型介面和生態系統(資料集、集線器等)。
- 適用於 Llama、Mistral、Gemma 等流行模型的預定義模型並行(分片)規則。
- 透過閃光注意力和操作融合進行加速。
- 透過任意裝置和並行設計快速檢查點儲存/恢復。
11、generator-jhipster-llm
這是一個使用 LLM 快速輕鬆生成 Spring Boot 應用程式程式碼的工具。對於程式碼生成,它利用JHipster,它可以輸出 Spring Boot 應用程式程式碼的各種變體。 LLM的程式碼生成是透過使用Blueprint功能來實現的,它擴充套件了JHipster的程式碼生成功能。
該工具輸出以下程式碼:
- Spring Boot應用伺服器的程式碼,包括構建工具等開發環境(JHipster的一項功能)
- OpenAI API 相容伺服器的程式碼
- 使用OpenAPI 規範和OpenAPI 生成器的[url=https://platform.openai.com/docs/api-reference/chat]OpenAI 聊天完成 API[/url]的程式碼
- 根據使用者選擇 Flux 還是 Spring MVC,它使用伺服器傳送事件進行流式傳輸來輸出聊天響應程式碼
- 使用OpenAPI 規範和OpenAPI 生成器的[url=https://platform.openai.com/docs/api-reference/chat]OpenAI 聊天完成 API[/url]的程式碼
- 使用Spring AI支援的 LLM 庫進行程式碼。目前,它支援以下內容:
- Ollama
- Llama.cpp 的 Java 繫結
- 安裝BetterChatGPT