IBM 開源的文件轉化利器「GitHub 熱點速覽」

削微寒發表於2024-11-12

上週的熱門開源專案,Star 數增長猶如坐上了火箭,一飛沖天。短短一週就飆升了 6k Star 的多格式文件解析和匯出神器 Docling,支援庫和命令列的使用方式。全新的視覺化爬蟲平臺 Maxun,則在剛開源時便輕鬆斬獲了 4k Star。而本地優先的個人理財工具 Actual,支援 Docker 自託管,讓使用者可以將資料掌握在自己手裡。如果你在尋找機器學習的 Python 庫,可以去 best-of-ml-python 看一看,它涵蓋了 34 個分類,共計 920 個優秀的機器學習 Python 庫。

最後,免費的 Windows 應用解除安裝利器(Bulk-Crap-Uninstaller)和 B 站影片空降助手(BilibiliSponsorBlock),憑藉著簡單實用、開箱即用的特點,迅速贏得了廣大使用者的青睞。

  • 本文目錄
    • 1. 熱門開源專案
      • 1.1 多格式文件解析和匯出工具:Docling
      • 1.2 本地優先的個人理財工具:Actual
      • 1.3 簡單幹淨的 Hugo 主題:hugo-PaperMod
      • 1.4 開源的無程式碼網頁資料提取平臺:Maxun
      • 1.5 頂級的機器學習 Python 庫列表:best-of-ml-python
    • 2. HelloGitHub 熱評
      • 2.1 B 站影片空降助手:BilibiliSponsorBlock
      • 2.2 免費的 Windows 應用解除安裝神器:Bulk-Crap-Uninstaller
    • 3. 結尾

1. 熱門開源專案

1.1 多格式文件解析和匯出工具:Docling

主語言:PythonStar:7.9k周增長:6k

這是一個由 IBM 開源的 Python 工具,專門用於將各類文件轉化為適合生成式 AI 使用的工具。它能夠將 PDF、DOCX、PPTX、圖片、HTML、Markdown 等多種流行文件格式,匯出為 Markdown 和 JSON 格式,支援多種 OCR 引擎(PDF)、統一的文件物件(DoclingDocument),輕鬆整合檢索增強生成(RAG)和問答應用,適用於需要將文件作為生成式 AI 模型輸入的場景。

from docling.document_converter import DocumentConverter

source = "url"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

GitHub 地址→github.com/DS4SD/docling

1.2 本地優先的個人理財工具:Actual

主語言:TypeScriptStar:15k周增長:600

這是一款完全免費開源、本地優先的個人理財工具。它採用 Node.js 編寫,擁有簡潔的介面和直觀的現金流報告,支援 Docker 自建、匯入交易資料和多裝置同步,以及可選的端到端加密功能,注重保護使用者隱私和資料安全。

GitHub 地址→github.com/actualbudget/actual

1.3 簡單幹淨的 Hugo 主題:hugo-PaperMod

主語言:HTMLStar:10k

這是一個快速、簡潔、響應式的 Hugo 主題。它基於 hugo-paper 開發,並在此基礎上增加了更多功能和自定義選項,支援多語言、自動切換明暗主題、SEO 友好、社交媒體分享按鈕、封面圖片、導航欄等功能。此外,它還提供了常規、主頁資訊和個人資料三種模式,可用於快速構建不同風格的個人部落格。

GitHub 地址→github.com/adityatelange/hugo-PaperMod

1.4 開源的無程式碼網頁資料提取平臺:Maxun

主語言:TypeScriptStar:4k周增長:3k

這是一款全新的無程式碼網頁資料提取平臺,無需程式設計即可輕鬆抓取網站的資料,支援列表/文字抓取、截圖、自定義代理、自動處理分頁和滾動等功能。作為一個新的開源專案,它的功能還在不停迭代,計劃推比如適應網站佈局變化和登入後資料提取等新功能。

GitHub 地址→github.com/getmaxun/maxun

1.5 頂級的機器學習 Python 庫列表:best-of-ml-python

主語言:OtherStar:17k周增長:1.2k

該專案提供了一個高質量的機器學習 Python 庫列表,包含超過 900 個開源專案,並按照專案質量評分進行排名,每週更新一次。所有開源專案被分成了 30 多個分類,包括機器學習框架、資料視覺化、自然語言處理、OCR、模型序部署等,便於不同應用領域的開發者快速找到所需的機器學習工具和資源。

GitHub 地址→github.com/ml-tooling/best-of-ml-python

2. HelloGitHub 熱評

在此章節中,我們將為大家介紹本週 HelloGitHub 網站上的熱門開源專案,我們不僅希望您能從中收穫開源神器和程式設計知識,更渴望“聽”到您的聲音。歡迎您與我們分享使用這些開源專案的親身體驗和評價,用最真實反饋為開源專案的作者注入動力。

2.1 B 站影片空降助手:BilibiliSponsorBlock

主語言:TypeScript

這是一款能夠自動跳過 B 站影片中恰飯片段和開場、結尾動畫的瀏覽器外掛,所有標註資料均由網友貢獻,支援 Chrome、Edge 和 FireFox 瀏覽器。

專案詳情→hellogithub.com/repository/298fa9ba909c49428c1dc7f8c401bbbd

2.2 免費的 Windows 應用解除安裝神器:Bulk-Crap-Uninstaller

主語言:C#

這是一個用 C# 開發的 Windows 軟體解除安裝工具,能夠快速刪除大量不需要的應用程式。它完全免費、開箱即用,支援批次和強制解除安裝、清理殘留檔案、檢測隱藏或受保護的已註冊應用等功能。雖然面向 IT 專業人員設計,但其簡單的預設設定,讓任何人都能輕鬆上手。

專案詳情→hellogithub.com/repository/e5745984014e47f1a33648c0425256a0

3. 結尾

以上就是本期「GitHub 熱點速覽」的全部內容,希望你能夠在這裡找到自己感興趣的開源專案,如果你有其他好玩、有趣的 GitHub 開源專案想要分享,歡迎來 HelloGitHub 與我們交流和討論。

往期回顧

  • 開源的 API 學習平臺
  • 自建網際網路檔案館

相關文章