近期國外大科技公司工程文摘

banq發表於2024-05-02

本週Meta 、Netflix 、Doordash 、Booking等釋出的最重要、最引人注目的文章!

1. “Meta Llama 3 簡介:迄今為止最有能力的公開大模型”

  • 討論新 8B 和 70B 引數模型的效能
  • 解釋模型架構、預訓練資料、擴充套件預訓練和指令微調
  • 描述 Llama 3 的大規模部署及其在所有主要平臺上的可用性:AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure 等

2. “規模擴大到數十億”
Canva如何構建可擴充套件且可靠的內容使用計數服務:

  • 引入使用OLAP資料庫的最新架構
  • 涵蓋作為計數管道的核心跟蹤功能
  • 從 MySQL 開始,回顧架構的演變以及所面臨的挑戰
  • 介紹將資料遷移到 DynamoDB 並決定不繼續
  • 分享使用 OLAP 和 ELT 的簡化,以及面臨的改進和挑戰
  • 分享有關設計可靠服務和引入架構變更的重要經驗教訓


3、“VES 的製作:用於 Netflix 影片編碼的 Cosmos 微服務”

  • Netflix 概述 Cosmos 微服務的三層:API 層(Optimus)、工作流層(Plato) 和計算層(Stratum)
  • 分享經驗教訓,包括定義適當的服務範圍、務實地進行資料建模以及接受服務 API 更改
  • 探索VES的持續釋出流程,強調短髮布週期和自動化部署

4、《利用大型語言模型構建 DoorDash 的產品知識圖譜》

  • 討論標準化和豐富 DoorDash 零售目錄的原始商家資料所面臨的挑戰
  • 描述如何使用大型語言模型 (LLM) 從非結構化 SKU 資料中提取產品屬性
  • 介紹大模型在品牌提取、有機產品標籤和廣義屬性提取中的使用
  • 涵蓋屬性提取對改善客戶購物體驗的下游影響
  • 探索未來計劃使用多模式大模型進行屬性提取,並透過集中式模型平臺在 DoorDash 上實現其使用民主化

5、“在 Google Cloud 上採用 Airflow 的經驗教訓”

  • 描述透過 Composer 產品將工作流程遷移到 GCP 上的 Airflow 的過程
  • 探索建立本地 Airflow 環境來模擬遠端生產環境
  • 概述有關 celery.worker_concurrency 和其他引數的效能調整
  • 介紹如何使用 Dataproc 進行繁重的工作並降低成本
  • 共享 DAG 中嵌入式文件的使用以及服務帳戶模擬以確保安全

6、“ASOS 的推薦轉型”

  • 介紹Transformer技術在時尚推薦系統中的應用
  • 解釋Transformer如何利用自我注意力和位置意識來捕捉客戶風格和互動:雖然 Transformer 旨在解決自然語言任務,但最近的研究已將其用途擴充套件到推薦系統。 Transformer 模型使我們能夠透過稱為自我關注的機制更好地捕捉客戶的風格,並使用位置意識推斷客戶互動隨時間的相對重要性。
  • 自注意力使機器學習模型能夠構建序列中輸入的上下文感知表示。透過在處理時權衡序列中所有其他輸入相對於自身的重要性,模型能夠對每個輸入乃至整個序列建立更豐富的理解。例如,當一雙高跟鞋與一套休閒服裝和更正式的服裝組合時,可以有不同的解釋。這種額外的背景使模型能夠更好地解釋產品並捕捉客戶風格的本質。
  • 位置意識使模型能夠解釋客戶過去產品互動的順序,並根據產品在序列中的位置破譯產品的相對重要性,例如,模型可能會更重視昨天購買的產品而不是三個月前檢視的產品。當客戶的上下文在瀏覽會話之間切換以及他們的風格隨著時間的推移而演變時,這使得該模型能夠更好地為客戶提供相關建議。
  • 分享使用 Transformers4Rec 庫在 ASOS 開發Transformer推薦系統
  • 描述了新 Transformer 模型相對於之前模型的卓越效能,導致評估指標提高了 20%

7、《揭示系統設計中程式碼級可擴充套件性的本質》
作者:Keshavpeswani ⸱ Expedia ⸱ 4 分鐘閱讀 ⸱ 4 月 23 日

  • 程式碼庫的複雜性真正決定了系統的適應性、可擴充套件性和可持續性
  • 無論高層設計多麼出色,如果底層程式碼庫缺乏可擴充套件性,那麼對新用例的適應性就會成為一項艱鉅的任務。現實世界的系統需要有遠見的設計和程式碼的和諧結合,可以根據需要靈活地增長和適應。


8、“反向搜尋 Netflix 的聯合圖”

  • 描述 Netflix 聯合圖內反向搜尋功能的開發
  • 解釋在 Elasticsearch 中使用 percolator 欄位來啟用反向搜尋
  • 涵蓋 SavedSearches 的滲透索引管道的實現
  • 介紹瞭如何使用反向搜尋進行電影分類和工作流程分配
  • 電影匹配服務提供了一種根據匹配標準的任意組合對電影進行分類的方法。在幕後,匹配標準儲存為反向搜尋,並且為了確定電影與哪個標準匹配,電影的文件被提交到反向搜尋端點。
  • 介紹反向搜尋未來可能用於建立響應式 UI 和 GraphQL 訂閱

9、“KubeCon EU 2024 技術趨勢:GitOps、AI 炒作、可除錯性等”

  • 討論 GitOps 和 Service Mesh 的擴充套件,以慶祝 Kubernetes 十週年
  • 描述了 Backstage、KCL 和 Argo 等社群驅動專案的巨大增長,強調了社群在開源中的重要性
  • 探討軟體應用中對人工智慧的持續關注,特別強調 Kubernetes 在人工智慧革命中的作用


 

相關文章