量子實驗室公開自建的Alchemy資料庫,發起Tencent Alchemy 2019競賽,挖掘演算法的泛化效能,推動學術界與產業界聚焦化學中分子的量子性質預測問題,及其AI解決方案。希望該競賽能激發不同領域人才的合作創新活力,推動分子科學及應用的加速進展,助力整體生態成長和相關產業發展。
競賽背景
騰訊量子實驗室積極探索將量子和AI技術應用於化學研究,及其在製藥材料等行業中的潛在應用。該領域中的一個重要挑戰是現有的大部分實驗化學資料包含大量的噪聲,這對還在初期階段的AI化學和製藥模型的研發與評估帶來了很大的困難。一個解決方案是用高精度的量子化學計算來搭建可靠的的分子資料庫,以供AI演算法的研發和評估使用。但這需要耗費大量的計算資源,事實上,現有的公開資料庫只提供了非常小而特殊的分子的性質,這對演算法開發的作用已日趨飽和。
騰訊量子實驗室利用騰訊強大的計算能力,自建了分子量子性質資料庫-Alchemy:一個全新的、包含更大分子的,更豐富結構的高質量資料庫,有望極大加速AI化學和製藥領域的發展程序。
競賽任務
在競賽中,參賽者可根據騰訊量子實驗室提供的分子訓練集,自由使用機器學習演算法預測分子的包含幾何、電子、熱力學性質等方面的12個屬性(列表1),按要求提交結果。最終比賽將基於12個迴歸任務的平均誤差來評估。
列表1:分子待預測的12個屬性
量子力學性質對於預測分子在某些環境下的的行為至關重要。例如,HOMO和LUMO能量,以及Free energy等屬性都有助於預測分子的化學反應結果。
參賽物件
此次競賽面向全社會。國內外高等院校、科研單位、企業人員均可報名參賽。
(大賽主辦和合作夥伴,以及有機會接觸競賽題目和資料的工作人員不能參與比賽。)
報名方式
訪問競賽官網https://alchemy.tencent.com進行註冊,即可報名參賽。
競賽流程
- 準備階段:2019年5月22日-7月31日。
- 評測階段:2019年8月1日-9月30日。
- 公佈結果:2019年12月31日前。
獎項設定
- 一等獎 ¥50,000
- 二等獎 ¥30,000
- 三等獎 ¥20,000
特別介紹:分子量子性質資料庫-Alchemy
使用量子模擬的方法生成分子資料庫已經在這個領域有所嘗試,不過由於算力的限制,學術界已有的分子資料庫大多由小分子(重原子數量≤9)組成。現有公開資料庫中(列表2),QM9擁有最多的分子數量並且計算了多達12個分子的量子力學性質(列表1)。
列表2:Alchemy與現有分子資料庫的對比
Alchemy資料庫是基於QM9的一個擴充套件,有更為豐富的分子結構(重原子數量9-12),包括更多元的重原子型別(S 和 Cl),而且分子樣本是從GDB MedChem這一藥物化學性質良好的分子資料庫中篩選出來,具有較高的藥物開發潛在價值。對比總結如下表(列表3)。
維度 | QM9 | Alchemy |
重原子個數 | ≤9 | 9-12 |
樣本選擇 | GDB17 | GDB MedChem |
組成元素 | C, H, O, N, F | C, H, O, N, F, S, Cl |
檔案格式 | xyz(不含化學鍵資訊) | SD(含化學鍵資訊) |
列表3:Alchemy與QM9的詳細對比
期望Alchemy這樣一個全新的、包含更大分子的高質量資料庫,能夠助力分子科學及其應用,為AI化學和製藥助力!
大賽已於5月22日正式釋出,第一階段將於7月31日結束,更多詳情歡迎前往官網 https://alchemy.tencent.com瞭解!