李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!
大資料文摘出品
編譯:朱帥、DonFJ、蔣寶尚
據說每年都會有很多人在醫院感染病菌然後不幸患病,甚至因此導致的死亡人數比車禍還多。
具體來說,當你邁進醫院大門的時候,你就有1/30的機率會被感染,那樣其實還不如在家躺著的好。
雖然這個情況聽起來很恐怖,但仔細細一想醫院好像很輕鬆就能解決。
所以,對醫院來說搞好衛生是關鍵。特別是手部的衛生,因為這是防止感染傳播的第一道防線。
當然不止在醫院,在其他公共場合,比如機場、餐廳之類的都要注意“勤洗手”。
這是個比較常識性的知識了,幼兒園老師都會教小盆友們勤洗手,所以應該注意的也許不是“洗了沒”,而是“洗的怎麼樣”。因此醫院裡首先需要一個能監測洗手效果的黑科技產品。很多技術都能實現檢測,但其中的佼佼者就是視覺識別技術啦~對對,就是那個天天說的CV(Computer Vision)。
為了實現這個洗手檢測的功能,史丹佛和醫學院的AI輔助團隊(Stanford Partnership in AI-Assisted Care(PAC))已經在此深耕多年。雖然目前來看還不是特別成熟,但是相信在不久的將來,他們一定能幫助減少醫院中的病菌傳染!
PAC團隊的負責人是李飛飛和醫學教授Arnold Milstein,其整合了史丹佛以及其他醫學院的一系列跨學科資源,主要是想用AI、計算機視覺等技術解決一些醫療健康中的難題(就是要人家資料發論文嘛,哼……文摘菌也想要)。
他們的主頁是:
https://aicare.stanford.edu/
為什麼用計算機視覺?
在崇尚衛生的今天,通常能看到醫院布告欄上面的洗手宣傳,甚至看到了世界衛生組織提出的“洗手五步走”衛生指南。其實不止這些,醫院還總在醫學院的課程中強調洗手的重要性和洗手的正確步驟,在每週的員工會議裡不厭其煩的加強教育。
這樣做的目標其實就是想讓醫院的員工勤洗手、正確洗手。為了能監測員工們到底有沒有貫徹落實偉大的“洗手思想”,醫院還給每人佩戴了一個RFID卡。文摘菌估計就是一個手環,洗手池旁邊有一個RFID的讀卡器(可以想象成地鐵讀卡器),然後洗手的時候需要故意的讓手環湊近讀卡器,這樣就能讀到手環裡面的卡片資訊,從而知道你到底洗手了沒~
這樣的做法在一定程度上確實管用,但是好像也挺麻煩的,因為還得故意的刷一下。這個問題從根上說是因為RFID技術的侷限,如果是一個無緣的RFID(就是前面說的這種,它沒有電池),距離讀卡器遠了就讀不到了。但是有緣的RFID有需要電池,電池就需要定期更換,進水還會更麻煩,天線的朝向也是個事兒……所以呢,這都是現在用的RFID的洗手打卡器的缺點。
計算機視覺在醫院
基於上面的原因,PAC團隊就在史丹佛的Luile Packard兒童醫院裡進行了實驗,開發了一套自動洗手監測的基於計算機視覺的系統。由於計算機視覺不會影響使用者的生活習慣,所以他們也沒有學習成本,不需要適應之類的。
計算機視覺在醫學影像中的應用已經很成功了,但是它們就處理什麼CT圖之類的好用,在實際的醫院中它們還是不能實際跟患者打交道,總不能揹著幾臺GPU伺服器在醫院裡晃悠吧哈哈。
所以為了真的能讓系統用起來,用導了另外一個黑科技,就是自動駕駛。自動駕駛的車裡面有成千上萬的感測器,而且直接是在物理環境中奔跑的,所以就按照這個思路,用一些感測器部署在醫院裡,然後看看能不能幫助更好的檢測洗手~
深度感測器
深度感測器,比如微軟的Xbox裡面用的體感攝像頭Kinect,它和普通攝像頭很類似,但是它採集的不是色彩訊號,而是距離訊號,就是我們們說的深度。在普通的圖片裡面,每個畫素的值代表的是色彩。但是在深度影像中,每個畫素點代表的是物體距離攝像頭的距離資訊。能探測的距離範圍大概是1.337米。
左圖是手機拍的彩色圖片。右邊的是同樣場景的深度攝像頭採集的深度影像,顏色越深表示物體距離攝像頭越近。
觀察到在上面的深度影像中是看不清每個人的臉的,但是能看清他們在做什麼。這就能天然的保護使用者的隱私啦,隱私資訊的保護在醫院裡面是很重要的!為了驗證計算機視覺技術,在兩家醫院裡面安裝了深度感測器。其中一個就是上面說的那個兒童醫院,另外的是一個成人的ICU。
深度學感測器安裝在兒童醫院的天花板上,厚厚厚~
當完成了深度感測器的部署之後,就能用3D計算機視覺技術來自動的檢測洗手啦!這裡有三個步驟:
1.檢測醫護人員
2.在視野之內的時候盯住他們
3.識別出他們的洗手行為
路人檢測
接茬兒說自動駕駛的那個比喻。想要知道周圍發生了什麼,首先要能識別出人來。這有很多物體識別方法,其中很多都是用普通的RGB影像做的,而不是深度影像。但是沒關係,有一些經驗我們們可以借鑑嘛。比如說在影像里人都是站著的,一般在圖片中的比例很小,而且在大片地板空白的陪襯下,人在深度影像裡就像個孤立的斑點。
圖中是人的位置的模型化顯示,所有的位置的集合就像個詞典一樣,每個位置的人就像是詞典的一個條目。
想要檢測人的話,其中一種方法就是確定網格中被遮擋的位置。這種方法就是一個二值的矩陣,矩陣每個元素的值表示人有沒有出現在相應的位置。將攝像頭視角中的地板想象成網格,那麼影像中的那些“點(bolb)”就是人類的位置了。技術上來說,我們建立了一個詞典,詞典中包含了每個單點上有人的情況(要記住哦,因為綜合建立了這些點,我們知道每個點的2D和3D位置)。
對於多個人,可以在場景中標出來多個“bolb”來代表每個人。在真正的識別的時候,需要的就是這個包含了若干個“bolb”的影像。這可以通過很多現成的前景/背景去除演算法來對影像進行分割。那麼好,現在當給定這個bolb影像的時候,就可以使用k近鄰(k-nearest neighbor)方法在詞典中查詢,從而找到每個blob的位置了。
跟蹤醫院中的每個人
為了造出來一個名副其實的智慧醫院,我們要把整個醫院都佈滿感測器。攝像頭總有自己的視角範圍,有的事情就會出現在視角範圍之外。那為了跟蹤每個人,就要用演算法來在多個攝像頭之間無縫的識別出他們。這種方法其實不止能檢測洗沒洗手,更能檢測每個人的工作流程,看看這位醫護人員是不是開小差啦~
公式化來說,我們想要找到一組軌跡X,其中每個子軌跡x∈X使用有序的檢測來表示Lx=(lx(1),...,lx(n))。有的童鞋可能發現了,這個問題可以寫成最大後驗估計的問題(MAP)。
接下來,假設馬爾可夫鏈將每個中間的檢測lx(i)連線到隨後的lx(i+1)中,連線的概率是P(lx(i+1)∣lxi)。現在就能通過最小化成本C的方式來將這個問題轉化成一個線性問題啦:
其中fi是指示相應的檢測是否為正陽性(True Positive)的流變數,並且fij表示相應的檢測是否連線在一起。變數βij表示由logP(li∣lj)給出的檢測li,lj∈L的轉移成本。αi是中間檢測為正陽性的對數似然。為簡單起見,假設所有檢測都具有相同的概率。這相當於流優化的問題,可以用k-最短路徑(k-shortest paths)來實時得到結果。
手部衛生活動分類
現在,已經確定了醫療機構中所有行人的蹤跡(即全球醫療單位地面物體的位置)。最後一步就是要檢測他們手部衛生活動,並將其和具體的蹤跡相關聯。如果一個人使用了洗手液,就將“手部衛生活動”這個特徵定義為positive。然後根據每個行人的蹤跡將其標記為“clean”或者“not clean”。
實際場景中感測器的部署常常受限於安裝位置。不知道是有意還是無意的,安裝維護的技術工人在部署感測器時,角度和位置總是千奇百怪,這就要求模型必須足夠健壯來應對這些偏差,以便能夠適應各種感測器視角。由於傳統的CNNs一般無法適應視角的變化,所以這裡使用空間變換網路(STN)。
(左圖)人體分割的資料增強階段 (右圖)手部衛生活動分類器:一個STN後接一個CNN
STN的輸入是任意影像,輸出是變形之後的影像。為了讓模型學習得更快,我們在STN中加入了人體分割模板(即人體掩膜,body mask)。人體掩膜可以通過經典的前後景技術或者深度學習方法提取。STN將影像轉換為“固定視角”的效果,經過這種轉換,我們就可以使用標準的CNN(即DenseNet)來實現二分類,即判斷目標是否使用了洗手液。
時空匹配
這裡我們仍然需要結合之前的蹤跡資訊以及手部衛生檢測,同時引入兩個新的變數:空間和時間。對於每一次手部衛生分類檢測(即是否使用洗手液),我們必須將其對應到唯一的蹤跡。當蹤跡T滿足以下兩種情況時,可以認為分類器和追蹤器匹配:
1. 在一定時間誤差範圍內,蹤跡T包含點P(x,y),該點同時發生了手部衛生檢測事件E。
2. 至少有一點p∈P,在物理上接近負責檢測事件E的感測器,這根據病房門附近大致的閾值範圍定義。
如果有大量的點滿足這些要求,我們可以通過選擇離門最近的位置(x,y)來排除其他點。模型最終的輸出是蹤跡點的列表T,其中每一個元素由一個有序的元組(t,x,y,a)組成,這裡的t表示時間戳,(x,y)表示2D平面的座標,a表示最近的行為或者事件標籤。根據T,我們可以計算達標率或者和實際值對比得到一些評價指標。
與調查員和RFID對比
如今,很多醫院僱傭祕密調查員來評價手部衛生的達標率,這些經過訓練的調查員暗地裡走訪各個醫療單位並且觀察員工是否洗手。祕密調查員可能是護士、醫生甚至是普通人。我們稱這種方式為祕密巡視(covert),與之相對的是公開巡視(overt),這種方式通常會公開調查結果。祕密巡視的目的是最小化霍桑效應的影響。所謂霍桑效應就是,受試者可能因為知道處於觀察之下而改變自己的行為。我們將通過計算機視覺技術得到的結果和大量待在某個醫院固定位置的調查員的觀察結果,一個在醫院到處走動的調查員的觀察結果,以及之前提到的RFID標記結果進行了對比。
實驗結果
RFID生成了大量的假陽性結果,所以預測的達標率的準確度很低。僅有18%時間能夠給正確地給蹤跡打上“clean”或者“not clean”的標籤。
一個調查員能達到63%的準確率,三個調查員則效果更好,能達到72%的準確率。然而,演算法表現超越了調查員的結果,能夠達到75%的準確率。這個結果其實並不太意外,因為調查員是在和“全視野”的計算機視覺系統競爭。既然實際情況的標籤也是由人類標註的,那人類調查員得到的結果不如演算法的原因是什麼?主要是因為,實際情況的標籤是遠端標註的,並且不是實時的。遠端標記人員可以使用所有的感測器,而且可以適時地播放和回放視訊觀察前後景,來確保自己標註的準確性。而調查員則沒有機會使用所有的感測器,並且他們也無法及時回放事件的過程。
不同時間段的手部衛生檢測情況。藍色方塊表示有人使用了洗手液,深藍色表示很多人同時在用。實際情況如圖最下方所示。一般來說,顏色越淺表示效果越差。
和數字相比,更有趣是從中能得到的資訊。上圖顯示了現場調查員檢測手部衛生活動的頻率。注意到那些空白處了沒?再看看最下面一行的實際情況,是不是幾乎沒什麼空白。這說明調查員遺漏了很多手部衛生事件。這通常是因為調查員漸漸地心不在焉了,他們可能打瞌睡了,或者視線轉移到了醫院裡其他不相關的活動,或者僅僅是沒有看到手部衛生事件的發生。
人們在重症監護室蹤跡的時空熱點圖。黃色/紅色表明較多人站在/行走在該區域。
咳咳,來總結一下上面這幅視覺化影像。上圖展示了上帝視角下的醫院,因為可以追蹤整個醫院所有人的位置,所以總是能知道他們的具體位置(x,y,z)。標記出每個點並基於時間資訊繪製了這幅熱點圖。
這種空間分析法非常適用於人流量的監測,未來還可以用於追蹤疾病的傳播路徑。圖中黃色/紅色區域表明人流量比較大,空間擁擠。這些區域通常是走廊十字路口或者病房出入口。如果你仔細觀察的話,你應該可以在紅色區域發現位於某個固定位置的調查員。
未來方向
本文展示了計算機視覺和深度學習技術在醫院手部衛生活動自動監測方面的應用。在史丹佛大學AI輔助治療合作專案中,手部衛生監測只是計算機視覺技術在醫療保健方面的一個案例。PAC團隊還準備將計算機視覺應用到患者活動度的監測,手術過程質量的分析,以及老年人日常生活異常的檢查中。
參考文獻
Viewpoint Invariant Convolutional Networks for Identifying Risky Hand Hygiene Scenarios. M. Guo, A. Haque, S. Yeung, J. Jopling, L. Downing, A. Alahi, B. Campbell, K. Deru, W. Beninati, A. Milstein, L. Fei-Fei. Workshop on Machine Learning for Health (ML4H), Neural Information Processing Systems (NIPS), Long Beach, CA, December 2017.
Towards Vision-Based Smart Hospitals: A System for Tracking and Monitoring Hand Hygiene Compliance. A. Haque, M. Guo, A. Alahi, S. Yeung, Z. Luo, A. Rege, A. Singh, J. Jopling, L. Downing, W. Beninati, T. Platchek, A. Milstein, L. Fei-Fei. Machine Learning in Healthcare Conference (MLHC), Boston, MA, USA, August 2017.
Vision-Based Hand Hygiene Monitoring in Hospitals. S. Yeung, A. Alahi, Z. Luo, B. Peng, A. Haque, A. Singh, T. Platchek, A. Milstein, L. Fei-Fei. American Medical Informatics Association (AMIA) Annual Symposium, Washington, DC, USA, November 2016.
相關報導:
https://ai.stanford.edu/blog/measuring-hand-hygiene-in-hospitals/
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2221950/,如需轉載,請註明出處,否則將追究法律責任。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2222061/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 業界 | 李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!視覺AI
- 李飛飛團隊新論文:新網路新策略,讓AI通過視覺觀察實現因果歸納AI視覺
- 史丹佛大學李飛飛等人談AI醫療:病床邊的計算機視覺AI計算機視覺
- 李飛飛團隊最新論文:如何對影像中的實體精準“配對”?
- 重磅!李飛飛入選美國國家醫學科學院,她用AI改變了醫療AI
- 李飛飛「空間智慧」系列新進展,吳佳俊團隊新「BVS」套件評估計算機視覺模型套件計算機視覺模型
- 李飛飛最新訪談:我每天都在對AI的擔憂中醒來AI
- 李飛飛團隊提出ReKep,讓機器人具備空間智慧,還能整合GPT-4o機器人GPT
- 這麼多人,AI怎麼知道你說的是哪個? | 李飛飛團隊CVPR論文+程式碼AI
- 李飛飛解讀創業方向「空間智慧」,讓AI真正理解世界創業AI
- AI 女神李飛飛最新文章:發展人工智慧應該以人為本AI人工智慧
- 清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路3D
- AI學會了視覺推理,“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文AI視覺
- 李飛飛團隊提出OpenTag模型:減少人工標註,自動提取產品屬性值模型
- 美史丹佛大學成立以人為本AI研究院,李飛飛將領導AI
- 史丹佛AI實驗室換帥!Christopher Manning接替李飛飛AI
- 李飛飛、謝賽寧等探索MLLM「視覺空間智慧」,網友:2025有盼頭了視覺
- 李飛飛團隊年度報告揭底大模型訓練成本:Gemini Ultra是GPT-4的2.5倍大模型GPT
- 李飛飛創業之後首個專訪:視覺空間智慧與語言一樣根本創業視覺
- 李飛飛等提出新的迭代視覺推理框架,在ADE上實現8.4 %的絕對提升視覺框架
- 李飛飛教你玩轉 ImageNet 挑戰賽,史丹佛 CS231n 最新視訊課程全公開
- 李飛飛專訪:AI不屬於某些小眾群體,AI屬於每個人AI
- 福布斯評選 8 位 AI 風雲女性,李飛飛、Coursera 創始人在列AI
- 浙大李璽團隊:指代表達理解新方法,ScanFormer粗到細迭代消除視覺冗餘ORM視覺
- 我們應該如何理解李飛飛價值十億美金的“人文AI”計劃?AI
- 讓“不可見”可見!利用無線電波,MIT團隊讓機器視覺穿透牆壁和黑暗,不會侵犯隱私MIT視覺穿透
- 前微軟亞洲研究院副院長李世鵬加盟訊飛,任AI研究院聯席院長微軟AI
- 李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報模型OpenAIChatGPT開發者日報
- 優思學院|成功團隊的十大秘訣,助你事業騰飛!
- 李飛飛:World Labs這樣實現「空間智慧」
- 要強化AI技術?Twitter任命人工智慧專家李飛飛為獨立董事AI人工智慧
- OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報OpenAISora開發者日報
- 李飛飛團隊統一動作與語言,新的多模態模型不僅超懂指令,還能讀懂隱含情緒模型
- 李飛飛CVPR最新論文 | 「文字轉圖」效果優化可多一步:物體關係描述優化
- 李飛飛親自撰文:大模型不存在主觀感覺能力,多少億引數都不行大模型
- 李飛飛現身破離職傳聞,稱谷歌AI中國發展重質不在速谷歌AI
- 李飛飛反對,馬斯克、Hinton、Bengio支援,加州AI監管法案即將塵埃落定馬斯克AI
- ACM 2018 Fellow名單公佈:李飛飛等多位華人入選,無國內成員ACM