Edouard Harris是一名在YC創業公司工作的物理學家,他的工作就是幫助畢業新生獲得第一份機器學習相關的工作。
從自己的經驗出發,Harris認為,一位目標明確的應聘者如果只需要做一件事情,那就是,從準東家的立場出發,找到他們最需要的,建立一個個人的機器學習專案池。
在這篇文章中,他會告訴你如何做到這點。
當然,“押寶”有風險,各位讀者模仿需謹慎。建立這樣的專案是個耗時耗力的大工程。
以下是全文,enjoy~
在YC的工作中,我看過上百個以找工作為目的建立的個人專案,質量參差不齊,差距甚大。接下來,我會著重介紹其中兩個非常好的成功押寶的專案。
押寶專案——貨架空缺識別
下面是一個真實的故事,為了保護個人隱私我更改了姓名。
X公司使用人工智慧技術來實現雜貨店的庫存緊缺提醒,當庫存不夠,需要進貨時,系統能夠自動傳送提示。這個故事的男主角我們暫時成為Ron,他真的很想在X公司工作。所以他建立了一個與X公司高度匹配的專案,這個專案讓他成功的得到了去X公司面試的機會。
我們通常不建議學生把賭注全押在一家公司,這樣風險太大。但是,也有例外,就像我說的Ron,他是真的很想在X公司工作。
那麼,Ron到底做了什麼?
紅色的邊框表示有物體缺失。
1.Ron首先用膠帶把手機貼在購物車上,隨後他推著購物車在一家雜貨店的過道上來回走動,同時用相機記錄過道的情況。在不同的雜貨店中重複實驗,每間雜貨店做10-12次記錄。
2.一回到家,Ron就開始建立機器學習模型。他的模型檢測到雜貨店貨架上存在空位--貨架上的玉米片(或其他東西)消失了。
3.Ron做的最棒的事情就是他在GitHub上實時構建了自己的模型,並且向所有使用者公開原始碼。每天,他都會對程式碼庫進行改進(提高準確性),並且在README中記錄有哪些變化。
4.X公司發現了Ron的專案並對Ron的做法表現出了興趣。事實上,他們不僅僅對他好奇甚至還有些緊張。因為Ron在不知情的情況下,幾天內復現了部分他們的專有技術棧。(當然,Ron的嘗試遠非完美,X公司為這個問題投入了比他更多的資源。但Ron的專案與公司的非常相似,所以X公司立刻就讓Ron將他的專案庫許可權改為私有,不再向公眾公開。)
X公司實力很強,他們的技術在同行業中名列前茅。儘管如此,Ron的專案只用了4天時間就直接吸引到了X公司CEO的關注。
飛行員專案
這兒還有另外一個真實的故事。
Alex是一名歷史專業的學生,輔修俄語(這是真的)。不尋常的是,他對機器學習也有興趣。更令人驚訝的是,儘管以前從未寫過一行Python程式碼,但他還是決定去學習機器學習。
Alex選擇邊實踐邊學習,他決定建立一個分類器,以檢測戰鬥機飛行員是否在飛機上失去了意識。Alex希望通過觀察飛行員的視訊來發現這一點。他知道人只要觀察一下視訊就能很容易看出來飛行員已經失去了知覺,所以他認為機器也應該能分辨的出來。
這是Alex在幾個月中所做的事情:
Alex的G-force感應意識探測器的演示
1.Alex 從YouTube,下載了從駕駛艙拍攝的飛行員駕駛飛機的每一個視訊剪輯(數量有幾十個)。
2.接著,他開始給資料貼標籤。Alex構建了一個UI,可以滾動檢視數千個視訊幀,通過按“意識”按鈕或“無意識”按鈕,就可以自動將該幀儲存至對應標記的資料夾中。貼標籤的過程非常無聊,這耗費了他極其多的時間。
3.Alex為影像構建了一個資料管道,他將飛行員從駕駛艙背景中裁剪出來——以便他的分類器能更加專注于飛行員個體。最後,他開始建立意識分類器。
4.在做這些事情的同時,Alex還在交流活動中向招聘經理展示他的專案。每當他拿出專案並在手機上展示時,他們都會問他是怎麼做的,資料管道是怎麼建的,資料是如何收集的。但他們從來沒有問過他的模型準確性——實際上低於50%。
當然,Alex正計劃提高模型的準確性,但他還沒有開始就被一家公司錄用了。事實證明,他的專案的視覺展示效果以及他在資料收集方面的智慧,對公司來說,比他的模型準確性更重要。
能想象出Alex只是一名歷史專業的學生,還輔修俄語嗎?
他們的共同點
是什麼讓Ron和Alex獲得如此成功呢?
以下是他們做的最正確的四件事:
1.Ron和Alex並沒有在建模上花費太多精力。我知道這聽起來很奇怪,但對於現在的許多用例,建模是一個已經被解決的問題。在實際工作中,除非你正在進行最先進的人工智慧研究,否則80-90%的時間你都會用來清理資料。對個人專案來說也是一樣的。
2.Ron和Alex收集了自己的資料。因此,他們最終獲得的資料比在Kaggle或UCI資料庫中找到的資料更加混亂。但雜亂的資料教會了他們如何去處理資料。比起學術網站上下載的資料,他們能更好的理解自己收集的資料集。
3.Ron和Alex搭建了專案展示平臺。在面試的過程中,你沒有機會展示你所有的技能。面試是儘可能的把自己推銷出去,儘可能抓住別人的眼球。人類是視覺生物,所以如果你拿出手機,向面試官展示你做了些什麼,那就要確保你所展示的看起來很有趣。
4.Ron和Alex做的事似乎都很瘋狂。實際上這確實很瘋狂。普通人不會用膠帶將手機粘到購物車上。普通人不會花時間在YouTube視訊中裁剪飛行員視訊。你知道是誰會做這些嗎?那些願意不惜一切代價完成工作的人。而公司真的非常想僱傭那些人。
Ron和Alex所做的事情看起來非常多,但實際上,這並沒有比你在真正的工作中預期的要多多少。這就是重點所在:當你沒有做X的工作經驗時,招聘經理會找你有沒有做過與X類似的事情。
幸運的是,你只需要在這種程度上做一兩次專案就夠了——Ron和Alex的專案在他們所有的面試中都被重複使用。
因此,如果我不得不用一句話概括一個好ML專案的核心思想,那就是:用一個有趣的資料集構建一個專案,資料集的收集需要花費心思,同時做好專案演示平臺,使其儘可能具有視覺衝擊力。
最後,文摘菌友情提醒大家:押寶有風險,模仿須謹慎,依然祝大家求職成功!
相關報導:
https://towardsdatascience.com/the-cold-start-problem-how-to-build-your-machine-learning-portfolio-6718b4ae83e9