你不應該忽略的五個機器學習專案

dicksonjyl560101發表於2019-07-18


https://www.toutiao.com/a6714177288671330829/


摘要:  本文介紹5個新的機器學習專案,這些專案你可能還沒有聽說過,但確實對專案開發有所幫助,感興趣的讀者可以動手實踐一下。

隨著人工智慧和深度學習的興起,網路上存在的學習資源以及開源專案也越來越多。本文精選了的五個專案,都含有潛在新的機器學習想法,且全都是用Python實現。下面簡單介紹

下這五個專案,感興趣的可以自己上手復現一下,說不定會對自己的專案產生一些新的想法。

1.實時損失曲線圖(Live Loss Plot)

___你不應該忽略的五個機器學習專案

在訓練模型的時候最好不要只關注最終的結果,耐心觀察整個訓練過程,檢視每個epoch的訓練結果,弄清楚模型的訓練曲線是否正常,是否出現過擬合等現象。

PiotrMigdał等人開發了一個Python原始碼包,可以為Keras,PyTorch和其他框架提供實時訓練損失的曲線。

當使用的是Keras深度學習框架時,實時損失曲線圖可以簡單地通過以下回撥函式呼叫:

___你不應該忽略的五個機器學習專案

2.Parfit

該專案由Jason Carpenter開發,他是舊金山大學資料科學專業的碩士,目前是Manifold的機器學習實習生。

該專案是用於並行化Sklearn機器學習模型的擬合和靈活評分的資料包,具有視覺化的功能。一旦匯入該資料包,就可以自由使用bestFit()或其他功能。

___你不應該忽略的五個機器學習專案

程式碼示例:

___你不應該忽略的五個機器學習專案

3.Yellowbrick

Yellowbrick是一款促進機器學習模型選擇的視覺分析和診斷工具。具體來說,Yellowbrick是一套名為“展示臺(Visualizers)”的視覺診斷工具,它擴充套件了scikit-learn API,以便人為地指導模型選擇過程。簡而言之,Yellowbrick將scikit-learn與matplotlib結合在一起,且具有模型生成視覺化的效果。

4.textgenrnn

textgenrnn為文字生成任務帶來了一個額外的抽象層,目的是用幾行程式碼就可以輕鬆地在任何文字資料集上訓練任意大小和複雜的文字生成神經網路。

該專案建在Keras深度學習框架之上,擁有以下選擇功能:

1、一種現代神經網路架構,利用新技術作為注意力加權和跳躍嵌入來加速培訓並* 提高模型質量;

2、能夠在字元級或字級上訓練並生成文字;

3、能夠配置RNN大小,RNN層數量以及是否使用雙向RNN;

4、能夠訓練任何通用輸入文字檔案,包括比較大的檔案;

5、能夠在GPU上訓練模型,然後可以用CPU生成文字;

6、能夠在GPU上訓練時利用強大的CuDNN實現RNN,與典型的LSTM實現相比,大大加快了訓練時間;

Textgenrnn非常容易啟動和執行,程式碼如下:

___你不應該忽略的五個機器學習專案

___你不應該忽略的五個機器學習專案

可以在Github上找到更多資訊和示例。

5.Magnitude

Magnitude是一個快速、簡單的向量嵌入實用程式庫。它也是一種功能豐富的Python軟體包和向量儲存檔案格式。通過Plasticity以快速、高效的方式開發機器學習模型。它主要是為Gensim提供一個更簡單、更快捷的替代方案,但也可以用作NLP之外域的通用關鍵向量儲存。

該專案提供了各種流行的嵌入模型的連結,這些嵌入模型已經以.magnitude格式準備好以供使用,還包括將任何其他文字嵌入檔案轉換為相同格式的說明。

使用以下程式碼可以將其匯入:

___你不應該忽略的五個機器學習專案

此外,Github上有更多的資訊,包括熟悉的用於使用預先訓練的簡化庫的起步和執行的所有資訊。

以上是五個器學習或機器學習相關的專案簡介,你可能還沒有聽說過,但可能要考慮要動手實踐一下,部分專案可能會對你此時的專案有所幫助。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2650916/,如需轉載,請註明出處,否則將追究法律責任。

相關文章