上班時間請勿開啟,158萬張鑑黃圖片資料集來嘍~

AI科技大本營發表於2019-02-16

640?wx_fmt=jpeg


作者 | 琥珀

出品 | AI科技大本營(ID:rgznai100)


前方高能預警,非戰鬥人士請火速撤離……


今天給大家介紹一個在 GitHub 上一個開源的鑑黃影像資料集,它擁有 158萬的資料量,叫做 NSFW data source URLs,目前該專案已收穫 918 star 了。


專案地址:

https://github.com/EBazarov/nsfw_data_source_urls


640?wx_fmt=png


在 raw_data 資料夾裡,可以找到不同的 .txt 格式的文件,每個文件都含有一組 URL,以下是關於該資料集的一些統計資訊:


  • 159個 不同的類別

  • 158.9331 萬個 URL

  • 下載並清洗後大約有 500GB,或者說有 130 萬張 NSFW 影像


以下為專案中圖片截圖示例:


640?wx_fmt=png


注意事項:


1. 建議下載後清洗下資料集,例如:


  • 刪除重複圖片

  • 移動被禁止/刪除掉的圖片(它們有一個特殊的影像佔位符)

  • 找出損壞的資料並將其刪除


2. 注意噪聲,一些資源提供了 NSFW 和中性影像的高度混合資料。


3. 該庫還可以幫助檢索 NSFW 影像,針對中性影像沒有專用的 URL。


值得一提的是,在該專案之前還有一個類似的開源專案 nsfw_data_scrapper,裡面有 22 萬張影像,同樣也可以用來檢測或訓練鑑黃系統。


專案地址:

https://github.com/alexkimxyz/nsfw_data_scrapper


(本文為AI科技大本營原創文章,轉載請微信聯絡 1092722531)

精彩推薦

640?wx_fmt=png

推薦閱讀:

                         640?wx_fmt=png

點選“閱讀原文”,開啟CSDN APP 閱讀更貼心。

相關文章