上班時間請勿開啟,158萬張鑑黃圖片資料集來嘍~
作者 | 琥珀
出品 | AI科技大本營(ID:rgznai100)
前方高能預警,非戰鬥人士請火速撤離……
今天給大家介紹一個在 GitHub 上一個開源的鑑黃影像資料集,它擁有 158萬的資料量,叫做 NSFW data source URLs,目前該專案已收穫 918 star 了。
專案地址:
https://github.com/EBazarov/nsfw_data_source_urls
在 raw_data 資料夾裡,可以找到不同的 .txt 格式的文件,每個文件都含有一組 URL,以下是關於該資料集的一些統計資訊:
159個 不同的類別
158.9331 萬個 URL
下載並清洗後大約有 500GB,或者說有 130 萬張 NSFW 影像
以下為專案中圖片截圖示例:
注意事項:
1. 建議下載後清洗下資料集,例如:
刪除重複圖片
移動被禁止/刪除掉的圖片(它們有一個特殊的影像佔位符)
找出損壞的資料並將其刪除
2. 注意噪聲,一些資源提供了 NSFW 和中性影像的高度混合資料。
3. 該庫還可以幫助檢索 NSFW 影像,針對中性影像沒有專用的 URL。
值得一提的是,在該專案之前還有一個類似的開源專案 nsfw_data_scrapper,裡面有 22 萬張影像,同樣也可以用來檢測或訓練鑑黃系統。
專案地址:
https://github.com/alexkimxyz/nsfw_data_scrapper
(本文為AI科技大本營原創文章,轉載請微信聯絡 1092722531)
精彩推薦推薦閱讀:
點選“閱讀原文”,開啟CSDN APP 閱讀更貼心。
相關文章
- 一個22萬張NSFW圖片的鑑黃資料集?我有個大膽的想法……
- 騰訊雲圖片鑑黃整合到C#C#
- 上班時間做什麼
- 《天龍八部·歸來》測試開啟,“養老金”福利來嘍!
- [擴充套件包] Laravel-ali-green 阿里鑑黃包括文字、圖片、視訊套件Laravel阿里
- 一網打盡“小黃圖”!手把手教你造一隻AI鑑黃神器(內附程式碼及資料集)AI
- 經濟衰退已來,請勿拒絕AI !AI
- 大資料叢集服務啟停指令碼/常用埠/時間同步大資料指令碼
- Vivo勿擾模式在哪裡設定?Vivo S12定時勿擾模式的開啟方法模式
- 在讀取資料時拼接圖片域名
- Tensorflow2 自定義資料集圖片完成圖片分類任務
- ImageDT圖片輿情:開啟影像大資料的商業應用大資料
- Heic格式圖片怎麼開啟 如何在電腦和安卓上開啟蘋果圖片安卓蘋果
- Kakao Brain 的開源 ViT、ALIGN 和 COYO 文字-圖片資料集AI
- 人工智慧時代,資料標註產業將迎來黃金時期?人工智慧產業
- 2017 秋招地圖, 黃金招聘時間點列表地圖
- 簡單的圖片間隔指定時間切換效果
- 大資料平臺核心架構圖鑑大資料架構
- 阿里雲CDN圖片鑑黃服務正式上線,人工智慧助力企業降低違規風險阿里人工智慧
- 快速上手Kotlin開發-張濤-極客時間Kotlin
- 借鑑)資料庫開發祕訣資料庫
- 分散式 PostgreSQL 叢集(Citus)官方示例 - 時間序列資料分散式SQL
- UIScrollView瀏覽一組圖片,且圖片與圖片之間有間隔UIView
- JS—圖片壓縮上傳(單張)JS
- 輕鬆復現一張AI圖片AI
- 12米空間解析度DEM資料申請下載:TanDEM-X資料集
- CSS例項:翻轉圖片、滾動圖片欄、開啟大門CSS
- 網路請求圖片
- Tumblr掃黃正式開始!AI鑑黃也許是老司機們的頭號敵人AI
- 地圖採集車的那些事 | 時間同步地圖
- Android開發高手課-張紹文-極客時間Android
- 中國迎來大資料“黃金時代”資料安全需求更加迫切大資料
- SSIS: 把儲存在資料庫中的圖片匯出來資料庫
- Android--圖片集Android
- 資料港張北資料中心啟動儀式
- heic格式的圖片安卓怎麼開啟安卓
- 處理圖片流資料
- JS仿QQ空間滑鼠停在長圖片時候圖片自動上下滾動效果JS