資料競賽:第四屆工業大資料競賽-虛擬測量
原文首發於我的公眾號
背景
注塑成型作為做常見的一種塑料製品加工工藝,它所加工的產品在生活中隨處可見,例如電子產品、汽車配件、玩具以及其他眾多消費品。由於成型系統較為複雜並且對環境較為敏感,注塑成型加工過程中的不穩定因素很容易導致產品不良的發生,造成經濟損失。所以我們建立注塑成型大資料,來感知這些不可見的干擾因素,然後通過分析建模解決甚至避免現場痛點問題。比如成型過程的異常檢測預警及不良品的識別,有助於減少甚至避免不合格品的產生,對於管控產品質量、降低生產成本有重要的作用。同時,針對異常產生現場人員因經驗差異導致調機無法規範化的問題,如果能夠根據成型過程資料和異常事件進行建模分析,改進調機策略,將會節省大量的時間成本和經濟成本。
任務
要求選手針對成型工藝品質異常中尺寸超規問題進行虛擬量測。根據訓練集所提供所有模次產品的過程資料和相對應的實際量測值(標籤)進行虛擬量測模型建模,然後對測試集中的產品進行尺寸預測,即虛擬量測。
資料
本次競賽的資料集包含以下多種來源:
感測器高頻資料:該資料來自於模溫機及模具感測器採集的資料,資料夾內每一個模次對應一個csv檔案,單個模次時長為40~43s,取樣頻率根據階段有20Hz和50Hz兩種,含有24個感測器採集的資料;
成型機狀態資料(data_spc):該資料來自成型機機臺,均為表徵成型過程中的一些狀態資料,每一行對應一個模次,資料維度為86維;
機臺工藝設定引數(data_set):資料夾中含有注塑成型的81種工藝設定引數;
產品測量尺寸(size):資料夾內含有每個模次產品的3維尺寸;
分析
首先根據任務與資料簡單檢視資料。檢視所有特徵列,列名,型別,空值統計,基本describe資訊。
檢視目標列的資訊。首先是趨勢:
目標列的分佈:
檢視各個特徵與目標的關係,以及各個特徵訓練集與測試集分佈的不同。
建模
在資料探索性分析基礎上,就是建模過程。首先,可以把metrics函式寫出來。然後是特徵匯入,模型、驗證、提交各個部分。baseline寫完之後,首先保證驗證部分是合理的,判斷依據是本地測試結果與線上提交結果的同步,允許微小不同,但應保持同步。
對於常規的表格問題,首選嘗試自然是lightgbm,除了效能好之外,還可以方便的輸出特徵重要性,進行特徵選型。我的基本模型是這樣的,lightgbm和交叉驗證融合到一起。
def model():
predictions = np.zeros(len(X_test))
for i, (train_index, val_index) in enumerate(skf.split(X_train,y_train)):
print("fold {}".format(i))
X_tr, X_val = X_train.iloc[train_index], X_train.iloc[val_index]
y_tr, y_val = y_train.iloc[train_index], y_train.iloc[val_index]
lgb_train = lgb.Dataset(X_tr, y_tr)
lgb_val = lgb.Dataset(X_val, y_val)
clf = lgb.train(lgb_params, lgb_train, num_round=2000, valid_sets = [lgb_train, lgb_val],verbose_eval=50,
early_stopping_rounds = 50)
print('best iteration = ', clf.best_iteration)
predictions += clf.predict(X_test, num_iteration=clf.best_iteration) / skf.n_splits
return predictions
迭代與後處理
從資料、特徵、模型去考慮細緻深入的改進。錯誤分析,嘗試尋找tricks。
也值得紀念一下自己第一次認真參加的資料比賽。決賽的翻車自然就是另一個故事了。
比賽的總結
常規套路
- lightgbm baseline
- nn baseline
- 訓練與測試集同分布檢測
- 特徵篩選(同分布也可以認為是一種提前篩選)
- 本地交叉驗證
- 特徵工程
以上做的細緻一點,初賽可以達到1e5以下。雖然離第一結果很遠,但可以維持在top20以內。但是決賽前三天,風雲突變,這個成績只能排50以外了。
彎路
我的大多嘗試都越來越差,即使本地測試提高了,排行榜也可能差遠了。
其實沒什麼彎路,只是嘗試了太多不起作用的調整,目標後來甚至是能堅持完賽,別放棄就好。若干年後的一個秋天,當我回想起我第一次參加資料比賽的經歷,因為好好了解了一下注塑機的歷史,大概只記得注塑機的發明動力源自以前的檯球都是昂貴的象牙做的。
歡迎關注,我是YueTan
相關文章
- 大資料競賽技術分享大資料
- 資料競賽Tricks集錦
- 2019年第二屆全國大學生大資料技能競賽通知大資料
- 江蘇省第二屆資料安全技術應用職業技能競賽初賽WP
- 大語言模型微調資料競賽,冠-軍!模型
- 第二屆資料安全大賽“數信杯”資料安全大賽 WP
- 大學生電子設計競賽電源資料
- 超600支隊伍報名!首屆“強基杯”資料安全技能競賽即將開賽
- 全國大學生資訊保安競賽初賽writeup
- 北京資訊科技大學第十一屆程式設計競賽(重現賽)I程式設計
- IEEE ISI 2019國際大資料分析競賽報名開啟大資料
- 競賽▍人工智慧/資料科學比賽彙總 2019.2-2019.3人工智慧資料科學
- 中國大學生數學競賽(非數學專業類)競賽大綱
- 華中農業大學第十三屆程式設計競賽程式設計
- 一顆賽艇!“大資料+AI”黑科技改變競技體育大資料AI
- 巔峰對決,第四屆全球資料庫大賽—PolarDB效能挑戰賽圓滿收官資料庫
- 第一屆天池 PolarDB 資料庫效能大賽資料庫
- 和鯨科技&AWS:2019年資料競賽白皮書·上篇
- 第十四屆全國大學生資訊保安競賽創新實踐能力賽總決賽圓滿落幕
- 第二十屆西南科技大學ACM程式設計競賽(同步賽)ACM程式設計
- 第十四屆全國大學生資訊保安競賽創新實踐能力賽(華中賽區)比賽成功舉辦
- 第十四屆全國大學生資訊保安競賽——創新實踐能力賽(東北賽區)比賽圓滿落幕
- 資料競賽入門-金融風控(貸款違約預測)五、模型融合模型
- 第三屆電競上海全民錦標賽總決賽即將開賽!
- 華中農業大學第十三屆程式設計競賽 題解程式設計
- 競賽釋出 | AI戰疫·小分子成藥屬性預測大賽開賽!AI
- 綠盟科技助力貴州省銅仁市首屆“場景大資料·電信杯”網路(資料)安全技能競賽圓滿結束大資料
- “巴渝工匠”杯重慶市首屆資訊通訊行業(網路安全)職業技能競賽即將開賽行業
- 第二屆江西移動動感地帶電競大賽宜春城賽完美收官
- 競真我 贏未來:首屆大學生數字體育競技大賽釋出會召開
- 《節奏空間》電競大賽總決賽:“VR+電競”或將塑造VR行業新格局VR行業
- 第十五屆全國大學生智慧車安徽賽區參賽須知和競賽日程安排
- 騰訊自研反恐軍事競賽手遊《和平精英》今日公測 打造超擬真軍事競賽體驗
- 詳解 Kaggle 房價預測競賽優勝方案:用 Python 進行全面資料探索Python
- 資料競賽入門-金融風控(貸款違約預測)四、建模與調參
- 除Kaggle外,還有哪些頂級資料科學競賽平臺資料科學
- 第一屆PolarDB資料庫效能大賽Java選手分享資料庫Java
- 綠盟科技助力第十二屆全國大學生資訊保安競賽成功舉辦