Spark Pipeline

智慧先行者發表於2016-12-22

  一個簡單的Pipeline,用作estimator。Pipeline由有序列的stages組成,每個stage是一個Estimator或者一個Transformer。

  當Pipeline呼叫fit,stages按順序被執行。如果一個stage是一個Estimator,將呼叫Estimator的fit方法,使用“輸入dataset”來擬合一個模型。 然後,作為transformer的model將dataset變換為下一個stage的輸入。

  如果一個stage是Transformer,呼叫Transformer的transform方法以產生下一個stage使用的資料集。

  從Pipeline擬合的model是PipelineModel,其由fitted models和transformers組成如果沒有stages,pipeline充當身份transformer。

相關文章