資料分析視覺化專案(二)--谷歌App store

cottpaddedC發表於2020-11-27

在這裡插入圖片描述

context

儘管許多公共資料集提供了Apple App Store資料,但在網路上的任何地方,都沒有太多可用於Google Play Store應用程式的對應資料集。 深入研究後,我發現iTunes App Store頁面部署了索引良好的附錄式結構,以實現簡單便捷的Web抓取。 另一方面,Google Play商店使用複雜的現代技術(例如動態頁面載入)和JQuery,使抓取更具挑戰性

content

每個應用程式(行)具有類別,等級,大小等的值。

Acknowledgements

該資訊是從Google Play商店中抓取的

data preparation

在這裡插入圖片描述

在這裡插入圖片描述
首先我們有兩個資料集,googleplaystore.csv(對谷歌appstore的統計)googleplaystore_user_reviews.csv(使用者對谷歌appstore的評價)匯入googleplaystore.csv裡面有13列,對App的名字、種類、評分、回看次數,大小,下載量,價格。。。進行了統計

Data Clean

把Size屬性列轉化為M的形式

去除Install屬性列的+並把它轉化為numeric

使用Google翻譯庫將所有評論文字轉換為英語

把Price價格的$去掉

在這裡插入圖片描述在這裡插入圖片描述
在這裡插入圖片描述

特徵工程在這裡插入圖片描述

在這裡插入圖片描述
從上面的圖很清晰的簡單看出
rating(評分)和install(下載)、和size(大小)和review(評論)存在很大的相關性,
size(大小)和Rating(評分)、install(下載)都存在一定的相關性
install(下載)和 review(評論)都存在一定的相關性

哪個類別在市場上(活動)應用程式中佔有最高的份額?

在這裡插入圖片描述
家庭和遊戲應用程式的市場佔有率最高。
有趣的是,工具,業務和醫療應用程式也在趕上。
在這裡插入圖片描述

單因素試驗one-anove

讓我們來分解一下,檢查是否有類別表現得特別好或不好。

試驗中要考察的指標稱為試驗指標,影響試驗指標的條件稱為因素,因素所處的狀態稱為水平,若試驗中只有一個因素改變則稱為單因素試驗
方差分析就是對試驗資料進行分析,檢驗方差相等的多個正態總體均值是否相等,進而判斷各因素對試驗指標的影響是否顯著,根據影響試驗指標條件的個數可以區分為單因素方差分析、雙因素方差分析和多因素方差分析。在這裡插入圖片描述
p值非常小,因此我們拒絕零假設,而支援替代假設
各個類別的平均應用評分差異很大。這樣子就可以說明我們影響各個類別的平均分的假設是錯誤的
在這裡插入圖片描述
**結論:

  • 1,幾乎所有應用類別的表現都不錯。
    "HEALTH_AND_FITNESS"和"BOOKS_AND_REFERENCE"提供了質量最高 的應用,其中50%的應用評分高於4.5。 太高了!
  • 2,相反,“DATING”類別中有50%的應用程式的低於平均評分。
  • 3,“LIFESTYLE”,"FAMILY"和"COMMUNICATION"類別中也存在一些垃圾應用。**

尺寸調整策略-選擇輕型與笨重?

在這裡插入圖片描述
這裡很容易的看出來大多數最高評價的應用程式的最佳大小在2MB〜40MB之間-既不太輕也不不太重

定價策略-免費與付費?在這裡插入圖片描述

最受好評的應用的最佳價格在1 $〜30 $之間。 只有極少數價格高於20美元的應用。有那麼一些App的價格在四百美元,但是評分相對不高

當前的定價趨勢-如何為您的應用定價?

在這裡插入圖片描述

  • **很顯然,
  • "MEDICAL"和"FAMILY"應用程式是最昂貴的。 一些醫療應用程式甚至可以擴充套件到80 $。
  • 所有其他應用的價格都在30美元以下。
  • 然而,所有遊戲應用程式的合理價格都低於20美元。**

付費和免費應用在各個類別中的如何分佈?在這裡插入圖片描述

付費應用程式的下載量與免費應用程式的下載量一樣嗎?在這裡插入圖片描述

與免費應用程式相比,付費應用程式的下載數量相對較少。 但是,還算不錯。

付費應用和免費應用的大小如何變化?在這裡插入圖片描述

  • 大部分獲得高評價的付費應用的尺寸很小。 這意味著大多數付費應用程式都是為滿足特定功能而設計和開發的,因此並不龐大。
  • 使用者喜歡為輕量級的應用付費。 體積龐大的付費應用在市場上的表現可能不佳。

評論的數量和下載量的相關性?

在這裡插入圖片描述

  • 評論數量和下載數量之間存在0.63的中度正相關。 這意味著,如果有更多人檢視過某個給定的應用程式,則客戶傾向於下載更多該應用程式。

  • 這也意味著許多下載應用程式的活躍使用者通常還會留下評論或反饋。

  • 因此,讓更多人評論您的應用可能是一個不錯的主意,以增加您的應用在市場中的知名度!

WORDCLOUD詞雲-快速瀏覽評論:

在這裡插入圖片描述
免費的App

消極單詞: ads, bad, hate

積極單詞: good, love, best, great
在這裡插入圖片描述付費APP

消極單詞: malware, problem

積極單詞: great, love, easy

結論

  • Google Play商店上(活動)應用的平均評分為4.17。
  • 使用者喜歡為輕量級的應用付費。 因此,體積龐大的付費應用在市場上的表現可能不佳。
  • 大多數最受好評的應用程式的大小都在大約2MB到40MB之間-既不太輕也不不太重。
  • 大多數最高評價的應用程式的最佳價格在〜1 $到〜30 $之間-既不太便宜也不太昂貴。
  • "MEDICAL"和"FAMILY"應用程式是最昂貴的,甚至可以擴充套件到80 $。
  • 如果有大量人評論了給定的應用程式,則使用者傾向於下載更多該給定的應用程式。
  • 與付費應用相比,使用者在審查免費應用時更加嚴峻和苛刻。
    ok 做到這裡就結束了這樣做一個簡單的專案了,後續還有很多其他的小專案更新關注
    需要這樣子的小專案來練練手的話可以關注公眾號來獲取在這裡插入圖片描述

在這裡插入圖片描述

輸入【python_googleappstore_001】獲取資料集和相應的程式碼

相關文章