資料分析視覺化專案(二)--谷歌App store
context
儘管許多公共資料集提供了Apple App Store資料,但在網路上的任何地方,都沒有太多可用於Google Play Store應用程式的對應資料集。 深入研究後,我發現iTunes App Store頁面部署了索引良好的附錄式結構,以實現簡單便捷的Web抓取。 另一方面,Google Play商店使用複雜的現代技術(例如動態頁面載入)和JQuery,使抓取更具挑戰性
content
每個應用程式(行)具有類別,等級,大小等的值。
Acknowledgements
該資訊是從Google Play商店中抓取的
data preparation
首先我們有兩個資料集,googleplaystore.csv(對谷歌appstore的統計)googleplaystore_user_reviews.csv(使用者對谷歌appstore的評價)匯入googleplaystore.csv裡面有13列,對App的名字、種類、評分、回看次數,大小,下載量,價格。。。進行了統計
Data Clean
把Size屬性列轉化為M的形式
去除Install屬性列的+並把它轉化為numeric
使用Google翻譯庫將所有評論文字轉換為英語
把Price價格的$去掉
特徵工程
從上面的圖很清晰的簡單看出
rating(評分)和install(下載)、和size(大小)和review(評論)存在很大的相關性,
size(大小)和Rating(評分)、install(下載)都存在一定的相關性
install(下載)和 review(評論)都存在一定的相關性
哪個類別在市場上(活動)應用程式中佔有最高的份額?
家庭和遊戲應用程式的市場佔有率最高。
有趣的是,工具,業務和醫療應用程式也在趕上。
單因素試驗one-anove
讓我們來分解一下,檢查是否有類別表現得特別好或不好。
試驗中要考察的指標稱為試驗指標,影響試驗指標的條件稱為因素,因素所處的狀態稱為水平,若試驗中只有一個因素改變則稱為單因素試驗
方差分析就是對試驗資料進行分析,檢驗方差相等的多個正態總體均值是否相等,進而判斷各因素對試驗指標的影響是否顯著,根據影響試驗指標條件的個數可以區分為單因素方差分析、雙因素方差分析和多因素方差分析。
p值非常小,因此我們拒絕零假設,而支援替代假設
各個類別的平均應用評分差異很大。這樣子就可以說明我們影響各個類別的平均分的假設是錯誤的
**結論:
- 1,幾乎所有應用類別的表現都不錯。
"HEALTH_AND_FITNESS"和"BOOKS_AND_REFERENCE"提供了質量最高 的應用,其中50%的應用評分高於4.5。 太高了! - 2,相反,“DATING”類別中有50%的應用程式的低於平均評分。
- 3,“LIFESTYLE”,"FAMILY"和"COMMUNICATION"類別中也存在一些垃圾應用。**
尺寸調整策略-選擇輕型與笨重?
這裡很容易的看出來大多數最高評價的應用程式的最佳大小在2MB〜40MB之間-既不太輕也不不太重。
定價策略-免費與付費?
最受好評的應用的最佳價格在1 $〜30 $之間。 只有極少數價格高於20美元的應用。有那麼一些App的價格在四百美元,但是評分相對不高
當前的定價趨勢-如何為您的應用定價?
- **很顯然,
- "MEDICAL"和"FAMILY"應用程式是最昂貴的。 一些醫療應用程式甚至可以擴充套件到80 $。
- 所有其他應用的價格都在30美元以下。
- 然而,所有遊戲應用程式的合理價格都低於20美元。**
付費和免費應用在各個類別中的如何分佈?
付費應用程式的下載量與免費應用程式的下載量一樣嗎?
與免費應用程式相比,付費應用程式的下載數量相對較少。 但是,還算不錯。
付費應用和免費應用的大小如何變化?
- 大部分獲得高評價的付費應用的尺寸很小。 這意味著大多數付費應用程式都是為滿足特定功能而設計和開發的,因此並不龐大。
- 使用者喜歡為輕量級的應用付費。 體積龐大的付費應用在市場上的表現可能不佳。
評論的數量和下載量的相關性?
-
評論數量和下載數量之間存在0.63的中度正相關。 這意味著,如果有更多人檢視過某個給定的應用程式,則客戶傾向於下載更多該應用程式。
-
這也意味著許多下載應用程式的活躍使用者通常還會留下評論或反饋。
-
因此,讓更多人評論您的應用可能是一個不錯的主意,以增加您的應用在市場中的知名度!
WORDCLOUD詞雲-快速瀏覽評論:
免費的App
消極單詞: ads, bad, hate
積極單詞: good, love, best, great
付費APP
消極單詞: malware, problem
積極單詞: great, love, easy
結論
- Google Play商店上(活動)應用的平均評分為4.17。
- 使用者喜歡為輕量級的應用付費。 因此,體積龐大的付費應用在市場上的表現可能不佳。
- 大多數最受好評的應用程式的大小都在大約2MB到40MB之間-既不太輕也不不太重。
- 大多數最高評價的應用程式的最佳價格在〜1 $到〜30 $之間-既不太便宜也不太昂貴。
- "MEDICAL"和"FAMILY"應用程式是最昂貴的,甚至可以擴充套件到80 $。
- 如果有大量人評論了給定的應用程式,則使用者傾向於下載更多該給定的應用程式。
- 與付費應用相比,使用者在審查免費應用時更加嚴峻和苛刻。
ok 做到這裡就結束了這樣做一個簡單的專案了,後續還有很多其他的小專案更新關注
需要這樣子的小專案來練練手的話可以關注公眾號來獲取在這裡插入圖片描述
輸入【python_googleappstore_001】獲取資料集和相應的程式碼
相關文章
- 資料視覺化專案---客源分析趨勢圖視覺化
- 盤點2021最佳資料視覺化專案視覺化
- pyecharts做資料視覺化(二)Echarts視覺化
- 資料視覺化能否代替資料分析視覺化
- 視覺化資料分析軟體視覺化
- 分析哪款專案管理軟體的資料視覺化功能比較完善?專案管理視覺化
- Scrapy爬取二手房資訊+視覺化資料分析視覺化
- 專案資料視覺化對甲方客戶的影響視覺化
- python資料分析與視覺化基礎Python視覺化
- Python疫情資料分析,並做資料視覺化展示Python視覺化
- 二進位制檔案視覺化(二)視覺化
- [資料分析與視覺化] Python繪製資料地圖2-GeoPandas地圖視覺化視覺化Python地圖
- 探究為什麼在專案管理中使用資料視覺化?專案管理視覺化
- xflow流程視覺化-專案搭建視覺化
- 資料視覺化常用圖形都有哪些(二)視覺化
- 資料視覺化-svg入門基礎(二)視覺化SVG
- 資料視覺化(二)A股三大指數10年漲跌幅比較:資料視覺化視覺化
- BI免費素材分析|BI資料視覺化視覺化
- 《新冠大資料視覺化大屏》專案詳細介紹大資料視覺化
- 資料視覺化【十五】視覺化
- 資料看板視覺化視覺化
- Matlab資料視覺化Matlab視覺化
- 資料視覺化的優點是什麼(二)視覺化
- 資料視覺化基本原理——視覺化模型視覺化模型
- 開發BI大資料分析視覺化系統大資料視覺化
- mysql-kettle-superset電商視覺化資料分析MySql視覺化
- 中國大學排名資料分析與視覺化視覺化
- python資料分析與視覺化【思維導圖】Python視覺化
- Geopandas——從“視覺化”到“字母化”的空間資料分析視覺化
- 什麼是資料視覺化,為什麼資料視覺化很重要?視覺化
- 資料視覺化--實驗五:高維非空間資料視覺化視覺化
- 視覺化之資料視覺化最強工具推薦視覺化
- 什麼是資料視覺化?hightopo資料視覺化助力企業數字化視覺化
- 視覺化大屏怎麼打破資料孤島,整合分析資料?視覺化
- 資料分析 | 資料視覺化圖表,BI工具構建邏輯視覺化
- 一張圖:資料分析師的完整資料視覺化指南圖視覺化
- 資料視覺化實踐視覺化
- python資料視覺化——echartsPython視覺化Echarts