給王心凌打Call的,原來是神奇的智慧湖倉

部落格園團隊發表於2022-06-15

Image

圖文原創:譚婧(王❤凌老粉)

“爺青回” 

“我們只是老了,並沒有死。”

Image

譚老師作為老粉,熱烈慶祝“甜心教主”王❤凌成為現象級翻紅頂流。

只要地球不爆炸,她的資料就一個都不能丟,還得用好了。 

那為王❤凌從頭開發一套大資料與智慧系統吧?

答案,沒必要。

不能把精力花在和IT基礎設施你死我活地纏鬥中。

就好比,當你的目的是去開會,那就不能去搭建會議室。

所以,這邊建議電視臺

把所有資料放到公有云上,使用無伺服器架構(Serverless),將專案命名為 :

“王❤凌老粉打Call資料專案” 

每一家雲廠商都能拿出足夠的資料來證明自己的產品才是最好的,我們不在此處爭論。

方案技術選型上,一步到位,挑選一朵最大的,全球部署的公有云,方便❤凌文化出海。

用亞馬遜公有云,全方位無死角給❤凌打Call。

首先,王❤凌的視訊,音訊,電視劇,演唱會等大批量歷史資料,不存放在本地IDC上。

現在疫情,供應鏈緊張,硬體採購週期太長,電視臺的審批流程也太長,不能等。

直接將❤凌的所有資料妥善儲存在Amazon S3 資料湖中。

不同種類的資料都能存,量大量少都能存,而且不會丟,永遠在資料湖裡,安全,放心。

技術上,這些檔案存進S3資料湖自動成為資料API,方便呼叫,標準一致,取用方便。

怪不得,有人稱S3為事實上的雲端計算物件儲存標準。

沒有資料指導的業務,怎麼可能做好?

領導著急看數,資料分析人員更著急,這個情況不允許發生,立刻配備雲資料倉儲Amazon Redshift。 

聯合查詢的功能不能少:

比如,某電視臺資料分析專家想查手機APP平臺和大屏電視機頂盒觀看平臺的使用者之間的聯絡。

Redshift聯合查詢可以直接從手機App平臺(已入湖),大屏電視機頂盒平臺(基於資料庫),獲取資料的聯絡。

晚上九點,晚飯後,某一批使用者在電視上反覆觀看王❤凌現場舞蹈(產生的行為資料存在資料庫中,包括當時產生的很多標籤)。

然後,我們直接查詢一批使用者在手機App中的觀看過和這些行為資料中的標籤相關的視訊(這些資料存在資料湖裡),比如標籤裡有“甜心教主” “電視劇”。

這兩類資料存放在不同的地方,一個在資料庫,一個在資料湖。如果之前沒看過相關視訊(“王凌男孩跳舞熱榜”),就向手機App端推送。

實時智慧分析必不可少:

先將歷史資料和新鮮(實時)兩種資料同時接入雲資料倉儲Redshift。

Amazon Redshift ML 使資料分析師和資料庫開發人員可以在Redshift 資料倉儲中使用熟悉的 SQL 命令輕鬆建立、訓練和應用機器學習模型。

實時看板必不可少:

某電視臺,沒有設定王❤凌線上投票,實在令人遺憾,氛圍感差些些。

建議電視臺開展線上投票,並公開實時看板,讓全國粉絲瞭解投票熱度整體進展,即時知道投票效果。

所有產生的實時打榜資料,接入流式資料管道Amazon Kinesis,資料像水流一樣一直灌進來。

並不是所有人時時刻刻在打榜,水流有大有小,而無伺服器架構的Kinesis可以基於水流的大小即時彈性擴縮,無需關心流量高峰低谷,安心接入。

Redshift建立流式物化檢視對接Kinesis,結合資料倉儲內歷史資料生成實時看板。

那些不能從電視臺資料倉儲裡直接取數的外部團隊,比如,抖音和快手,辦法是電視臺藉助Amazon Redshift Data Sharing的功能,將資料安全共享。

查詢併發高峰的時刻,Redshift併發擴充套件能力也能輕鬆應對。

給王心凌打Call的,原來是神奇的智慧湖倉

總而言之,資料倉儲效能越高越好,價格越便宜越好。

這就要靠雲廠商的技術手段了,壓力給到亞馬遜雲科技這邊。 

“王❤凌老粉打Call資料專案”專案,危險行為識別必不可少:

用日誌分析服務Amazon OpenSearch,做鏈路追蹤,監視黑產惡意刷榜,確保公平。

“王❤凌老粉打Call資料專案”專案,資料庫選型如下:

1. 如果王❤凌開直播,刷禮物的交易資料,先放入極致彈性的Amazon DynamoDB中,再將歷史資料同步到Redshift資料倉儲。

2. 手機APP使用者瀏覽王❤凌視訊的行為,記錄等,也得存入非關係型資料庫DynamoDB中。

本方案,為突發狀況,準備了預案。

突發情況一:

突然,某天,要查詢一遍過去十年的王❤凌資料,可能幾十PB。

方法一:這種使用頻率極低,又要分析海量資料,成本還要低的查詢,就用Amazon Athena。

方法二,搭建一個Hadoop系統。但是,為了幹這件事情,耗費的人力物力非常可怕,從頭幹起大約兩個月。

在Athena裡,查詢按次按量計費,一定要查詢的話,這筆費用可以出。

突發情況二:

“王❤凌男孩跳舞熱榜”現象,讓人始料不及。跟風創作,大量上傳熱舞視訊。

實時處理這些視訊並提取特徵,為下一階段分析提供資料,得用什麼技術呢?

答案是,流式資料分析技術,Amazon Kinesis Analytics。

另外,歷史資料怎麼處理呢?

答案是,使用託管大資料平臺Amazon EMR處理大規模歷史資料,為❤凌的每一個歷史視訊都打上標籤。同時EMR Serverless以極簡的開發來處理資料,同時實現最低的成本。

最後強調一句,亞馬遜雲科技Serverless無伺服器架構,很黑科技。

初聽還是小學生,再聽已是社會人,支援❤凌,致我們逝去的青春。

“王❤凌老粉打Call資料專案”方案的技術選型部分就介紹完了。

剛剛提到很多亞馬遜雲科技產品服務,大家感興趣的話也可以掃碼進入官網閱讀,一起學習成長,歡迎交流討論~

來源:公眾號親愛的資料

相關文章