實現基於zoom平臺上的oss額外儲存

夢想改造家發表於2018-05-14

原文網址 : https://flycode.co/archives/165128

OSS的擴充套件性和超大的儲存空間，使得在一些第三方昂貴的儲存成本極大的壓縮，譬如ZOOM。但如何實現將ZOOM上的視訊轉移儲存到OSS這個第三方儲存介質上呢？其實很簡單，具體實現方式是先將ZOOM上的雲錄製平臺中所有視訊的地址獲取到，然後分批下載到跟OSS繫結的檔案目錄下，繫結OSS後的目錄能實現和bucket的同步。繫結OSS和目錄的方法可以通過ossfs工具實現。

以下是ZOOM視訊的爬蟲指令碼的程式碼，基於python實現，這也是基礎爬蟲的程式碼實現，觀眾老爺們也可以當看個爬蟲入門

# -*- coding=utf8 -*-
import requests 
import bs4
import urllib
import datetime
import download as ds
import dd


from lxml import html


session_requests = requests.session()
login_url = "https://www.zoom.us/signin"
#登入頁面的賬號密碼
payload = {
    "email": "xxx@qq.com",
    "password": "password"
}
#傳送seesion請求
result = session_requests.get(login_url)

tree = html.fromstring(result.text)

result = session_requests.post(
    login_url,
    data = payload,
    headers = dict(referer=login_url)
)

#第一頁訪問
url = `https://www.zoom.us/recording/management`
#獲取到的頁面值
result = session_requests.get(
    url,
    headers = dict(referer = url)
)
#獲取第一頁整個頁面，轉成BeautifulSoup
soup = bs4.BeautifulSoup(result.text, `lxml`)
#獲取到頁數
page=soup.find_all(class_="pagination")
page1=bs4.BeautifulSoup(page.__str__(),`lxml`);#將收縮結果轉成bs格式在進行篩選，篩選出list集合
pp=page1.select("li");


num=1
# 獲取a下的href
hrefs = []
videoHrefs=[]
while(num<=pp.__len__()-2):
    url = `https://www.zoom.us/recording/management?p=`+num.__str__()
    #重新請求頁面
    result = session_requests.get(
        url,
        headers=dict(referer=url)
    )
    soup = bs4.BeautifulSoup(result.text, `lxml`)
    # 獲取指定class的<div></div>
    dv = soup.find_all(class_="list-col rec-filesize")
    # 將a記錄篩選出來
    a = bs4.BeautifulSoup(dv.__str__(), `lxml`)
    ahref = a.find_all("a")

    #獲取到所有的href-meeting地址
    for i in ahref:
        hrefs.append(i[`href`])
        href=i[`href`]
        #訪問href地址獲取視訊地址
        resultForVideo = session_requests.get(
            href,
            headers=dict(referer=url)
        )
        #獲取class=btn play-id的節點
        play = bs4.BeautifulSoup(resultForVideo.text, `lxml`)

        # t通過新的soup獲取指定class的<a></a>
        aPlay = play.find_all(class_="btn play-id")
        # 將a記錄篩選出來
        str=aPlay[0][`href`].replace("play", "download");
        videoHrefs.append(str)
        print str
        filename = "D:/url/" + num.__str__() + ".mp4"
        print filename
        nowTime = datetime.datetime.now().strftime(`%Y-%m-%d %H:%M:%S`)  # 現在
        print nowTime
        # ds.do_load_media(str, filename)
        #dd._downloader(str,filename)
        urllib.urlretrieve(str, filename)
        # urllib.request.urlretrieve(url, filename, Schedule)
    #計數值增加
    num=num+1

print videoHrefs
print hrefs.__len__()

以上是基於程式碼層的爬蟲實現，因為儲存的地址是filename，而現在的filename為 filename = “D:/url/” + num.__str__() + “.mp4”

但是該檔案地址與OSS沒有關係，所以需修改為OSS繫結下的目錄地址，OSS繫結目錄地址的操作方式如下：

1.通過下載ossfs
2.通過安裝命令執行安裝

對於Ubuntu，安裝命令為：

sudo apt-get update
sudo apt-get install gdebi-core
sudo gdebi your_ossfs_package

對於CentOS6.5及以上，安裝命令為：

sudo yum localinstall your_ossfs_package

對於CentOS5，安裝命令為：

sudo yum localinstall your_ossfs_package –nogpgcheck

3.設定bucket name 和 AccessKeyId/Secret資訊，將其存放在/etc/passwd-ossfs 檔案中，注意這個檔案的許可權必須正確設定，建議設為640。

echo my-bucket:my-access-key-id:my-access-key-secret > /etc/passwd-ossfs
chmod 640 /etc/passwd-ossfs

4.將OSS bucket mount到指定目錄。
ossfs my-bucket my-mount-point -ourl=my-oss-endpoint

具體的掛載目錄名稱有觀眾老爺們自行決定，掛載完成後只需要將程式碼中的filename賦值於指定的目錄就大功告成了~~

2018/06/04 update 增加了oss上傳功能，改成了讀取配置檔案:


# -*- coding=utf8 -*-
import requests
import bs4
import urllib
import datetime
import os
import time
import oss2
from lxml import html

#建立存放目錄地址
filedir="C:/"+time.strftime("%Y-%m-%d")
folder=os.path.exists(filedir)
if not folder:
    os.mkdir(filedir)
else:
    print "---  There is this folder!  ---"
    filedir=filedir+"-bk"
    os.mkdir(filedir)
# 開啟a.txt配置檔案
with open(`C:/Users/Administrator/Desktop/a.txt`) as file_object:
    lines = file_object.readlines()
    for line in lines:
        str = line.split(" ");
        username = str[0]
        password = str[1]
        print("當前賬號", username)
        session_requests = requests.session()

        login_url = "https://www.zoom.us/signin"
        payload = {
            "email": username,
            "password": password
        }
        result = session_requests.get(login_url)

        tree = html.fromstring(result.text)
        result = session_requests.post(
            login_url,
            data = payload,
            headers = dict(referer=login_url)
        )
        #第一頁訪問
        url = `https://www.zoom.us/recording/management`
        print url
        result = session_requests.get(
            url,
            headers = dict(referer = url)
        )
        #獲取第一頁整個頁面
        soup = bs4.BeautifulSoup(result.text, `lxml`)
        #獲取到頁數
        page=soup.find_all(class_="pagination")
        page1=bs4.BeautifulSoup(page.__str__(),`lxml`);#將收縮結果轉成bs格式在進行篩選，篩選出list集合
        pp=page1.select("li");
        num=1
        vnum=1
        page=0
        if pp.__len__()==0:
           page=1
        else:
            pa=bs4.BeautifulSoup(pp[-2].__str__(), `lxml`)
            page=int(pa.find(`a`).text)
        print(`page:`, page)
        # 獲取a下的href
        hrefs = []
        videoHrefs=[]
        while(num<=page):
            url = `https://www.zoom.us/recording/management?p=`+num.__str__()
            #重新請求頁面
            result = session_requests.get(
                url,
                headers=dict(referer=url)
            )
            soup = bs4.BeautifulSoup(result.text, `lxml`)
            # 獲取指定class的<div></div>
            dv = soup.find_all(class_="list-col rec-filesize")
            # 將a記錄篩選出來
            a = bs4.BeautifulSoup(dv.__str__(), `lxml`)
            ahref = a.find_all("a")

            #獲取到所有的href-meeting地址
            for i in ahref:
                hrefs.append(i[`href`])
                href=i[`href`]
                #訪問href地址獲取視訊地址
                resultForVideo = session_requests.get(
                    href,
                    headers=dict(referer=url)
                )
                #獲取class=btn play-id的節點
                play = bs4.BeautifulSoup(resultForVideo.text, `lxml`)

                # t通過新的soup獲取指定class的<a></a>
                aPlay = play.find_all(class_="btn play-id")
                # 將a記錄篩選出來
                str=aPlay[0][`href`].replace("play", "download");
                #videoHrefs.append(str)
                print str
                # 獲取到會議ID
                metID = play.find_all(class_="control-label meeting-topic")
                st = metID.__str__().index(`>`) + 1
                en = metID.__str__().index(`</`)
                metID = metID.__str__()[st:en]
                # 判斷是否之前已經有相同檔名有的話就加編號
                echo = ""
                if metID in videoHrefs:
                    # for fnum in range(videoHrefs.__len__()):
                    #     ss = videoHrefs[fnum][0:videoHrefs[i].__len__() - 3]
                    #     if ss == metID:
                    #         echo=videoHrefs[fnum]
                    # metID=echo[0:echo.__len__()-3]+(int(echo[echo.__len__()-3:echo.__len__()])+1).__str__()
                    metID = metID + "-002"
                # 獲取到新的metID的命名
                videoHrefs.append(metID)

                filename = filedir + "/" + metID.__str__() + ".mp4"
                print("fileNum", vnum)
                vnum=vnum+1
                print filename
                nowTime = datetime.datetime.now().strftime(`%Y-%m-%d %H:%M:%S`)  # 現在
                print nowTime
                # ds.do_load_media(str, filename)
                #dd._downloader(str,filename)
                urllib.urlretrieve(str, filename)
                # urllib.request.urlretrieve(url, filename, Schedule)
            #頁碼計數值增加
            num=num+1
            print(`page`,num)

print videoHrefs
print hrefs.__len__()


#通過oss2 將視訊上傳到bucket
#使用者aky
auth = oss2.Auth(`aid`, `keys`)
bucket = oss2.Bucket(auth, `oss-cn-shanghai-internal.aliyuncs.com`, `bucketName`)
#獲取當前時間命名的目錄
nowTimeDir=time.strftime("%Y-%m-%d")
#迴圈上傳視訊到oss上
ossNum=1
for videoPath in videoHrefs:
    ossPath=nowTimeDir+`/`+videoPath+".mp4"
    localPath=filedir+"/"+ videoPath.__str__() + ".mp4"
    bucket.put_object_from_file(ossPath, localPath)
    print("ossFile",ossNum)
    ossNum=ossNum+1

雲知聲: 基於 JuiceFS 的超算平臺儲存實踐
2022-12-22
UI
SpringBoot整合阿里雲OSS物件儲存實現檔案上傳
2021-04-13
Spring Boot阿里物件
SpringBoot使用阿里OSS實現檔案雲端儲存
2020-10-27
Spring Boot阿里
200 行程式碼實現基於 Paxos 的 KV 儲存
2022-05-20
行程
儲存系列1-openfiler開源儲存管理平臺實踐
2020-10-21
阿里雲OSS雲端儲存管理實踐
2021-03-04
阿里
OSS物件儲存的全球加速方案
2020-11-27
物件
物件儲存OSS上傳、下載發生”便祕”
2018-11-05
物件
前端（react）上傳到阿里雲OSS儲存例項
2022-03-18
前端React阿里
基於Android平臺實現人臉識別
2019-01-14
Android
視訊採集：iOS平臺基於AVCaptureDevice的實現
2018-12-24
iOSAPTdev
大資料儲存平臺之異構儲存實踐深度解讀
2018-06-06
大資料
實現Dart版本物件儲存(COS)外掛
2022-11-24
Dart物件
基於Ceph物件儲存構建實踐
2020-05-20
物件
kunbernetes-基於NFS的儲存
2018-12-14
NFS
OSS雲端儲存管理實踐（體驗有禮）
2021-11-12
Laravel 使用阿里雲 oss 儲存物件
2018-10-09
Laravel阿里物件
BizWorks應⽤平臺基於KubeVela的實踐
2022-10-24
基於 Springboot+layui 實現介面自動化平臺
2020-09-03
Spring BootUI
關於SaaS平臺中crontab建立、儲存和執行的考慮
2021-10-16
Unirech：阿里雲國際站的物件儲存oss與自建儲存的區別
2022-05-30
阿里物件
oss-server 小型物件儲存系統
2018-06-12
Server物件
base64 編碼轉圖片儲存本地和上傳 oss
2019-01-09
攜程基於Flink的實時特徵平臺
2019-04-26
特徵
BizWorks 應用平臺基於 KubeVela 的實踐
2022-11-02
基於 Serverless+OSS 分分鐘實現圖片秒變素描
2022-08-31
Server
畢業設計&畢業專案：基於springboot+vue實現的線上音樂平臺
2024-07-21
Spring BootVue
基於.NET 5實現的開源通用許可權管理平臺
2021-03-30
wordpress外掛在伺服器上的儲存位置
2020-02-17
伺服器
Dubbo壓測外掛的實現——基於Gatling
2018-12-24
基於Java+SpringBoot+Mysql實現的古詩詞平臺功能設計與實現三
2024-10-27
JavaSpring BootMySql
雲平臺分散式儲存池建立實施經驗分享
2022-08-09
分散式
浪潮儲存基於智慧運維技術，加速儲存自治
2021-11-14
運維
通過 POI 將資料庫中的資料上傳至 OSS 物件儲存
2018-09-29
資料庫物件
調研：如何基於Linux平臺實現自主設計的排程器
2024-04-03
Linux
阿里雲物件儲存OSS支援版本管理特性
2019-04-03
阿里物件
白瑜慶：知乎基於Kubernetes的kafka平臺的設計和實現
2018-05-03
Kafka
基於canvas實現的高效能、跨平臺的股票圖表庫--clchart
2018-04-25
Canvas

實現基於zoom平臺上的oss額外儲存

相關文章