我曾經以為公司保證演算法優異卻不提供任何細節就的時代已經過去。如AppNexus或DataXu這些公司用於優化數字媒體的演算法都是透明的。然而,我仍然能聽到有些人推銷包治百病的“黑盒子”演算法。

雖然很想讓這個辯論告一段落,卻又不是那麼容易。例如,研究這一塊時,我發現,一個資料科學家所認為的最佳演算法的正確解決方案,另外三人會聲稱是錯誤的並提出一些不同的方案。

為了拋磚引玉,以下我給出了幾個被認為是常識的不同角度看法。我不是資料科學家,但你不需要是資料科學家來理解你買的東西。這是為你們寫的:試圖理解大資料意義的媒體買家和客戶方的營銷人員,以及希望將複雜分解得更為簡單的媒體銷售代表。

樣本大小基礎知識

對於初學者來說,重要的是要明白,任何演算法必須對給定的變數組合有足夠的資料來決定它的價值。例如,你不會採用只有一個人的調查來預測全國大選,因為這個樣本量太小了。在一場至少有兩位總統候選人的競爭中,如果你假設有1億8千萬登記選民,並希望3%的誤差幅度和95%的置信水平,根據這個樣本量計算你需要1,067個樣本。這個樣本量是足夠的,因為更有優勢的候選人可以贏得51%的青睞,而另一位贏得46%的青睞,還有一些未知。在3%的錯誤幅度下,即使這個調查做了數百次,有51%青睞的候選人會有95%的機會獲得介於48%和54%之間的選票。假定95%的置信水平,誤差幅度像如下鐘形曲線圖這樣移動:

好吧,也許數學不是你喜歡的科目,但不要被嚇倒。要理解上面的圖,只要注意這些曲線在較低的錯誤幅度時重合度較高。這就意味著你的數字的準確性可能更高。

但是,如果有500個有效候選人,並且沒有誰擁有更為明顯的青睞?最有優勢候選人僅有0.8%青睞,最低是0.02% 。有這麼多條線,甚至上面2%的曲線也很難確定各候選人差距有多大。因此,你可能需要增加樣本量。

下面就是將這個故事轉換為數字展示或視訊廣告程式的情況(移動則有些不同) 。

五百個競爭者或36億數值組合

在一個典型的RTB廣告活動中, 執行在一個隨機的新聞網站上的50,000次展示產生0.1%的轉換率,目標是達到0.08%的轉換率。這相當於共50個轉換。不過,如果你再深入研究,你發現50次轉換中的48個發生在早上7點到10點之間。在這48箇中,35個發生在星期一。在這35箇中,27個來自於Windows 7作業系統(OS )的機器。你可以看到這是如何迅速地展開,並且增加更多的變數就可以展開得更深。

這裡的關鍵總結是,作為一個單獨的變數,這種隨機的新聞網站並不一定是一個很好的網站。但它可以很好,在某些時候,或某些日子,與某些其他變數一起應用。

在決定媒體購買的時候,你需要考慮多少變數和結果?下面是來自於我的真實案例的保守數字。
一日                                24小時

一週                                7天

瀏覽器                           6

裝置                                3

作業系統                       4

網站                                10,000

廣告尺寸                      3

人群分類資料            10

廣告創意                      1

總的獨特組合  3,628,800,000

對的:超過30億個獨特的組合可考慮 – 這還是保守的。在實際操作中更多見的可能是面對50,000個網站, 20個人群分組資料,等等,這將使數字大得多。

我作為一個廣告專業畢業生,沒有受過統計的正統培訓,於是諮詢了兩位專業的統計人員。他們建議了以下的一些技巧,以確保我使用他們行業內的最佳實踐。

 

有兩種方法來看這個問題:我們可以“向前預測”樣本的大小,如前面的總統大選為例,或“向後看”,因為這是我們已經有資料的一種情況,假設媒體購買已經啟動。當向前預測,由於這麼多的獨特組合,很可能數以百萬計的組合將聚成一團,提升0.001%的效果。讓我們回到那個樣本大小的計算器,當有2.14億網民,為實現0.001%的誤差幅度,你的樣本大小需要將超過2.09億。在知道什麼有效、什麼無效之前,這可是很多“樣本”。但是,這真的感覺不對。因此,讓我們“向後看”。

要向後看,我們得確定,每個獨特組合值需要多少“觀察”或展示,以獲得統計上有效可信的決策。根據一大堆令人昏昏欲睡的網上聊天論壇的討論,有一些情況只需要10個觀察值即可,而有些則需要30或40個觀察值才被視為合理。即使10觀察或展示是足夠的,你每次正在進行的廣告投放活動有362億的展示?這肯定是行不通的,所以也許是時候放棄所謂理解每一個獨特、詳細組合。

演算法只要比人力使用Excel好就行

是的,完美的演算法理論上應該探討變數的每個組合。但上面的例子證明了這太不可能,而且沒有演算法是完美的。相反,我們並不需要一個只著眼於一個單一變數的演算法。一個人可以用Excel中的“排序”功能做到這一點。回到我們隨機的新聞網站,比如說該演算法每次著眼於僅僅兩個變數,如網站和資料段,瀏覽器和一天的小時數,或網站和星期幾。我們可以認為某些變數比其他變數更重要,但我們這是在討論在盒子裡的魔法。當然這可以一次計算任意兩個變數。

 要做到這一點,我們需要這些變數值每個配對的總數。將網站數量減至1000來進一步證明這一點,我很想告訴你我知道算這個的公式,但我用了三分鐘在Excel中將每列相乘,得出了59,284個獨特的配對。

 你會記得有些統計人員建議每個組合10個觀察值或展示就足夠了。你會優化掉10個展示嗎?甚至100個?既然我們想更現實,但仍然保守,我們用每個組合​​1000個展示。現在,我們需要得到59,284,000個展示以保證每對資料都是好的。用一個更現實的級別如每個組合5000次,則需要超過2.95億個展示。你們中有多少人正在用這種型別的購買 - 與一家供應商,在一個廣告投放活動中?

頻次

與盯著上述所有媒體變數相比,可能調整我們的觀點到關注使用者上更容易。該演算法是要針對使用者優化而不是媒體變數如網站,一天中的時間,等等。要做到這一點,我們需要看一下頻率。回到 “觀察值”的概念,研究表明10實際上是一個可行的數字。我們已經看過成千上萬的活動,看到每月8-12次展示的頻率是需要的,然後結果會降低效率。 好吧,是時候了:現在是常識性的直覺檢查時間。

如果你需要給每個使用者大約10個展示,然後才能知道是否要優化對該使用者的購買,你已經給了該使用者進行轉化足夠的展示次數,如果轉化會發生的話。現在再針對該使用者優化已沒有意義,你已經知道結果了。

總結

現在你可能會問演算法的目的到底是什麼。這篇文章的目的不是要對任何特定演算法挑刺,而是對盲目認為任何數字媒體演算法都有魔術般的效果的說法提些其它看法。

如果你正在與一個供應商執行5萬美元購買,在決定交給說他們有一個演算法的人之前,考慮一些時間,做做數學題。一個好的演算法應該是透明的。供應商應該告訴你他們何時可以提高效果,何時不能,因為確實沒有足夠的資料。

他們應該願意提供資料給你,如果你想檢視資料或自己做決定。如果我看起來像喬治·克魯尼並想找個約會,我不會用一個袋子套在我的頭上出門。那些對他們的產品有自信的公司,會展示其產品並不帶保留地回答你的問題。

 

Via:AdExchanger.com