騰訊筆試題

feifeizhongda發表於2017-12-26

  剛剛完成了騰訊的2017年騰訊基礎研究筆試題,談一下感受。

                      考題分為選擇題(26/60分鐘)和簡答題(3/60分鐘),選擇題很基礎,儘管我基本上不會,但如果按照考研的那個水平,那是完全不用擔心的,不知道以前的高數都還給誰了,內容很基礎的,其中涉及到:

                     選擇題:

                     1)  概率計算問題:期望、方差、協方差、計算概率問題等

                      2)矩陣:矩陣計算、特徵值計算、秩,線代第二章看看基本上沒問題了

                      3)高數:定積分和不定積分計算、求偏導

                      4)資料結構:時間複雜度,排序

                      5)統計:分層抽樣

                      6)資料庫:基本命令考察

                     簡答題:

                       1)原假設和備擇假設問題

                       2)神經網路優缺點

                       3)藝人生活行為的挖掘問題

             大公司一般筆試會很注重基礎重基礎重基礎,因為騰訊不讓公開筆試題,所有,列個考點。

             校招前好好備戰,加油,讓自己的努力跟的上一線城市的房價。

  • 應聘職位:基礎研究
  • 崗位描述:探索和創新前沿網際網路技術,將高新技術轉化為產品,參與騰訊產品的開發與技術實現
  • 崗位要求:2016年畢業,自然語言處理、多媒體、分散式網路、資料分析、智慧計算、安全等網際網路相關技術具有較深研究和專業積累,具有較好的創新能力和程式設計開發能力,具備較強的團隊合作力

選擇題

  • 第1題 求定積分結果 101dx  
    答案:1

  • 第2題 已知總標準差=25,隨著樣本增加均值怎麼變化。

  • 第3題 已知K是第四名,A的年齡不是最大但比D老,D不是第二名,年齡第2小的是第二名,第三名的年齡大於第一名,B比第三名年輕,求A、B、D和K的排名順序。 
    答案:D>B>A>K

  • 第4題 y=sin(x)+cos(x)的極大值 
    答案: 2

  • 第5題 max={Cx | Ax<=b, x>=0}為最優解,z>=0,當C、b被v和v/2乘時一下結果正確的是…

  • 第6題 u檢驗的應用條件是:兩樣本來源得總體符合正太分佈…

  • 第7題 設某商品需求滿足: yi=β0+β1xi+εi ,引數估計量…

  • 第8題 齊次線性方程組Ax=0存在無窮解,其行列式m行、n列實數矩陣,則滿足: 
    A.m > n  B.m < n  C.rank(A) = m  D.rank(A) = n

  • 第9題 已知x0=(1,1),求 f(x)=4x1+6x22x122x1x22x22 極大值。x1座標為: 
    A.(1,1)  B.(-1,1)  C.(-1/2,1)  D.(1/2,1)

  • 第10題 相同樣本量下,重複抽樣與不重複抽樣平均誤差大小關係是:相同、重複抽樣大、不重複抽樣大選項

  • 第11題 n階矩陣A行列式 |A|=1 ,則 |A1|=?

  • 第12題 一對夫婦兩孩子,已知一個是男孩,求兩個都是男孩的概率。猜測答案是0.5

  • 第13題  x1,x2,x3...xn 來自 (μ,σ2) 一個樣本, x¯ 為均值, S2 為方差。其中答案包括: S2/σ2x(n1)

  • 第14題 隨機變數x概率分佈:x=2 f(x)=0.2、x=4 f(x)=0.3 、x=7 f(x)=0.4 、x=8 f(x)=0.1,x的標準差是。

  • 第15題 一盒裝有6個乒乓球,4個位新球,第一次隨機取2個,使用後放回盒子;第二次隨機取2個,求第二次取全新的概率。

  • 第16題 商品銷售量、方差分析,excel表分析顏色特徵對結果的影響。

  • 第17題 k1、k2是矩陣A兩個不同特徵值,a與b是A分別屬於k1、k2的特徵向量,則a、b滿足,選項包括線性無關、線性相關等。

  • 第18題 青蛙掉入21米井裡,每天向上爬10米,晚上再掉下7米,問幾天爬出。 
    答案:5天

  • 第19題 人工批量盆景虎皮蘭,平均高度70cm,標準差5cm,隨機搬出100盤,則說法正確的是:選項包括至少75盆以上在70-80cm之間等。

  • 第20題 行列式的值是多少: 

    a22a1aba+b1b22b1

  • 第21題 資料庫系統描述錯誤的是: 
    A.DBMS是資料庫管理系統簡稱 
    B.Hive是開源的資料庫系統 
    C.資料庫事務有ACID屬性 
    D.SQL中create屬於DML語言 
    答案:D 
    分析:終於看到第一道與程式設計、OS、DB相關的題目了,淚流滿面啊!故簡單講解下:DBMS就是資料庫管理系統(Database Management System),事務包括ACID性質(原子性Atomicity、一致性Consistency、隔離性Isolation、永續性Durability),Hive是屬於Hadoop的資料倉儲工具。而create屬於DDL(資料庫模式定義語言),Insert、delete、update屬於DML(資料庫操縱語言)、Select屬於DQL(資料庫查詢語言)、grant屬於DCL(資料庫控制語言)。

  • 第22題 甲乙兩人比射箭,水平一樣。甲射101箭,乙射100箭,求甲射中次數比乙射中次數多的概率。

  • 第23題 一個對陣列A(n個元陣列)排序,程式碼如下:

    for i=i to length(A)-1
       j=i
       while j>0 and A[j-1]>A[j]
           swap A[j] and A[j-1]
           j=j-1
       
    • 1
    • 2
    • 3
    • 4
    • 5

    求程式碼的時間複雜度: O(n2)

  • 第24題 mysql中選課表learn(stu_id int, course_id int ),其中學生id和課程id,則獲取每個學生所選課程個數的語句是: 
    A.select stu_id, count(course_id) from learn; 
    B.select stu_id, sum(course_id) from learn; 
    C.select stu_id, count(course_id) from learn group by student_id; 
    D.select stu_id, sum(course_id) from learn group by student_id; 
    分析:count計數和sum求和的區別,group by分組

  • 第25題 兩家工廠A和B,技術相同,合格率一樣平均80%,A大規模工廠,B小規模工廠,沒有出現故障某家企業合格率僅為70%,問哪家工廠的可能性更大?

問答題

第一題

進行特徵選擇時,即分析哪些協變數對目標變數有較大影響時,有哪些常用的方法?你本人更看好其中哪些?為什麼?

第二題

網路上流傳一個故事,關於資料的神奇性:某商場向一位未婚少女郵寄一些用於保胎的商品目標和折扣券,其父親發火,後證實該少女確實懷孕,解釋一下如何做到的?

個人從一下幾個方面答的,可能存在錯誤或不足之處: 
1.搜尋引擎與推薦系統及演算法 
2.資料探勘相關的關聯規則挖掘演算法,經典尿布與啤酒 
3.知識圖譜 問答系統實現理解人類語言(畢設相關)

第三題

QQ空間相簿替換牆換一換功能。把聚類好的人臉進行圈人標註,系統根據使用者歷史標註記錄,分析每張照片最可能身份,使用者進行確認和否認。每次只從聚類人臉中抽取5張進行展示。假設利用資訊是每個人臉的相似度矩陣G,而且第k+1次抽樣並不知道第k次抽出的樣本,可用人臉數量N始終大於50張。 
(1) 如何設計抽樣演算法,抽樣碰撞率儘可能低; 
(2) 如果抽樣完成後,抽出5張人臉從中刪除,如何設計抽樣演算法,使得相鄰兩次間抽樣碰撞率儘可能低?

總結

面試了阿里和騰訊的NLP和資料探勘相關的演算法方向,個人感覺騰訊的題目偏重數學統計概率,其中選擇題就3道與程式和資料庫相關,而且比較簡單,更多的是數學知識;而三個大題感覺還是不錯的,很貼近生活和騰訊的實際產品,讓我也學到很多知識。但是阿里的題目都至少偏向演算法點,自己需要學習的東西還是非常多,也認識到了自己很多不足之處!接下來繼續努力吧。 

作者:offer快來吧給跪了還不行嗎
連結:https://www.nowcoder.com/discuss/25919?type=0&order=0&pos=8&page=1
來源:牛客網

LZ平時從牛客網上看經驗貼,收穫很多,今天剛收到騰訊基礎研究崗位的offer,把自己的經歷寫一下,希望能幫助到一些同學。
LZ是西電的計算機專業碩士,本科數學專業,前一段時間面試騰訊基礎研究崗位,並收穫了offer。在去年的天池比賽裡面獲得top10,實驗室做的工作和機器學習資料探勘關係不太大,我們是搞遙感影像處理的。
2017.4.16  騰訊基礎研究實習生一面
沒有讓自我介紹,問了問有沒有實習經歷,投了哪些公司。
1.把資料探勘的整個流程寫一下,有哪些演算法寫一下;
2.推薦系統演算法有哪些;
3.介紹專案比賽,按照自己寫的資料探勘流程一條一條地問自己的比賽是怎麼做的;
4.資料結構有那些,寫下來,從中挑問題問;
5.網路七層有哪些,每層有那些協議,寫下來;
6.c++類中預設函式有哪些,寫下來;
7.廣告推薦中用那些演算法;
8.知道FM演算法嗎;
然後聊了聊面試官是哪個事業群的,主要是做什麼的,面試官是MIG的,主要做推薦演算法。由於我在面試的過程中回答的比較流暢,而且有比賽的top,所以我走之前就告訴我我過了。當天晚上10點多接到第二天二面的簡訊。
2017.4.17  騰訊基礎研究實習生二面
自我介紹,問本科研究生的成績。
問實驗室的專案,然後問有沒有用到深度學習,我說沒有,都是平時自己看看這方面的論文,然後就開始考察對深度學習的瞭解。
1.CNN DNN RNN的區別
2.瞭解LSTM嗎
3.為什麼要用CNN,AlexNet做了哪些方面的工作
4.深度學習如何避免過擬合
5.海量資料深度學習調參
6.深度學習怎麼自學的
7.梯度彌散和梯度爆炸
8.深度學習的發展方向和前景
9.對騰訊的看法
整個過程沒有問我基礎知識,沒有問我比賽,只問了點實驗室做的東西,知道我平時看看深度學習,就考察我對這方面的理解,主要考察學習能力和知識面的廣度。第二天晚上9點多接到HR面試的簡訊。
2017.4.19 HR面試
主要是問問專案,對騰訊的看法,工作地點之類的問題,就如實回答了,20分鐘就結束了。
21號晚上微信狀態由HR面試變成已完成所有面試環節,26號下午接到HR的電話,確認個人資訊,工作地點,薪資等。

作者:牛客470556號
連結:https://www.nowcoder.com/discuss/5098
來源:牛客網

4月15號到17號依次參加了騰訊在南京的一面二面hr面,面試崗位是基礎研究。
一面:
先自我介紹,然後按簡歷裡的內容依次詢問,問題問的非常細緻,主要是專案中的技術細節,自己參與部分的實現,面試官會根據自己的理解提出覺得存在技術難點的地方,問解決方案;然後詢問比賽的內容,因為參與了阿里天池的比賽,所以面試官問了當時比賽的情況,詢問資料處理流程、特徵選擇、模型選擇評估方面的問題;之後讓寫一下邏輯迴歸的公式和如何用梯度下降求解,因為邏輯迴歸基本是必然會問道的演算法,所以準備比較充分,我又講了下擬牛頓法求解,L1 ,L2 正則化,online learning(因為參與過點選率預測的比賽,就講了下google的FTRL),之後寫下貝葉斯公式,樸素貝葉斯演算法,以及決策樹隨機森林,一面基本圍繞專案、比賽、基本的機器學習演算法進行,面試官會根據情況提些細節問題。
二面:
依然自我介紹,專案、比賽的內容,之後問了下過擬合問題,怎麼樣解決,舉例說下幾個演算法(當時說了,lr的正則化和決策樹的剪枝),還問了特徵工程和模型融合,之後問了深度學習、Hadoop、spark的瞭解程度,問了下alpha go是怎麼實現的,還問了今後的職業規劃之類的問題,二面依然會圍繞專案、比賽、基本的機器學習演算法進行,還會看你對當前主流的技術趨勢的瞭解,以及現成的開源解決方案的瞭解。
一面二面有的同學遇到了程式設計題,可能我比較幸運,面試官沒有讓我寫程式碼,只是一面時推公式。
hr面:
自我介紹,專案,比賽情況,然後圍繞專案的合作進展,個人貢獻提問等等,以及考研時為什麼轉專業,為什麼選擇機器學習、資料探勘方向,hr面比較輕鬆,只要實事求是說自己的想法就行了。
騰訊面試持續了三天,整體上面試流程比較nice,效率比較高,基本當天晚上回去就出結果通知第二天面試,面試官還是蠻辛苦的,希望能拿到offer。
最後祝大家找工作順利,加油!

1. 數學問題:3sigma原理,T分佈,特徵根,特徵值,最大似然估計,馬爾科夫鏈。

(1)3sigma原理

在正態分佈中σ代表標準差,μ代表均值x=μ即為影像的對稱軸,三σ原則即為:

數值分佈在(μ—σ,μ+σ)中的概率為0.6526

數值分佈在(μ—2σ,μ+2σ)中的概率為0.9544

數值分佈在(μ—3σ,μ+3σ)中的概率為0.9974 

工程中,當質量特性呈正態分佈時(實際上,當樣本足夠大時,二項分佈、泊松分佈等均趨近於正態分佈),3Sigma水平代表了99.73%的合格率(2700PPM);

(2)t-分佈

在概率論和統計學中,學生t-分佈(Student's t-distribution),可簡稱為t分佈。應用在估計呈正態分佈的母群體之平均數。它是對兩個樣本均值差異進行顯著性測試的學生t檢定的基礎。學生t檢定改進了Z檢定(Z-test),因為Z檢定以母體標準差已知為前提。雖然在樣本數量大(超過30個)時,可以應用Z檢定來求得近似值,但Z檢定用在小樣本會產生很大的誤差,因此必須改用學生t檢定以求準確。

t-檢驗近似於Z檢驗,通俗地說,是樣本量小於45時用於減小誤差的改進Z檢驗。改進原理就是拋棄母體標準差,而直接用樣本點構造分佈。

(3)特徵根、特徵值、特徵向量、特徵空間

設 A 是n階方陣,如果存在數m和非零n維列向量 x,使得 Ax=λx 成立,則稱 m 是A的一個特徵值(characteristic value)或本徵值(eigenvalue)。

非零n維列向量x稱為矩陣A的屬於(對應於)特徵值m的特徵向量或本徵向量,簡稱A的特徵向量。

特徵根對應特徵方程,是( A-λE)X=0的解。特徵值對應矩陣及特徵向量,是矩陣的屬性。

λ是A的一個特徵值,則一定是特徵方程的根, 因此又稱特徵根。

特徵空間:就是由所有有著相同特徵值的特徵向量組成的空間,還包括零向量,但要注意零向量本身不是特徵向量。

那麼特徵值、特徵向量究竟有什麼用?連結(邵慶賢

應用非常廣泛:

影像處理中的PCA方法,選取特徵值最高的k個特徵向量來表示一個矩陣,從而達到降維分析+特徵顯示的方法。

還有影像壓縮的K-L變換,以及很多人臉識別、資料流模式挖掘分析等方面。

在力學中,慣量的特徵向量定義了剛體的主軸。慣量是決定剛體圍繞質心轉動的關鍵資料。 

在譜系圖論中,一個圖的特徵值定義為圖的鄰接矩陣A的特徵值,或者(更多的是)圖的拉普拉斯運算元矩陣, Google的PageRank演算法就是一個例子。 

曾經有這麼一句話:「有振動的地方就有特徵值和特徵向量」

只要你真正理解了線性空間的矩陣的意義,你就明白了,幾乎無處不在。

網上還有一種更好理解的說法:

如果你把A*x=λ*x中的A看做一種變換或作用,那麼那些在這種作用下,只改變長短不改變方向的那些向量x就是特徵向量;而特徵值就是λ,是伸縮係數,起能量增幅或者削減作用。

具體的說,求特徵向量的關係,就是把矩陣A所代表的空間,進行正交分解,使得A的向量集合可以表示為每個向量a在各個特徵向量上面的投影長度。

特徵向量和特徵值的幾何意義

(4)極大似然估計

這一方法是基於這樣的思想:我們所估計的模型引數,要使得產生這些給定樣本的可能性最大。即:

找到最佳的模型引數,使得模型實現對樣本的最大程度擬合,也就使樣本集出現的可能性最大,從而用樣本估計總體。。

舉個例子:一個隨機試驗如有若干個可能的結果A,B,C,…。若在僅僅作一次試驗中,結果A出現,則一般認為試驗條件對A出現有利,也即A出現的概率很大。一般地,事件A發生的概率與引數theta相關,A發生的概率記為P(A,theta),則theta的估計應該使上述概率達到最大,這樣的theta顧名思義稱為極大似然估計。

求極大似然函式估計值的一般步驟:(1) 寫出似然函式;(2) 對似然函式取對數,並整理;(3) 求導數 ;(4) 解似然方程 。

應用舉例:在機器學習的異常檢測中,根據模型(通過學習得來的)計算一個資料點出現的概率,如果這個概率小於某個我們事先設定的值,就把它判為異常。我們基於的是一個小事件的思想:如果一件可能性極小的事情竟然發生了,那麼就極有可能是異常。舉個例子,我這輩子跟奧巴馬成為哥們的可能性幾乎為零,如果哪一天我跟奧巴馬在燒烤攤喝3塊錢一瓶的啤酒,那麼絕對叫異常。

極大似然估計

(5)馬爾科夫鏈

基本思路:指數學中具有馬爾可夫性質的離散事件隨機過程。該過程中,在給定當前知識或資訊的情況下,過去狀態對於預測將來的狀態是無作用的。

馬爾科夫性質的方程(條件概率方程)

應用:隱馬爾科夫模型,用於中文分詞。



相關文章