紅紅的大蘋果提示您:看後求收藏(品書網www.vodtw.tw),接著再看更方便。
江延和室友坐下以後,還是有源源不斷的人前來參加招聘。
看著每個人進入到面試區出來後表情不一,有的興奮的手舞足蹈,有的則是一臉的失望,江延突然覺得想加入這家公司可能也並不輕鬆。
整理了一下自身的情緒,江延又開始觀察四周的環境和裝修,發現雖然乘風公司剛剛成立不久,但是公司的裝修和環境都不錯,感覺還是很溫馨。
等待了大概有半個小時左右,江延突然聽到有人喊自己的名字,趕忙整理了一下衣服跟著被領入的面試的房間。
房間裡面劉峰,洪藝藝,張小龍,方宇舟和馬思武並肩坐著。
洪藝藝指了指江延面前的沙發說:“坐下來講話就可以了。”
江延侷促不安的做了下來。
洪藝藝看著江延的簡歷問道:“你的簡歷我看了一下,在學校的學習成績一直很不錯,聽說你在上學期間自己做了一個爬蟲程式是這樣的對麼?”
江延回答道:“對,是我自己利用課餘時間自己設計出來的。”
洪藝藝又繼續發問到:“那我問一下,如果讓你重新設計一個爬蟲程式,目的是抓取當前所有的網際網路資訊並且可以快速呈現出來你覺得你需要多久?”
江延小心翼翼的回答道:“這個,這個我想應該需要很久,因為有很多東西需要攻克。”
其實劉峰看重的就是這個人有過做爬蟲程式的這一點。
百度的核心技術其實就是earcher和dexer
earcher是直接與使用者進行互動的模組,在介面上有多種實現的方式,常見的主要是web方式。earcher透過某種介面方式,接受使用者查詢,對查詢進行分詞(steg)處理,獲取查詢關鍵字。透過dexer獲取與查詢關鍵字匹配的網頁資料,經過排序後返回給使用者。
searcher中的問題:
檢索結果的排序:
對不同的使用者採用不同的排序策略。
排序結果排重:
排重可以提高結果資料的質量。
檢索結果的相似性分析:
主要用在類似網頁功能中,需要在索引結構中提供支援。
檢索的速度:
主要依賴索引結構的設計。同時在體系結構上還有很多技術可以用來提升速度。如:cache,負載均衡等。
相關核心技術:
分散式技術:
當搜尋引擎處理資料達到一定規模時,為了提高系統的效能,必須採用分散式技術。crawler透過多個伺服器互相合作,提高資料採集的速度。dexer在生成索引資料時透過並行演算法,在不同機器上同時進行。searcher也可以在不同的機器上進行同時查詢,提高速度。
這兩樣技術其實說白了就是爬蟲程式,透過爬取網際網路中有效的資訊進一步呈現給使用者出一個相信的結果。
劉峰覺得江延能在學生時期就能自己設計出一個爬蟲程式還是很優秀的人才,於是便開口道:“肯定不是讓你一個人去做,我會招聘十個人左右,你們的任務就是開發出一個成熟的搜尋引擎,你的面試透過了,明天就可以來上班了。”
離開的江延還是處於一臉懵逼的狀態。
什麼跟什麼?這就透過了?
顯然眼前的少年還並沒有發現自己的技術有多麼的高深之處,其實在當時的那個年代,有技術的大拿並不在少數,但是他們或多或少的缺少一些眼光而已,他們並沒有發現自己的技術有什麼發展的前景和前途。
這也就導致後世的一些軟體成長為知名企業時,總有一些人暗地裡鬱鬱寡歡,想到當時這種技術自己也可以寫出來