搜狗搜索引擎_搜索引擎調(diào)查報(bào)告探測大眾心中的秘密隱私
愛思范文網(wǎng)http://fanwen.is97.com
愛思范文網(wǎng)http://fanwen.is97.com月初,珍妮·杰克遜(janetjackson)因?yàn)樽吖馐录仙秊閥ahoo搜索的人氣冠軍,其搜索請求達(dá)到總數(shù)的20%,創(chuàng)下了yahoo搜索關(guān)鍵詞的歷史最高記錄。這一數(shù)字是艷星parishilton曾經(jīng)所創(chuàng)記錄的60倍,是歌星小甜甜布萊妮的80倍。
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com互聯(lián)網(wǎng)上的搜索引擎已經(jīng)成為反映大眾趣味和關(guān)注焦點(diǎn)的最好工具,
愛思范文網(wǎng)http://fanwen.is97.com也許比任何其他調(diào)查統(tǒng)計(jì)都更為真實(shí)。
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com高頻詞與社會(huì)熱點(diǎn)
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com縱觀歷史,熱門詞匯反映了短期內(nèi)大眾關(guān)注的焦點(diǎn),長期來看可以連綴出世事的發(fā)展脈絡(luò)。美國康奈爾大學(xué)的研究人員jonkleinberg曾經(jīng)做過一項(xiàng)調(diào)查,通過統(tǒng)計(jì)1790年后每年的美國國情咨文的用詞,發(fā)現(xiàn)了不同歷史時(shí)期的熱門詞匯。例如美國獨(dú)立戰(zhàn)爭期間出現(xiàn)頻率最高的是“民兵”和“英軍”;而在1947年到1959年這段時(shí)間內(nèi),“原子彈”則被反復(fù)地提起。
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com如今,搜索引擎聲稱自己知道大眾心中的秘密。搜索引擎不只是被動(dòng)地答疑解惑;事實(shí)上,各大搜索引擎提供了包羅萬象的統(tǒng)計(jì)數(shù)據(jù),這些結(jié)果也許十分有趣。keinberg認(rèn)為:雖然計(jì)算機(jī)并不懂歷史,但是可以通過統(tǒng)計(jì)blog(網(wǎng)頁訪問記錄)、e-mail和網(wǎng)頁中的文本“學(xué)習(xí)”到相關(guān)的背景知識,從而更好地理解搜索請求的含義。此外,這些統(tǒng)計(jì)數(shù)據(jù)還可以幫助社會(huì)學(xué)者和營銷人員發(fā)現(xiàn)某些正在顯露出的大眾趨勢,為他們的研究或者經(jīng)營提供參考信息。
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com在國內(nèi),搜索引擎甚至借助這種反映大眾趨向的能力,向更廣的商業(yè)領(lǐng)域主動(dòng)出擊。2004年2月12日,百度搜索和光線傳媒共同發(fā)布了“2003年全球華人明星人氣榜”。熱門詞匯周杰倫、《無間道》、《天龍八部》、代言人、緋聞和黑幕等榜上有名。在此之前的1月8日,百度搜索還與胡潤聯(lián)手發(fā)布了“2003中國大陸百富人氣榜”。
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com但是,搜索引擎有時(shí)也會(huì)不知所措。比如嘗試使用google搜索哈姆雷特的名言“tobeornottobe”,會(huì)發(fā)現(xiàn)google竟然答非所問,羅列在頁面上的是gnu’snotunix官方網(wǎng)站、hotornot交友網(wǎng)站……就是不見莎士比亞的影子。這個(gè)經(jīng)典的例子引出了搜索技術(shù)的一個(gè)術(shù)語—停止詞(stopword)。
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com顧名思義,計(jì)算機(jī)的一切能力都是以計(jì)算為基礎(chǔ),即使閱讀也不例外。搜索引擎瀏覽分布在各個(gè)角落的網(wǎng)頁的同時(shí),還在后臺不停地統(tǒng)計(jì)詞語的出現(xiàn)頻率。有一些詞語出現(xiàn)率極高,帶來巨大的統(tǒng)計(jì)成本,卻不包含太多的具體意義,比如漢語的“的、是、了”和英文單詞“the、and”之流。如果要得出包含該詞的全部結(jié)果,實(shí)在是過多了。例如遇到哈姆雷特名言中的那些高頻詞匯,經(jīng)常導(dǎo)致搜索“引擎”突然熄火,因此這些單詞得名“停止詞”。在google“閱讀”哈姆雷特的名言時(shí),遇到了四個(gè)停止詞,出于無奈,所以它只好對頻率最低的“not”進(jìn)行搜索,得到了一些有關(guān)“not”的流行網(wǎng)站。
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com如果將此名言括上引號,google便會(huì)突然開竅,順利地尋找到相關(guān)的網(wǎng)站。這一功能被稱作短語搜索(phrasesearch)。不過,比google更智能的是alltheweb,它已將這句名言列入搜索目錄,在結(jié)果頁面中直接提供了相關(guān)鏈接。
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com搜索如何實(shí)現(xiàn)
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com“已向英特網(wǎng)搜索geraldsalton。共有5,430項(xiàng)查詢結(jié)果,這是第1~10項(xiàng)。搜索用時(shí)0.06秒。”0.06秒,體現(xiàn)著以google為代表的搜索引擎的快捷和高效。這一切,又是如何實(shí)現(xiàn)的呢?
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com通常情況下,一間機(jī)房只能擺放10臺服務(wù)器,但是google的機(jī)房內(nèi)可以容納80臺服務(wù)器,因?yàn)樗鼈兌际遣鸬袅藱C(jī)殼和部分零件的裸機(jī)。larrypage和sergeybrin他們將機(jī)器的外殼拆掉,再卸下沒用的芯片和零件使整機(jī)體積縮小,而且容易維護(hù),當(dāng)然也節(jié)省了租用機(jī)房的花銷。google使用了超過一萬臺的服務(wù)器,并將其分散到五個(gè)不同地區(qū)的機(jī)房內(nèi),用以應(yīng)付浩如煙海的網(wǎng)絡(luò)信息。
愛思范文網(wǎng)http://fanwen.is97.com愛思范文網(wǎng)http://fanwen.is97.com為了對每一次搜索請求做出快速的反應(yīng),搜索引擎在前期下足了功夫。它們在后臺不停地重復(fù)三步操作。第一步,搜索引擎會(huì)不斷的利用爬蟲(crawler)程序搜集互聯(lián)網(wǎng)上所有可達(dá)的網(wǎng)頁,無論是公開的還是隱藏的—只要曾被訪問過,就會(huì)招致“爬蟲”上身。這樣,定期外出的“爬蟲”就為搜索引擎囤積起一個(gè)海量數(shù)據(jù)庫。由于“爬蟲”外出遵循一定的周期,有時(shí)可能跟不上網(wǎng)頁更新的速度,所以google的“網(wǎng)頁快照”會(huì)出現(xiàn)與目標(biāo)頁面不盡相同的情況。第二步,另一個(gè)程序會(huì)統(tǒng)計(jì)出緩存網(wǎng)頁(cachedpage)中各個(gè)字詞出現(xiàn)的頻率。第三步,根據(jù)詞頻概括出頁面的中心思想和段落大意,再按照不同的關(guān)鍵詞提煉出索引目錄。用戶的每一次搜索請求都是基于這些索引計(jì)算而得,因此響應(yīng)異常迅速。