Google正在研究Web結(jié)構(gòu)化數(shù)據(jù)
互聯(lián)網(wǎng)的搜索引擎?zhèn)儼阎饕Χ挤旁诓杉疻eb頁(yè)面的文本信息上,但是Google卻在研究如何分析和組織結(jié)構(gòu)化數(shù)據(jù)方面小有所成,該公司的一位科學(xué)家上周五表示。
“在Web之外存在著大量的結(jié)構(gòu)化數(shù)據(jù),但我們卻并沒(méi)有很好地將這些數(shù)據(jù)展示給用戶。”在馬薩諸塞州技術(shù)研究院舉行的新英格蘭數(shù)據(jù)庫(kù)日會(huì)議中,Alon Halevy在一次談話中這樣說(shuō)道。
Halevy還談到了所謂的“深Web”源,比如為Cars.com或者Realtor.com這類(lèi)表單驅(qū)動(dòng)型網(wǎng)站做后臺(tái)支撐的數(shù)據(jù)庫(kù)資源。Google一直都在不停的向各種表單提交查詢請(qǐng)求,然后對(duì)返回的結(jié)果進(jìn)行分析,最后將有用的內(nèi)容加入到索引當(dāng)中。
但是該公司仍然希望Web站點(diǎn)們能夠?qū)?shù)據(jù)存放到結(jié)構(gòu)化的表格中供google分析,Halevy說(shuō),例如在Web頁(yè)面上提供一個(gè)表格列舉出歷任美國(guó)總統(tǒng)。
但是這樣的表格也是數(shù)量巨大的,據(jù)Halevy說(shuō),Google的索引中已經(jīng)收錄了140億個(gè)。他“很快就意識(shí)到其中有超過(guò)98%的內(nèi)容是用戶不感興趣的,”但即使經(jīng)過(guò)了仔細(xì)的篩選之后,仍然有1億5400萬(wàn)個(gè)表格值得被Google索引。
Google的一個(gè)終極目標(biāo)就是把一個(gè)搜索請(qǐng)求的結(jié)果組織成“各個(gè)方面”返回給用戶,特別是像“越南旅游”這種比較寬泛的關(guān)鍵字,而不是“越南人口”這種非常具體的關(guān)鍵字,Halevy說(shuō),前面的搜索請(qǐng)求可能會(huì)產(chǎn)生關(guān)于簽證條件、氣候、旅行團(tuán)等這類(lèi)信息。
Kosmix已經(jīng)在做這個(gè)點(diǎn)子了,但是Google將會(huì)做的更多,Halevy說(shuō),“Kosmix的確能夠展示出‘方面’,但是它依賴于特定的信息源。”
在Kosmix上搜素“越南旅游”,它會(huì)給你提供一個(gè)結(jié)果集,包括紐約時(shí)報(bào)關(guān)于酒店的評(píng)論,來(lái)自雅虎和Flickr的圖片,來(lái)自Shopping.com的購(gòu)物信息以及來(lái)自Google的其他信息。
“而我們則不同,各方面信息都來(lái)自于Web的搜索結(jié)果,但會(huì)以不同的方式組織起來(lái)。”Halevy說(shuō)。
【編輯推薦】
























