哪些企業在使用開源搜索平臺?
譯文【51CTO 5月9日外電頭條】推特、Facebook和美國國會圖書館,這三大機構都擁有數量驚人的結構化數據和非結構化數據,而且必須快速地索引和搜索這些數據。就拿推特來說,它每天需要索引的新信息大約就有3億則。
所以,也就難怪這些機構大膽涉足看似處女地的開源搜索應用軟件領域,不僅是為了節省成本,還在于能夠迅速定制和改動應用軟件。此外,開源技術擁有活躍的社區,這有助于解決相關問題。
但是其他企業用戶又怎樣呢?據知名調研機構加特納集團聲稱,如今一家典型企業中大約80%的信息是非結構化信息,包括各種文本、電子郵件、博客和視頻,而這個比例在加大。所有這些數據可能蘊含著價值;如今每一個網站查詢和提供相關結果的速度都應該與最優秀的互聯網搜索引擎一樣快。加特納集團的分析師Whit Andrews說:“人們在如今從事的幾乎每一項工作中都需要搜索技術。大家都認為搜索功能將會嵌入到各個方面。”
眼下,大多數企業的搜索功能非常有限,這些功能通?;赟QL查詢或特定的表單或報告。他補充說:“這種模式很快難以為繼,因為數據量實在太龐大了,數據量在24/7環境下在非常迅速地增加。”
重要的搜索功能
形形色色的企業都在開始探究開源搜索應用軟件,以便了解自己收集的結構化數據和非結構化數據。Lucene Solr就是這樣一款產品,這個開源搜索平臺由總部設在加利福尼亞州圣馬特奧的軟件公司Lucid Imagination開發而成。
三年前,大家開始對開源搜索應用軟件產生了濃厚的興趣。Olliance Group 是一家開源咨詢公司,也是Black Duck軟件公司旗下的部門。高級主管Greg Olson說:“Lucid Imagination也就是在那個時候成立的,其初衷是為開源軟件提供商業支持服務。這充分表明了主流用戶需要圍繞像Lucene這些新技術的服務或解決方案。”
Andrews表示,毫無疑問,Lucene面向大量使用搜索的用戶。“Lucene對于需要一款非常高級的搜索解決方案或產品的人來說很重要。其典型的用戶是需要大規模應用技術的廠商。這是使用Lucene的合適環境——你需要能夠搜索海量的信息。你不會看到Lucene用于內聯網在下周四之前需要搜索的場合。”
另外幾家廠商提供較輕量級的搜索工具,它們基于同樣的Lucene開源技術。比如說,在線零售商Zappos.com就使用Lucene Solr,支持每個月多達6300萬次的客戶查詢。但是在內部,這家公司部署了開源搜索引擎Elasticsearch,“用于非網站關鍵系統或不受性能限制的服務,”搜索團隊負責人Aye Thu如是說。
其他許多搜索應用軟件開發商最近已被軟件巨擘們收購,這就讓人對它們的未來方向打上了問號。2008年,微軟收購了搜索應用軟件Fast Search & Transfer,并且通過SharePoint供用戶使用。2011年8月,惠普收購了總部設在英國的Autonomy公司;兩個月后,甲骨文宣布計劃收購Endeca,這家公司提供非結構化數據管理、互聯網商務和商業智能解決方案。
盡管這些軟件巨擘還沒有一個表明會停止支持剛收購的搜索引擎,但是“一旦你的技術提供商被另一家公司收購,你就會惴惴不安——如果你是另一家技術提供商,更是緊張不安,”Andrews說。
眼下,這使得Lucene Solr成為首屈一指的獨立企業搜索平臺。Lucid聲稱,Lucene Solr每月的下載量達到了200000份至300000份。
EMC正在借助Lucene Solr為其關系數據庫解決方案開發一款文本分析附件。EMC的研究主開發高級主管George Chitouras說:“如果你看一下企業搜索行業,就會發現大多數傳統廠商不是被收購,就是無人問津。在我看來,眼下發展勢頭最強勁、國家隊迅速趨于成熟的技術就是Lucene Solr的技術。”
盡管EMC還沒有把開源搜索功能搬入到其自己的企業,但是Chitouras表示,他發現這項技術在幾乎任何行業都有廣泛的應用。他說:“任何大公司都可用于信息檢索,無論它是在進行呼叫中心處理、客戶關系管理還是創新管理。”
開源方案
2011年年中,Lucid Imagination公司向企業用戶發布了LucidWorks,這款基于訂購模式的企業級軟件包得到了開源搜索專家們的支持。如今,100家企業客戶在使用該產品。Lucid在今年2月還發布了一個基于云計算、搜索即服務的版本。
Lucid首席執行官Paul Doscher認為,三種需求在促使眾多機構使用企業開源搜索產品。他說,首先,“人們想要使用高效的搜索技術來支撐自己的網站,但是他們又不想為高效搜索技術的基礎設施、管理和維護而操心。”LucidWorks連接至他們的網站,檢索數據,在搜索框中提供響應結果,“這種能力要比他們現有的功能高級得多,”Doscher補充說。
其次,大企業想要有一個沙箱(sandbox)來開發原型應用軟件,但又沒有相應的開發專長、基礎設施或硬件時,紛紛求助于開源搜索技術。
第三,如果公司企業試圖進一步挖掘目前擁有的數據的價值,可能會積極采用開源方案。Doscher表示,搜索即服務應用軟件可能會吸引這些用戶。與Salesforce.com提供的應用軟件相似的是,Lucid的云計算應用軟件也讓用戶可以搜索其軟件即服務(SaaS)應用軟件中的信息,然后更高效地搜索信息,或者將其與企業里面或外面網上的其他信息整合起來。Doscher說:“它可以作為應用開發平臺來使用,以便開發更豐富、更高效的信息應用軟件。”
Lucid的首席科學家Grant Ingersoll還認為開源搜索技術有一些混合用途。他說:“你可以在自己的數據中心內部提供自己的應用軟件,但是之后可以把過多的功能提供給云環境支持的應用軟件。”
Doscher表示,為了領先競爭對手,Lucid Imagination打算進軍商業智能和數據倉庫領域,并且能夠與大數據技術集成起來。他說:“在一些情況下,如果你把傳統的數據倉庫或商業智能這類應用軟件搭建到Hadoop軟件平臺上,這簡直好比拿來一只井蓋后,硬塞到花園澆水用的軟管里頭。”將開源搜索技術運用到這些方面,有望減輕海量數據以及索引和搜索功能不夠強大帶來的壓力。
Doscher說,將來,企業存儲的信息量“會多得嚇人”。開源搜索技術將有望應對信息泛濫這種情況。
Doscher說:“我認為,正如谷歌的搜索技術給互聯網帶來巨變那樣,像我們這樣的技術會給企業帶來巨變,因為有助于使企業里面的信息消費化。最終,你將來能夠在企業里面執行自然語言查詢,可以適用于企業運行的所有不同的數據庫、應用軟件和企業資源規劃(ERP)系統。這將讓人們可以針對感興趣的話題,立即獲得整合的、上下文相關的實時信息。”
原文: Open source search applications move toward the enterprise
【編輯推薦】





















