(電子商務(wù)研究中心訊) 【摘要】大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)朝著泛在網(wǎng)的方向發(fā)展,這催生了大搜索技術(shù)的誕生,同時(shí)大搜索也成為網(wǎng)絡(luò)發(fā)展的利器和催化劑。與傳統(tǒng)搜索相比,大搜索不僅能夠在語義級(jí)別上對(duì)用戶的搜索意圖進(jìn)行理解,還能根據(jù)用戶的時(shí)空位置、情緒狀態(tài)以及歷史偏好等信息來感知用戶的需求;不僅能去偽數(shù)據(jù),還能保障用戶的隱私;并且搜索解答實(shí)現(xiàn)了智慧化,可以為用戶求解給出智慧的答案。
目前,互聯(lián)網(wǎng)正結(jié)合物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)向著泛在網(wǎng)的方向發(fā)展。泛在網(wǎng)是指基于個(gè)人和社會(huì)的需求,利用現(xiàn)有的網(wǎng)絡(luò)技術(shù)和新的網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)人與人、人與物、物與物之間按需進(jìn)行的信息獲取、傳遞、存儲(chǔ)、認(rèn)知、決策、使用等服務(wù),網(wǎng)絡(luò)超強(qiáng)的環(huán)境感知、內(nèi)容感知及其智能性,可能為個(gè)人和社會(huì)提供泛在的、無所不含的信息服務(wù)和應(yīng)用。泛在網(wǎng)不僅承載信息,還把人和物連接在一起,新型應(yīng)用層出不窮,數(shù)據(jù)及數(shù)據(jù)形態(tài)利益豐富多樣,并且蘊(yùn)藏極大的價(jià)值,大搜索技術(shù)由此應(yīng)運(yùn)而生。
大數(shù)據(jù)時(shí)代數(shù)據(jù)的特點(diǎn)是:數(shù)據(jù)量大,數(shù)據(jù)產(chǎn)生的速度快、類型多樣,數(shù)據(jù)不可信,最重要的是具有潛在價(jià)值。我們需要應(yīng)對(duì)、需要解決的問題就是在大數(shù)據(jù)中發(fā)掘價(jià)值。比如:哪個(gè)企業(yè)的產(chǎn)值最高?這就涉及到統(tǒng)計(jì)的問題。近期會(huì)出現(xiàn)什么熱點(diǎn)?這涉及到聚類的問題。事件的起因,這就涉及關(guān)聯(lián)計(jì)算?,F(xiàn)在有很多大數(shù)據(jù)價(jià)值發(fā)掘的案例。比如:亞馬遜通過營銷推薦系統(tǒng),可以精準(zhǔn)對(duì)接客戶需求,把很多產(chǎn)品提前預(yù)銷售。中國移動(dòng)的客戶投訴識(shí)別系統(tǒng),每年可以節(jié)約成本540萬元。谷歌使用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)更加精準(zhǔn)的廣告投放,獲得80億美元的收入。
我們團(tuán)隊(duì)開發(fā)的應(yīng)急系統(tǒng)可以通過公開的語境信息、公開的微博信息去挖掘并為用戶提供一些公開的能力,大家可以利用這個(gè)能力去發(fā)現(xiàn)他所感興趣的領(lǐng)域中的一些重要事件。比如:判斷某個(gè)自己感興趣的事件的傳播情況,大家對(duì)該事件所持的態(tài)度以及事件在什么地域傳播,等等。
一、網(wǎng)絡(luò)搜索引擎的種類
從搜索引擎角度來思考,目前網(wǎng)絡(luò)空間中我們都能搜到的信息多種多樣,最簡單的就是文字搜索和兒童搜索。兒童搜索的特點(diǎn)是:你要是輸入臟話,它會(huì)告訴你,沒有這個(gè)詞。文字搜索種類很多,比如:視頻搜索,在視頻庫里搜索你所關(guān)心的視頻;新聞搜索,它的背后是大量的新聞網(wǎng)站;微博搜索,了解其他人所關(guān)注的內(nèi)容;文檔搜索,搜索自己關(guān)心的領(lǐng)域及相關(guān)研究內(nèi)容;學(xué)術(shù)搜索,可以搜索到很多資料,包括研究成果;人物搜索,輸入“奧巴馬”,就可以搜索到他的一些公開信息;企業(yè)信息搜索,比如輸入“天眼查”,它可以告訴你這個(gè)公司的法人代表是誰、有哪些下設(shè)機(jī)構(gòu);房地產(chǎn)搜索,輸入“房天下”,它會(huì)告訴你附近的房價(jià);購物搜索,使用“一淘”搜索引擎,可以隨時(shí)查詢自己關(guān)注的產(chǎn)品價(jià)格;商品信息檢索,拿起手機(jī)拍下商品的二維碼,就可以知道這個(gè)商品在哪個(gè)超市多少錢,哪里最便宜;物流搜索,可以隨時(shí)查詢自己購買的物品現(xiàn)在在哪、何時(shí)能到;生活搜索,輸入“北京小吃”,會(huì)告訴你北京哪里有有特色的著名的小吃;旅游搜索,在去哪兒搜索引擎輸入“我要在北京旅游三天”,它會(huì)告訴你有哪些最適合你的旅游套餐;職位搜索,它會(huì)告訴你哪個(gè)企業(yè)需要什么樣的人才,滿足你個(gè)性化的需求;農(nóng)業(yè)搜索,會(huì)告訴你不同的作物不同的季節(jié)應(yīng)該打什么樣的農(nóng)藥,怎么使用,等等。
此外,還有其他種類的搜索。比如:我們團(tuán)隊(duì)開發(fā)的聯(lián)網(wǎng)設(shè)備搜索,目前已經(jīng)搜到了3億多個(gè)聯(lián)網(wǎng)設(shè)備,還發(fā)現(xiàn)了170多萬個(gè)設(shè)備有漏洞,可以任意闖進(jìn)去;移動(dòng)設(shè)備檢索,如360智能手環(huán),可以定位佩戴手環(huán)的兒童的具體位置。這些應(yīng)用本質(zhì)上我們叫做存在性搜索。它是把存在的符合用戶需求的東西提供給用戶,重點(diǎn)是如何給出最符合用戶需求的信息。比如搜索“第四次工業(yè)革命”,它可能有幾萬個(gè)結(jié)果,哪個(gè)結(jié)果放在最前面這是它所要關(guān)心的。所有這些我們都叫存在性搜索。
本質(zhì)上來說,這些都是能感知到你所需要的服務(wù),并有針對(duì)性地提供服務(wù)。我上面舉的例子叫服務(wù)搜索,以“盡力而為”為原則,通過匯集大量“服務(wù)”的方式,在用戶提出搜索需求時(shí),首先判斷這個(gè)需求是否和系統(tǒng)服務(wù)庫之中的某個(gè)服務(wù)對(duì)應(yīng),如果能對(duì)應(yīng),就為用戶啟動(dòng)相應(yīng)的服務(wù)。簡單說,就是根據(jù)你的關(guān)鍵詞判斷你可能需要這個(gè)服務(wù),如果沒有這個(gè)服務(wù),就提供與這個(gè)服務(wù)相關(guān)的信息。再比如:學(xué)術(shù)搜索,輸入“北京郵電大學(xué)”,會(huì)告訴你北京郵電大學(xué)的相關(guān)知識(shí)點(diǎn)、具體機(jī)構(gòu)、相關(guān)人員還有圖書的曲線、發(fā)表刊物的曲線,等等,具有強(qiáng)大的智能性,會(huì)幫你分析這個(gè)學(xué)校的整個(gè)學(xué)術(shù)情況。企業(yè)信用搜索,輸入相關(guān)企業(yè)名稱,會(huì)得到它的打分情況、信用等級(jí),還會(huì)介紹其高管和核心企業(yè)對(duì)外進(jìn)行了哪些投資等等。論文查重搜索,輸入一個(gè)文檔名,了解這個(gè)文檔在網(wǎng)上是不是和其他文章有重復(fù)、重復(fù)率多少,是否有抄襲情況等。
二、大搜索的要素及其特性
網(wǎng)絡(luò)空間、大數(shù)據(jù)等新技術(shù)的發(fā)展,促進(jìn)搜索引擎技術(shù)不斷進(jìn)步,也促進(jìn)用戶形成了新的搜索需求,用戶將不再滿足于僅在互聯(lián)網(wǎng)空間搜索存在性信息,而是希望搜集到涉及信息、時(shí)間、位置三維空間的包含有人、物體、信息在內(nèi)的解決方案。從互聯(lián)網(wǎng)到物聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng),再到泛在網(wǎng),我們要搜索答案,而不是搜索信息,而且這個(gè)答案要涉及到時(shí)間和空間。
(一)大搜索的要素
下一代搜索就是從大數(shù)據(jù)到價(jià)值發(fā)掘,再到知識(shí)發(fā)現(xiàn)服務(wù),稱之為大搜索。比如地圖搜索導(dǎo)航信息,這本身就是知識(shí)搜索,它要給你做路徑規(guī)劃。但是現(xiàn)在導(dǎo)航要結(jié)合物聯(lián)網(wǎng)信息,這樣它就知道每條路的交通流量,通過交通流量給出最快的一條路徑,而這個(gè)“到達(dá)最快”不僅僅取決于距離,還包含交通擁堵情況等。這就相當(dāng)于搜索引擎基于知識(shí)處理之外,還有更多的信息融合。
大搜索,是指面向泛在網(wǎng)絡(luò)空間的人、物體和內(nèi)容,在正確理解用戶意圖的基礎(chǔ)上,基于從網(wǎng)絡(luò)空間大數(shù)據(jù)獲取的知識(shí),從信息、時(shí)間、位置的角度給出滿足用戶需求的智慧解答。我們有各種各樣的信息源,最后要得出的是一個(gè)智能發(fā)掘,而這個(gè)智能發(fā)掘就是從大數(shù)據(jù)的源頭通過大搜索獲得網(wǎng)絡(luò)的智慧。
這樣做要依靠四個(gè)因素:第一是網(wǎng)絡(luò)空間。第二是正確的理解,理解就涉及到要有感知,要能判斷真實(shí)的需求是什么。第三是知識(shí)庫的構(gòu)建,如果我們?cè)O(shè)計(jì)的是一個(gè)專家系統(tǒng),兩個(gè)小時(shí)可以給出答案,這個(gè)大家都能接受。但如果設(shè)計(jì)的是一個(gè)搜索引擎,怎么可能等兩小時(shí)?大家可能兩分鐘都等不了。大數(shù)據(jù)也是一樣,可能對(duì)用戶這一次問的問題沒有提供滿意的答案,因?yàn)閿?shù)據(jù)庫還沒有為這個(gè)問題做過知識(shí)框架,但可以把它記錄下來,以后圍繞它搜集所有相關(guān)答案,等下次有人再問這個(gè)問題的時(shí)候,就可以馬上提供答案。最后,當(dāng)用戶提出問題的時(shí)候,搜索引擎不能給出存在性的信息,而是要對(duì)相關(guān)答案進(jìn)行重新組織,重新加工,從而給出最正確的答案。這些要素都具備了以后,搜索就會(huì)很強(qiáng)大,它可能把個(gè)人的隱私也挖掘出來了,所以就需要一道安全門,這個(gè)安全門就是隱私保護(hù),涉及到隱私了,這個(gè)東西就不能往外提供。
(二)大搜索的特性
大數(shù)據(jù)有5V特性:Volume(大體量)、Variety(多樣性)、Velocity(時(shí)效性)、Veracity(準(zhǔn)確性)、Value(大價(jià)值);而大搜索有5S特性,首先是信息泛網(wǎng)獲取(Sourcing);第二是感知人們的意圖(Sensing);第三是多源綜合(Synthesizing);第四是安全可信(Secure);第五是智慧解答(Solution)。
泛網(wǎng)獲取,網(wǎng)絡(luò)空間泛在化,支持定向信息的獲取。傳統(tǒng)搜索只是從網(wǎng)頁上抓取互聯(lián)網(wǎng)數(shù)據(jù)。為了提供答案,現(xiàn)在是十萬個(gè)為什么,將來可能是十億個(gè)為什么,大搜索圍繞的是為什么獲取信息以及沒有這個(gè)為什么就不去獲取了。
1.用戶感知、意圖理解精確化,基于場景感知的意圖理解。傳統(tǒng)搜索只是關(guān)心所提交的查詢?cè)~,大搜索關(guān)心的是不僅能夠在語意級(jí)別上對(duì)用戶的搜索意圖進(jìn)行理解,還能根據(jù)用戶的時(shí)空位置、情緒狀態(tài)以及歷史偏好等信息來感知用戶的需求。比如輸入一家公司名“曼豪中國”,就會(huì)把曼豪中國的組成、業(yè)績、相關(guān)人員都提供出來,如果發(fā)現(xiàn)曼豪中國背后有關(guān)聯(lián)的創(chuàng)新論壇,也會(huì)推送與創(chuàng)新論壇相關(guān)的內(nèi)容。只有具有用戶感知功能才能解決這個(gè)問題。
2.多源綜合,信息關(guān)聯(lián)知識(shí)化,構(gòu)建搜索對(duì)象空間。傳統(tǒng)搜索只是根據(jù)網(wǎng)頁級(jí)別(PageRank)給出最相關(guān)的結(jié)果。大搜索要把所有的東西聯(lián)系起來,看看它們之間有什么關(guān)聯(lián)。
3.安全可信,傳統(tǒng)的安全可信只是簡單的信息過濾措施,大搜索能去偽數(shù)據(jù),還能保障用戶的隱私。
4.解決方案,搜索解答智慧化,為用戶求解提供智慧的答案。
搜查搜索的內(nèi)容分為三種:信息搜索、物體搜索和人物搜索,搜索的問題從傳統(tǒng)的信息搜索擴(kuò)張到信息、人物和物體。網(wǎng)絡(luò)空間大搜索就是根據(jù)一定的策略和方法,通過互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電信網(wǎng)等實(shí)時(shí)、快速、精準(zhǔn)地獲取各種物理實(shí)體、人物、信息,及其時(shí)間與位置的屬性,具備洞察理解用戶搜索意圖的智能。
歷史經(jīng)驗(yàn)告訴我們,如果沒有互聯(lián)網(wǎng)搜索引擎,就沒有今天互聯(lián)網(wǎng)的發(fā)展,如果沒有大搜索引擎,泛在網(wǎng)肯定發(fā)展不快,走不下去。媒體在今后的發(fā)展創(chuàng)新中應(yīng)關(guān)注泛在網(wǎng),面向泛在網(wǎng),在大數(shù)據(jù)中發(fā)掘滿足用戶意圖的智慧解答,因?yàn)樗鼘⒊蔀橄乱淮W(wǎng)絡(luò)發(fā)展的利器和催化劑?。▉碓矗骸吨袊鴱V播》;文/中國工程院院士、中國網(wǎng)絡(luò)空間安全協(xié)會(huì)理事長 方濱興;編選:網(wǎng)經(jīng)社)