中國(guó)第一(yī / yì /yí)批搜索引擎往事丨CERNET30周年

來(lái)源:中國(guó)教育和(hé / huò)科研計算機網 時(shí)間:2024-10-14

  三大(dà)搜索引擎成功實現了(le/liǎo)他(tā)們的(de)初衷——研究關鍵應用,積累搜索引擎技術,并在(zài)此基礎上(shàng)培養了(le/liǎo)大(dà)批互聯網人(rén)才,他(tā)們走出(chū)實驗室,成爲(wéi / wèi)了(le/liǎo)中國(guó)互聯網發展的(de)重要(yào / yāo)力量。

  1991年,蒂姆·伯納斯·李發明的(de)WWW席卷了(le/liǎo)全球,規模每年翻一(yī / yì /yí)番的(de)互聯網開始每三個(gè)月翻一(yī / yì /yí)番。

  但總的(de)來(lái)說(shuō),全球互聯網還是(shì)一(yī / yì /yí)片待開墾的(de)土地(dì / de):人(rén)們找不(bù)着北,不(bù)知道(dào)去哪裏尋找自己想要(yào / yāo)的(de)内容。雖然互聯網将計算機連接了(le/liǎo)起來(lái),卻沒有把人(rén)和(hé / huò)互聯網連起來(lái)。在(zài)沒有搜索引擎的(de)日子(zǐ)裏,人(rén)們隻能按圖索骥,點開一(yī / yì /yí)個(gè)又一(yī / yì /yí)個(gè)網站,逐個(gè)尋找自己需要(yào / yāo)的(de)信息。

  1994年,美國(guó)斯坦福大(dà)學的(de)研究生楊志遠(Jerry Yang)和(hé / huò)大(dà)衛·費羅(David Filo)用人(rén)工分類目錄的(de)方式制作了(le/liǎo)一(yī / yì /yí)個(gè)網站指南,這(zhè)是(shì)由許多網站的(de)鏈接組成的(de)列表,取名爲(wéi / wèi)Yahoo。Yahoo一(yī / yì /yí)經推出(chū)就(jiù)吸引了(le/liǎo)一(yī / yì /yí)大(dà)批需求者。

  但這(zhè)種“喂到(dào)嘴邊”的(de)目錄分類列表沒能真正滿足用戶的(de)核心需求——讓信息蹦到(dào)眼前。

  搜索,作爲(wéi / wèi)互聯網最基本的(de)信息服務,仍然沒有出(chū)現最優解,也(yě)因此成爲(wéi / wèi)全球互聯網研究人(rén)員傾注熱情的(de)課題。

  CERNET三大(dà)搜索引擎啓航

  1995年,全球互聯網的(de)用戶數量達到(dào)了(le/liǎo)1600萬。随後的(de)幾年裏,風險投資家們忙得不(bù)可開交。《華爾街日報》說(shuō),幾乎每隔15秒就(jiù)有一(yī / yì /yí)家以(yǐ)“.com”命名的(de)新公司上(shàng)市,互聯網走向了(le/liǎo)商業化。

  在(zài)網絡經濟破繭而(ér)出(chū)的(de)前夕,中國(guó)全功能接入了(le/liǎo)國(guó)際互聯網。1994年4月20日,通過美國(guó)Sprint公司的(de)64K專線,中關村地(dì / de)區教育與科研示範網絡NCFC接入國(guó)際互聯網。也(yě)在(zài)這(zhè)一(yī / yì /yí)年,中國(guó)第一(yī / yì /yí)個(gè)覆蓋全國(guó)的(de)互聯網主幹網——中國(guó)教育和(hé / huò)科研計算機網CERNET誕生了(le/liǎo)。

  從接入國(guó)際互聯網那一(yī / yì /yí)刻開始,中國(guó)就(jiù)用互聯網連接并奮力追趕着世界。

  1996年,“九五”攻關啓動,旨在(zài)集中力量攻克産業升級和(hé / huò)社會持續發展亟需解決的(de)關鍵技術和(hé / huò)共性技術。信息技術是(shì)其中一(yī / yì /yí)個(gè)重點領域。CERNET領到(dào)的(de)任務是(shì)“計算機信息網絡及其應用關鍵技術研究”,即基于(yú)建成的(de)CERNET示範工程,對計算機信息網絡及其應用關鍵技術展開研究。

  也(yě)就(jiù)是(shì)說(shuō),一(yī / yì /yí)是(shì)要(yào / yāo)研究互聯網關鍵核心技術,二是(shì)要(yào / yāo)開展互聯網關鍵應用,從而(ér)構建一(yī / yì /yí)個(gè)完整的(de)國(guó)内互聯網生态系統。項目提出(chū)了(le/liǎo)六大(dà)重要(yào / yāo)任務:網絡管理與運行技術、網絡及信息安全技術、網絡互連和(hé / huò)路由技術、網絡設計和(hé / huò)測試技術、網絡信息發現技術、典型網絡應用技術。而(ér)搜索引擎既屬于(yú)網絡信息發現技術,又屬于(yú)非常關鍵的(de)互聯網應用。

  今天回過頭看,“九五”攻關的(de)項目立項得非常及時(shí),極具戰略眼光,富有遠見地(dì / de)抓住了(le/liǎo)互聯網發展的(de)根本關鍵問題。

  搜索引擎研究課題采用的(de)方式也(yě)非常有趣,并不(bù)是(shì)由一(yī / yì /yí)家單位來(lái)完成,而(ér)是(shì)選擇了(le/liǎo)三所高校來(lái)實施——清華大(dà)學、北京大(dà)學和(hé / huò)華南理工大(dà)學。由此,在(zài)三所高校的(de)網絡實驗室裏,開啓了(le/liǎo)中國(guó)最早的(de)搜索引擎技術研究。

  清華大(dà)學網絡指南針

501

網絡指南針搜索引擎主頁

  清華大(dà)學網絡指南針搜索引擎的(de)研發由清華大(dà)學教授、CERNET網絡中心副主任李星主持。

  網絡指南針(Net Compass)的(de)名字就(jiù)是(shì)李星取的(de)。早前,他(tā)從清華大(dà)學電子(zǐ)工程系本科畢業後赴美留學,1991年留學歸來(lái)後,他(tā)很不(bù)适應沒有網絡的(de)生活,于(yú)是(shì)四處呼籲建設中國(guó)的(de)互聯網。1994年,CERNET示範工程啓動,李星就(jiù)被吸收進入了(le/liǎo)項目,所以(yǐ)他(tā)總說(shuō)自己是(shì)“票友下海”。

  1996年,李星帶領他(tā)的(de)學生們張俐、楊文峰、解沖鋒、李粵、許靜芳和(hé / huò)崔偉東等開始了(le/liǎo)對搜索技術的(de)探索。

  網絡指南針主要(yào / yāo)研究中文搜索引擎的(de)技術實現。比起英文的(de)字詞搜索,中文更難。因爲(wéi / wèi)英文的(de)字與字之(zhī)間有空格,能很自然地(dì / de)切分詞彙,而(ér)中文不(bù)是(shì)。因此,團隊面臨的(de)第一(yī / yì /yí)個(gè)關鍵問題就(jiù)是(shì):如何切分中文的(de)關鍵詞來(lái)進行搜索?字與字之(zhī)間應該如何切詞?如果基于(yú)一(yī / yì /yí)個(gè)一(yī / yì /yí)個(gè)字來(lái)切,計算量巨大(dà);如果基于(yú)詞來(lái)切,那麽沒有實質含義的(de)詞組要(yào / yāo)不(bù)要(yào / yāo)切?

  在(zài)充分考慮了(le/liǎo)中國(guó)文化背景和(hé / huò)漢語的(de)使用習慣後,網絡指南針對切詞的(de)方式進行了(le/liǎo)調整。像《紅樓夢》裏的(de)語句:“雨村領其意,作别至館中,忙尋邸報看真确了(le/liǎo)。”“邸報看真”這(zhè)樣的(de)詞條,雖不(bù)是(shì)成語,也(yě)不(bù)是(shì)常用詞,但能在(zài)指南針上(shàng)搜出(chū)鏈接。

  除了(le/liǎo)提供網站列表之(zhī)外,網絡指南針還提供了(le/liǎo)一(yī / yì /yí)些關于(yú)鏈接的(de)模糊信息,由一(yī / yì /yí)個(gè)詞可以(yǐ)衍伸至另一(yī / yì /yí)個(gè)相關的(de)詞。

  這(zhè)種做法一(yī / yì /yí)是(shì)給用戶提供了(le/liǎo)更多選擇,二是(shì)提升了(le/liǎo)用戶搜索體驗的(de)趣味感。當用戶注意到(dào)一(yī / yì /yí)個(gè)突出(chū)顯示的(de)文字或短語時(shí),就(jiù)會進行點擊以(yǐ)了(le/liǎo)解更多信息,鏈接就(jiù)将他(tā)們帶到(dào)另一(yī / yì /yí)個(gè)頁面。比如搜索“cisco”,就(jiù)會自動出(chū)現“路由器”的(de)鏈接,用戶就(jiù)能順藤摸瓜浏覽其他(tā)網頁。

  1997年10月,網絡指南針開始向用戶提供中英文信息查詢服務,它收錄有20多萬網頁,收集了(le/liǎo)CERNET、ChinaNet、中國(guó)科技網和(hé / huò)中國(guó)金橋網等信息資源。1998年7月《軟件世界》雜志上(shàng)刊登的(de)一(yī / yì /yí)篇名爲(wéi / wèi)《中文搜索網站介紹與比較》的(de)文章評論說(shuō):“網絡指南針的(de)特色在(zài)于(yú)查詢方法的(de)多種多樣。其系統穩定性、查找速度均爲(wéi / wèi)中上(shàng)之(zhī)選。”

  從1999年12月到(dào)2000年8月,有10萬多名用戶對指南針進行了(le/liǎo)80多萬次的(de)查詢,指南針成爲(wéi / wèi)教科網内知名的(de)搜索引擎。

  “還是(shì)有遺憾的(de),”李星談起網絡指南針時(shí)表示,“第一(yī / yì /yí)個(gè)遺憾是(shì)依賴于(yú)集中式的(de)技術,未能像谷歌那樣發明Map-Reduce技術,從而(ér)走到(dào)分布式。第二個(gè)遺憾是(shì)缺乏相應的(de)機制,将網絡指南針商業化。”

  對于(yú)前者,網絡指南針當時(shí)的(de)體系結構是(shì)集中式,随着Web的(de)發展,對于(yú)搜索引擎的(de)可擴展性提出(chū)了(le/liǎo)挑戰。在(zài)互聯網發展初期信息量還沒有那麽大(dà)的(de)時(shí)候,集中式的(de)技術确實可以(yǐ)滿足用戶的(de)需求,而(ér)當互聯網飛速發展以(yǐ)後,這(zhè)種模式就(jiù)逐漸跟不(bù)上(shàng)急速擴張的(de)互聯網資源了(le/liǎo)。對于(yú)後者而(ér)言,商業化涉及時(shí)代理念和(hé / huò)環境,更是(shì)難。

  對于(yú)搜索引擎而(ér)言,1998年是(shì)具有劃時(shí)代意義的(de)一(yī / yì /yí)年。這(zhè)年,斯坦福大(dà)學的(de)博士生拉裏·佩奇(Lawrence Edward Page)由科研文獻被引用率與其價值成正比想到(dào),網頁鏈接也(yě)如此——不(bù)是(shì)所有鏈接都平等,一(yī / yì /yí)個(gè)鏈接被連接得越多,它就(jiù)越重要(yào / yāo)。在(zài)此基礎上(shàng),拉裏·佩奇和(hé / huò)謝爾蓋·布林(Sergey Brin)發明了(le/liǎo)Page Rank(佩奇排名)算法。正是(shì)這(zhè)個(gè)基于(yú)網頁鏈接分析的(de)算法,使得搜索技術具有了(le/liǎo)和(hé / huò)以(yǐ)往完全不(bù)同的(de)使用效果,Google一(yī / yì /yí)舉成名。

  幾年後,Google發明了(le/liǎo)面向大(dà)規模數據處理的(de)并行計算模型和(hé / huò)方法——Map-Reduce技術,并将其廣泛應用于(yú)大(dà)規模的(de)數據處理。技術上(shàng)的(de)不(bù)斷開拓,伴以(yǐ)成熟的(de)風險投資機制,Google飛速壯大(dà)。

  然而(ér),對于(yú)改革開放才20多個(gè)年頭、商業環境不(bù)夠成熟、還在(zài)迷霧中摸索互聯網技術的(de)中國(guó),一(yī / yì /yí)切都是(shì)Hard模式。和(hé / huò)其他(tā)一(yī / yì /yí)些90年代的(de)搜索引擎一(yī / yì /yí)樣,在(zài)缺乏商業化機制的(de)情況下,網絡指南針沒能走到(dào)最後。二十世紀末的(de)最後幾年,國(guó)内上(shàng)網用戶的(de)規模還很小,搜索引擎商業化的(de)前景并不(bù)被看好。雖然在(zài)今天,在(zài)線廣告是(shì)互聯網最主流的(de)變現模式,但在(zài)90年代,在(zài)報刊上(shàng)登一(yī / yì /yí)次廣告的(de)反饋率,比在(zài)網上(shàng)登兩個(gè)月廣告的(de)反饋率還要(yào / yāo)多一(yī / yì /yí)倍。

  網絡指南針(Net Compass)的(de)名字還引發了(le/liǎo)一(yī / yì /yí)段小插曲。2024年,在(zài)中國(guó)互聯網協會舉辦的(de)“中國(guó)互聯網30年紀念”座談上(shàng),搜狐的(de)張朝陽回憶起1998年創立網站前夕,他(tā)靈光一(yī / yì /yí)閃,想出(chū)一(yī / yì /yí)個(gè)非常滿意的(de)名字——指南針。他(tā)回到(dào)清華計算機系,興奮地(dì / de)和(hé / huò)吳建平老師聊,吳建平說(shuō),清華的(de)搜索引擎就(jiù)叫指南針,還申請了(le/liǎo)域名。于(yú)是(shì)張朝陽把他(tā)的(de)網站名改成了(le/liǎo)搜狐。“遺憾的(de)是(shì),後來(lái)我們的(de)域名沒有連續交費,現在(zài)已經不(bù)在(zài)了(le/liǎo),要(yào / yāo)是(shì)留着也(yě)挺好的(de)。”李星回憶道(dào)。

  北大(dà)天網搜索引擎

502

天網搜索引擎主頁

  Google創立後的(de)第二年,北京大(dà)學信息管理學院畢業的(de)李彥宏結束了(le/liǎo)在(zài)美國(guó)的(de)職業生涯,回國(guó)創業,劍指搜索引擎。他(tā)的(de)首要(yào / yāo)任務是(shì)招兵買馬,傳說(shuō)中“百度七劍客”中的(de)兩位——劉建國(guó)和(hé / huò)雷鳴——就(jiù)來(lái)自北大(dà)天網搜索引擎。

  天網搜索引擎取意“天網恢恢,疏而(ér)不(bù)漏”,用在(zài)信息搜索上(shàng)十分貼切。

  1996年,北京大(dà)學網絡實驗室陳葆珏教授帶着劉建國(guó)、周利民和(hé / huò)雷鳴等人(rén)開始了(le/liǎo)對天網搜索的(de)研發。劉建國(guó)是(shì)北大(dà)教師,其他(tā)人(rén)都是(shì)研究生。

  團隊認爲(wéi / wèi),搜索引擎是(shì)系統層面的(de)新事物。它本質上(shàng)是(shì)一(yī / yì /yí)種信息服務,核心問題有兩個(gè):如何返回用戶想要(yào / yāo)的(de)信息,如何讓用戶快速訪問。也(yě)就(jiù)是(shì)一(yī / yì /yí)要(yào / yāo)準,二要(yào / yāo)快。要(yào / yāo)從幾千萬甚至上(shàng)億個(gè)網頁中找出(chū)信息并在(zài)1秒内返回,難如大(dà)海撈針,而(ér)團隊成功實現了(le/liǎo)從零到(dào)一(yī / yì /yí)的(de)突破,并取得了(le/liǎo)階段性的(de)成果。

  1997年10月29日,北大(dà)天網開始在(zài)CERNET上(shàng)向用戶提供服務。到(dào)了(le/liǎo)1998年9月,訪問者已經超過了(le/liǎo)10萬。1999年《中國(guó)信息導報》發布了(le/liǎo)一(yī / yì /yí)篇名爲(wéi / wèi)《中文搜索引擎發展的(de)現狀、問題及對策》的(de)文章,對天網搜索引擎做出(chū)了(le/liǎo)如下評價:“北京大(dà)學‘天網’的(de)關鍵詞查詢方式有簡單查詢和(hé / huò)複雜查詢,查詢界面友好且功能性較強,相比而(ér)言,查準率較高,因而(ér)深受廣大(dà)網上(shàng)用戶的(de)青睐。”

  其實,劉建國(guó)很早就(jiù)開始思考如何讓搜索引擎在(zài)巨大(dà)的(de)市場競争中逆流而(ér)上(shàng)。在(zài)1998年的(de)一(yī / yì /yí)次采訪中,他(tā)提到(dào),就(jiù)像以(yǐ)前的(de)操作系統、字處理軟件最後被許多國(guó)外軟件占了(le/liǎo)上(shàng)風一(yī / yì /yí)樣,搜索引擎也(yě)面臨同樣的(de)問題。技術的(de)深入、資本的(de)投入和(hé / huò)商業化可能才是(shì)做大(dà)做強的(de)必經之(zhī)路。

  1999年對于(yú)天網搜索而(ér)言是(shì)很特别的(de)一(yī / yì /yí)年。那一(yī / yì /yí)年,李彥宏回國(guó)創業。回來(lái)前夕,他(tā)按照天網上(shàng)的(de)Email地(dì / de)址給劉建國(guó)發了(le/liǎo)一(yī / yì /yí)封郵件,邀請劉建國(guó)一(yī / yì /yí)起在(zài)中國(guó)開發一(yī / yì /yí)款搜索引擎。幾經思索後,劉建國(guó)辭掉了(le/liǎo)北大(dà)教師的(de)職務,成爲(wéi / wèi)百度的(de)第一(yī / yì /yí)名員工,負責技術研發。在(zài)劉建國(guó)的(de)推薦下,北大(dà)天網的(de)其他(tā)主力開發人(rén)員周利民、雷鳴也(yě)加入了(le/liǎo)百度。

  同年,陳葆珏教授退休,李曉明接任了(le/liǎo)北大(dà)天網研發負責人(rén)的(de)職位。“在(zài)天網搜索引擎發展的(de)第一(yī / yì /yí)階段,陳葆珏老師給我們打了(le/liǎo)一(yī / yì /yí)個(gè)很好的(de)底子(zǐ)。從2000年開始,我們成立了(le/liǎo)新課題組,進入了(le/liǎo)北大(dà)天網第二階段的(de)發展。新課題組的(de)主要(yào / yāo)成員有王建勇、闫宏飛、彭波、謝欣和(hé / huò)陳華等人(rén)。”李曉明說(shuō)。

  彼時(shí),互聯網上(shàng)的(de)網頁數量已達千萬級,闫宏飛和(hé / huò)彭波開發了(le/liǎo)一(yī / yì /yí)套技術,以(yǐ)實現系統的(de)并行化。陳華從雷鳴手裏接下了(le/liǎo)當時(shí)并不(bù)受重視的(de)FTP搜索任務,他(tā)還真做了(le/liǎo)出(chū)來(lái),2002年,北大(dà)天網FTP搜索成爲(wéi / wèi)國(guó)内最著名的(de)FTP搜索。北大(dà)網絡實驗室還運用了(le/liǎo)Google的(de)新技術提升了(le/liǎo)系統的(de)能力,推出(chū)了(le/liǎo)天網Maze。

  之(zhī)後,北大(dà)天網迎來(lái)了(le/liǎo)它的(de)第三個(gè)發展階段:留存中國(guó)互聯網的(de)記憶。互聯網上(shàng)信息紛繁龐雜,在(zài)缺乏維護的(de)情況下,大(dà)多數網頁隻是(shì)“縣花一(yī / yì /yí)現”,随着時(shí)間的(de)流逝而(ér)湮滅。2002年,北大(dà)網絡實驗室開發建設了(le/liǎo)“中國(guó)Web信息博物館”,到(dào)2015年,博物館收藏了(le/liǎo)70多億網頁文本數據,容量超200TB。2016年,實驗室将其捐贈給了(le/liǎo)中國(guó)計算機學會,向公衆開放。

  這(zhè)一(yī / yì /yí)項目的(de)意義最近越來(lái)越得到(dào)凸顯:2024年,一(yī / yì /yí)篇名爲(wéi / wèi)《中文互聯網正在(zài)加速崩塌》的(de)文章在(zài)網上(shàng)流傳,文章指出(chū),中文互聯網上(shàng)的(de)許多曆史信息崩塌式消失,就(jiù)像曆史中斷掉的(de)鏈條一(yī / yì /yí)般。這(zhè)篇文章讓許多人(rén)開始關注北大(dà)的(de)Web信息博物館。這(zhè)一(yī / yì /yí)項目的(de)意義還不(bù)止于(yú)此——伴随着近兩年生成式人(rén)工智能的(de)發展,Web信息博物館裏收集的(de)近20年的(de)數據成爲(wéi / wèi)了(le/liǎo)各大(dà)科研機構訓練大(dà)模型的(de)寶貴語料,已經被30多家機構采用。當然,這(zhè)是(shì)後話了(le/liǎo)。

  華南理工木棉搜索引擎

503

木棉搜索引擎主頁

  每年秋天,木棉花盛開時(shí),華南理工大(dà)學的(de)校園中好似有無數歡快的(de)火苗在(zài)跳躍,滿樹粉黛亦如雲如霞,而(ér)木棉搜索引擎這(zhè)一(yī / yì /yí)美好的(de)名字就(jiù)由此而(ér)來(lái)。

  1996年,木棉搜索引擎的(de)研發在(zài)華南理工大(dà)學信息網絡工程研究中心正式啓動。網絡實驗室的(de)負責人(rén)是(shì)華南理工大(dà)學教授張淩,他(tā)同時(shí)也(yě)是(shì)CERNET專家委員會的(de)副主任。那年,他(tā)和(hé / huò)實驗室的(de)董守斌教授一(yī / yì /yí)起帶着學生們研發木棉檢索。

  1998年12月,木棉正式向互聯網用戶提供服務,支持Web檢索、FTP檢索和(hé / huò)信息采編。主要(yào / yāo)提供兩類信息檢索服務,一(yī / yì /yí)是(shì)面向學校、大(dà)型企業的(de)企業級搜索引擎,如華南理工大(dà)學校内搜索、廣州科技網檢索系統等。二是(shì)面向教育網資源的(de)全網專題檢索,這(zhè)一(yī / yì /yí)系統面向中國(guó)教育和(hé / huò)科研計算機網CERNET,整合了(le/liǎo)全國(guó)各類教育資源,爲(wéi / wèi)教育網用戶提供良好的(de)信息檢索平台。

  木棉檢索團隊在(zài)技術上(shàng)做了(le/liǎo)很多探索。他(tā)們與清華大(dà)學聯合承擔國(guó)際聯網安全研究項目——“信息自動查詢與識别技術”,通過網絡信息抓取并實現敏感詞彙的(de)過濾,這(zhè)也(yě)是(shì)第一(yī / yì /yí)代帶關鍵詞過濾的(de)爬蟲系統。

  他(tā)們還與Sun公司合作,建立了(le/liǎo)大(dà)陸第一(yī / yì /yí)個(gè)大(dà)型FTP開源文件下載中心(SunSite),并重點攻關FTP檢索,收集了(le/liǎo)百萬條FTP文件信息,支持對文件名、文件目錄和(hé / huò)文件URL的(de)模糊查詢和(hé / huò)文件屬性的(de)結構查詢,對大(dà)批量數據有較快的(de)響應時(shí)間,是(shì)當時(shí)國(guó)内信息量較大(dà)和(hé / huò)服務功能較完善的(de)FTP檢索。

  進入二十一(yī / yì /yí)世紀後,互聯網技術得以(yǐ)快速發展。木棉搜索引擎也(yě)經曆了(le/liǎo)許多發展變化,其系統由集中式搜索改爲(wéi / wèi)分布式搜索,這(zhè)是(shì)一(yī / yì /yí)個(gè)很大(dà)的(de)調整。同時(shí),盡可能選擇搜索領域的(de)開源系統——如早期出(chū)現的(de)Lucene——進行二次開發。

  2002年,北京大(dà)學主辦了(le/liǎo)第一(yī / yì /yí)屆全國(guó)搜索引擎和(hé / huò)網上(shàng)信息挖掘學術(SEWM)研讨會。華南理工大(dà)學、清華大(dà)學緊随後,主辦了(le/liǎo)第二屆和(hé / huò)第三屆研讨會。該會議當時(shí)是(shì)搜索引擎領域的(de)旗艦會議,其主要(yào / yāo)特色是(shì)舉辦中文搜索引擎競賽測評。木棉搜索團隊多次在(zài)該會組織的(de)測評中名列前茅。會議後改名爲(wéi / wèi)全國(guó)信息檢索學術會議(CCIR),舉辦至今年,剛好是(shì)第三十屆。

  2005年,董守斌和(hé / huò)一(yī / yì /yí)起參與項目的(de)袁華開設了(le/liǎo)“網絡信息檢索”本科課程。課程起初是(shì)作爲(wéi / wèi)網絡工程專業的(de)特色課程,後發展爲(wéi / wèi)面向計算機學院的(de)選修課,這(zhè)也(yě)是(shì)國(guó)内首個(gè)講述信息檢索技術和(hé / huò)搜索引擎原理的(de)本科生課程。在(zài)多年研究與教學的(de)基礎上(shàng),兩位老師撰寫了(le/liǎo)本科教材《網絡信息檢索》,獲評“十三五”高等教育本科國(guó)家級規劃教材。

  2009年,在(zài)發改委下一(yī / yì /yí)代互聯網項目的(de)支持下,四所高校——華中科技大(dà)學、華南理工大(dà)學、北京大(dà)學、清華大(dà)學聯合開發了(le/liǎo)IPv6分布式搜索引擎,建設了(le/liǎo)下一(yī / yì /yí)代互聯網分布式搜索引擎平台,促進了(le/liǎo)我國(guó)IPv6下一(yī / yì /yí)代互聯網應用的(de)繁榮。

  互聯網人(rén)才培養基地(dì / de)

  2000年之(zhī)後,國(guó)内掀起了(le/liǎo)互聯網商業化的(de)浪潮,擁有商業資源的(de)應用在(zài)資本的(de)加持下一(yī / yì /yí)路前行,早期僅僅出(chū)于(yú)研究目的(de)的(de)搜索引擎逐漸退出(chū)了(le/liǎo)江湖。

  然而(ér),不(bù)可否認的(de)是(shì),90年代末、00年代初,以(yǐ)網絡指南針爲(wéi / wèi)代表的(de)三大(dà)高校的(de)積極探索,爲(wéi / wèi)商業搜索引擎的(de)飛速發展掃清了(le/liǎo)障礙——不(bù)僅積累了(le/liǎo)中文處理的(de)優勢,更在(zài)此過程中培養了(le/liǎo)一(yī / yì /yí)大(dà)批技術人(rén)才,他(tā)們成爲(wéi / wèi)日後中國(guó)搜索引擎領域的(de)骨幹。

  在(zài)清華,團隊的(de)學生們後來(lái)在(zài)互聯網領域大(dà)放異彩:張俐,後來(lái)任職IBM研究院;解沖鋒,現爲(wéi / wèi)中國(guó)電信北京研究院IPv6首席專家;李粵,博士畢業,現任華南理工大(dà)學副教授,繼續研究搜索引擎;許靜芳,現爲(wéi / wèi)微信搜索應用部副總經理,微信搜一(yī / yì /yí)搜業務負責人(rén),在(zài)此之(zhī)前,她是(shì)搜狗的(de)高級副總裁。

  在(zài)北大(dà),天網搜索引擎在(zài)整個(gè)發展中培養了(le/liǎo)諸多人(rén)們熟知的(de)互聯網人(rén)才。搜狗的(de)王小川用“黃埔軍校”來(lái)比喻,很可能是(shì)因爲(wéi / wèi)這(zhè)裏是(shì)新興互聯網技術公司的(de)孵化器,也(yě)可能是(shì)因爲(wéi / wèi)從這(zhè)裏走出(chū)了(le/liǎo)許多成功的(de)互聯網創業者。從天網搜索第一(yī / yì /yí)個(gè)發展階段的(de)劉建國(guó)、雷鳴等人(rén),到(dào)第二、三階段的(de)陳華、謝欣等人(rén),許多互聯網創業人(rén)從這(zhè)裏走出(chū)。謝欣現爲(wéi / wèi)字節跳動副總裁,陳華是(shì)酷訊網、唱吧的(de)創始人(rén),姚叢磊是(shì)百煉智能的(de)聯合創始人(rén),張志剛、陳靜是(shì)脈訊在(zài)線的(de)聯合創始人(rén),歐高炎創辦了(le/liǎo)博雅數智,陳日閃則在(zài)美國(guó)創辦了(le/liǎo)AutoBizLine,等等。“從這(zhè)個(gè)實驗室出(chū)來(lái)的(de)學生,創業密度特别大(dà)。”一(yī / yì /yí)家媒體說(shuō)。

  華南理工大(dà)學的(de)團隊也(yě)在(zài)數十年的(de)研究與教學中培養了(le/liǎo)許多專業搜索技術人(rén)才,這(zhè)些學生畢業之(zhī)後活躍于(yú)騰訊、百度、搜狗、字節跳動、網易、中國(guó)電信、中國(guó)移動等公司的(de)搜索相關部門,業已成爲(wéi / wèi)技術帶頭人(rén)及骨幹成員。

  在(zài)這(zhè)個(gè)意義上(shàng),三大(dà)搜索引擎已成功實現了(le/liǎo)他(tā)們的(de)初衷——研究最關鍵的(de)應用,積累搜索引擎技術,并在(zài)此基礎上(shàng)培養了(le/liǎo)大(dà)批互聯網骨幹人(rén)才,他(tā)們走出(chū)實驗室,成爲(wéi / wèi)了(le/liǎo)後來(lái)中國(guó)互聯網發展的(de)重要(yào / yāo)力量。

  背景資料:“計算機信息網絡及其應用關鍵技術研究”項目

  1996年,由教育部主持,清華大(dà)學等14所高等院校和(hé / huò)科研單位承擔的(de)國(guó)家“九五”重點科技項目(攻關)計劃——“計算機信息網絡及其應用關鍵技術研究”經國(guó)家計委批複立項。1998年,該項目通過國(guó)家鑒定驗收,這(zhè)也(yě)是(shì)我國(guó)第一(yī / yì /yí)個(gè)互聯網領域的(de)國(guó)家重大(dà)科研項目通過驗收。項目涉及網絡互連、管理和(hé / huò)安全方面的(de)六大(dà)核心技術攻關。

  項目基于(yú)CERNET示範工程,圍繞網絡管理與運行技術、網絡及信息安全技術、網絡互連和(hé / huò)路由技術、網絡設計和(hé / huò)測試技術、網絡信息發現技術、典型網絡應用技術六大(dà)互聯網領域的(de)關鍵技術和(hé / huò)裝備進行攻關,在(zài)網絡管理系統、路由引擎、防火牆、搜索引擎等方面填補了(le/liǎo)國(guó)内空白。