當今世界,人工智能研究方興未艾,而機器翻譯被學術界視為人工智能研究皇冠上最耀眼的一顆明珠。作為我國計算語言學的開拓者之一,世界上第一個“漢語到多種外語機器翻譯系統”的研製者馮志偉,今年已經82歲高齡了,仍然活躍在機器翻譯領域。,兩個多月前,他又走上清華大學的講台,以“機器翻譯和它的四個類型”為題發表演講。基於規則的機器翻譯、基於實例的機器翻譯、統計機器翻譯、神經機器翻譯各有什麼特點,難點在哪,前景如何,馮志偉娓娓道來。他告誡年輕學者,不要過分迷信目前廣為流行的基於語言大數據的經驗主義方法,不要輕易忽視目前受到冷落的基於語言規則的理性主義方法,而是要努力綜合運用兩種方法,把機器翻譯研究推向深入。,學人小傳,馮志偉,1939年生於昆明。1957年考入北京大學地球化學專業,1967年從語言學專業研究生畢業,後到天津、昆明的中學任教。1978年考入中國科技大學研究生院,公派至法國留學,學習數理語言學和機器翻譯。回國後到中國科技信息研究所工作,后調入國家語委語言文字應用研究所(現屬教育部)任計算語言學研究室主任、研究員。研製了世界上第一個從漢語到多種外語的機器翻譯系統、世界上第一个中文術語數據庫。曾獲得奧地利維斯特獎、中國計算機學會NLPCC傑出貢獻獎。用中外文出版《現代術語學引論》《自然語言計算機形式分析的理論與方法》《自然語言處理綜論》等著作及譯著40多部。,從昆明到北大,1939年4月,馮志偉生於雲南昆明一個貧困家庭。他的稚幼歲月是在跑警報躲轟炸的戰火中度過的。,1944年11月24日,防空警報驟響,只有5歲零7個月的馮志偉和母親一起跑向城外,慌忙奔跑的人群把這對母子衝散了。這是日軍對昆明的第140次轟炸,投彈100多枚。天黑盡了,馮志偉還沒有回家。第二天,父母在城裡城外窮找了一天,也不見他的影子。母親哭得死去活來,以為寶貝兒子被炸成了碎片。直到黃昏時分,馮志偉竟自己摸進了家門。原來,他在轟炸聲中跳進了稻田裡一個大炸彈坑。緊接着,近旁炸彈爆炸的泥土覆蓋住他的全身,他休克了將近一夜,直到天亮才醒來。馮志偉掙扎着爬出炸彈坑,隨後又昏倒在田埂邊。一位好心的农民發現了他,把他抱回家洗浴、喂飯,直至傍晚,把他送上回家的大路。,1946年7月15日,7歲的馮志偉跟着舅舅到雲南大學至公堂參加李公朴先生追悼會,一位長者正在那裡慷慨激昂地演講:“人民的力量是要勝利的,真理是永遠存在的……反動派,你看見一個人倒下去,可也看得見千百個人繼起的……我們不怕死,我們有犧牲的精神!我們隨時像李先生一樣,前腳跨出大門,後腳就不準備再跨進大門!”此人就是聞一多。當天下午,聞一多在回家途中遭國民黨特務伏擊,中彈犧牲。這場演講給馮志偉留下了深刻印象,對聞一多先生的崇敬之情一直伴隨着他。長大之後他才知道,舅舅是中共地下黨員。,1957年,馮志偉以優異成績考取了北京大學地球化學專業。昆明一中的校長和老師都無比高興,表揚他為學校爭了光。可回到家,父親卻不同意馮志偉到北京大學讀書,要他先工作養活自己,然後再多掙點錢補貼家用。父親那時是昆明市蔬菜公司的會計,要用自己微薄的工資養活家中的7個孩子。這樣的安排,也是無奈之舉。,母親一聽,斷定這將會毀了聰明兒子的前途,和父親吵了起來。第二天一早,母親帶着馮志偉到左鄰右舍、親戚朋友家化緣、借貸,終於湊齊了從昆明到北京的路費。,從理科到文科,從雲南邊疆進入北京大學,馮志偉深知這個機會來之不易,學習非常刻苦。課餘時間,他喜歡鑽進北大圖書館,探尋學術前沿。有一次,他在外文圖書室看到了美國語言學家喬姆斯基的論文《語言描寫的三個模型》。這是一篇語言學論文,卻發表在自然科學的信息論雜誌上,馮志偉感到特別好奇,懷着極大的興趣通讀了全文,認識到這是喬氏應用數學中的“馬爾科夫鏈”來描述自然語言的生成過程,為語言建立了一套獨特的數學模型。,馮志偉下定決心要學習這種嶄新的語言學理論,於是向學校提出申請,要求轉到中文系語言學專業學習。校方認為,這種從理科到文科的跨專業轉系沒有先例,因此未予批准。此後近一年,馮志偉一而再、再而三地向學校懇求,最終如願,但條件是從理科二年級轉到文科一年級,從頭學起。父親盼着他早日畢業掙錢養家,他卻從理科轉到文科,白學了兩年,父親氣得直罵:“愚蠢!”,馮志偉由此開始了跨學科的學術研究。轉入語言學專業一年之後,這個“愚蠢”的兒子寫出論文《“語法”定名勝於“文法”》,刊於《中國語文》1961年第2期。《中國語文》是語言學界的頂級刊物,大學二年級的學生在這樣的刊物上發表文章,實屬罕見。,1960年11月,《文彙報》刊發了陳望道、吳文祺、鄧明以撰寫的文章《“文法”“語法”名義的演變和我們對文法學科定名的建議》,12月又登載了傅東華的文章《“文法”定名優勝於“語法”》。馮志偉讀了這兩篇文章,認為學術界已經使用“語法”多年,語法定名勝於文法。雙方的意見針鋒相對,於是引起了一場學術爭論。這場學術爭論的結果,“語法”的定名取代了“文法”。馮志偉的名字在北京、上海傳開了,可是許多人不知道他只是一個大學二年級的學生。,1964年,馮志偉考取了北大研究生,師從岑麒祥教授學習現代語言學流派的理論。他仍然迷戀數學與語言學的跨學科研究,把畢業論文題目定為《數學方法在語言學中的應用》。岑麒祥教授認為,這個題目偏到理科方面去了,不像傳統的語言學研究,未予批准。馮志偉向王力教授彙報了自己的想法,王力教授主張中文系的人也要學習數理化,認為用數學方法進行語言學研究有道理,可以大膽嘗試。睿智而豁達的岑麒祥教授改變了想法,同意了馮志偉的選題。,於是馮志偉精心撰寫這篇論文,順利完成,準備答辯了。可是,1966年5月“文革”開始,答辯無法進行。馮志偉等待又等待,最後還是不能答辯,到1967年8月下旬,他領到了北京大學研究生畢業證書,被分配到天津唐口三中教英語。,手工計算漢字的熵,在天津教了三年英語,1970年8月,馮志偉調至昆明五中當物理教師,他的語言學專業已經沒有用武之地了。但是,他沒有放棄跨學科研究,經常到雲南省科技情報研究所和雲南省圖書館,閱讀外文書刊,密切跟蹤國際數理語言學研究進展,利用業餘時間寫成長篇論文《數理語言學簡介》,發表在1975年第4期的《計算機應用與應用數學》雜誌上。這篇文章犹如空谷足音,使人們認識到,在極其艱苦的條件下,仍然有人繼續進行着跨學科的探索。,那段時間,馮志偉還研究了漢字的“熵”。熵是物理學術語,用於量度某些物質系統的狀態,英語字母所含信息量的大小也可用“熵”來表示。信息論的奠基人香農使用手工查頻的方法,統計出英語26個字母在文本中出現的頻度,經過複雜計算,確定英語字母的熵為4.03比特,奠定了信息論的理論基礎。,香農又提出了“編碼定理”,他指出:在編碼時,碼字的平均長度不能小於字符的熵。英語字母採用單字節編碼,碼字的長度是1個字節,相當於8比特,大於英語字母的熵,符合香農的“編碼定理”。因此,採用單字節來給英語字母編碼,是符合數學原理的。,20世紀70年代,國外已經廣泛使用計算機了。馮志偉想,中國人將來也要使用計算機,那時,就必須要給漢字編碼,使得漢字也可以在計算機上自由地輸入、輸出、傳輸。但是,漢字究竟要使用多少字節來編碼呢?根據香農“編碼定理”,要給漢字編碼,首先就要計算漢字的熵,這是馮志偉最為關心的問題。他想,如果漢字的熵大於8比特,那就不能採用單字節編碼了,我們就必須另闢蹊徑,研製新的編碼方式。漢字數量龐大、筆畫繁多,漢字熵的計算特別艱難。首先要進行字頻統計,然後再計算漢字的熵。馮志偉動員岳父和10位朋友一起工作,沒有計算機,主要使用計算尺和算盤來手工計算。馮志偉岳父在雲南省糧食廳工作,算盤打得非常熟,他打算盤,配合馮志偉拉計算尺進行計算。最後,馮志偉根據手工統計得出的1萬多個漢字的頻度,經過精心計算,確定漢字的熵值為9.65比特。這樣,漢字只好採用雙字節(2字節=16比特)來編碼了。馮志偉的這項工作,為20世紀80年代漢字的雙字節編碼提供了可靠的理論基礎。,馮志偉始終認為,9.65比特只是一個估測出的漢字熵值,還需要採用更加精密的手段進行檢驗。20世紀80年代,北京航空學院計算機系教授劉源使用計算機統計了漢字的頻度,並計算出漢字的熵為9.71比特,與馮志偉通過手工計算估測的結果相差不大。,1978年春,全國科學大會召開了,在“尊重知識、尊重人才”的口號聲中,北京大學開始行動,希望把遠在昆明的馮志偉調入北大,而馮志偉在昆明五中教學成績優秀,學校舍不得放他走,調動沒有成功。,其時,中國科技大學研究生院正式在北京成立,開始招生,馮志偉抓住這個機會,經過認真準備,一舉考中,昆明五中只好放他走了。1978年國慶節之後,這個39歲的壯漢又變成了學生,背着書包從昆明到北京去上學。,闖進機器翻譯的迷宮,那一年,中國科大研究生院錄取新生1015名,決定選派其中的150名公費出國留學,馮志偉就是其中一員。,1978年12月20日,馮志偉乘飛機到達法國巴黎,在中國駐法大使館報到之後,先到維希的“嘉文瀾”語言學院進修法語。1979年3月1日,馮志偉乘火車從維希抵達格勒諾布爾。一下火車,他就看到格勒諾布爾理科醫科大學應用數學研究所“自動翻譯中心”主任沃古瓦(Vauquois)教授親自來火車站迎接。沃古瓦是數學家、天文學家、計算機科學和計算語言學家,又是國際計算語言學會議(COLING)的主席,他曾帶領自動翻譯中心研製了俄-法機器翻譯系統,達到國際領先水平。,馮志偉在沃古瓦的悉心指導下,闖進機器翻譯的迷宮,環顧細查,借鑒創新。他掌握了最新的計算機編程技術,學會了使用當時最先進的IBM4341大型計算機,開始研製“漢語-法語機器翻譯系統”。,在機器翻譯的研究中,馮志偉提出了多叉多標記樹形圖模型(Multiple-branched Multiple-labeled Tree Model,MMT模型),用多叉樹來改進直接成分分析法的二叉樹,首先對源語言的字符串進行形態分析,把線性字符串轉換成有層次的多叉樹來表示源語言的句法語義特徵,然後進行源語言多叉樹到目標語言多叉樹的轉換,最後把目標語言多叉樹轉換為目標語言的字符串作為譯文輸出。對於多叉樹中每一個節點上的信息,他還使用多標記來改進傳統的單一標記,精心設計了一套複雜特徵集(complex feature set)來描寫語言的形態、句法、語義特徵,並編製了計算機可讀的形式化語法規則和機器詞典。,為了完成這項艱巨工程,他給自己規定了“887自律規則”:每天8點上班,晚上8點下班,一周7天工作。“漢-法系統”試驗成功之後,他又進一步研究“漢-法、英、日、俄、德”多語種翻譯系統。歷經冬去春來三個輪迴,至1981年11月4日,這個系統終於研製成功。他在計算機上輸入漢語,計算機立即自動將其翻譯成五種語言。這是世界上第一個從漢語到多種外語的機器翻譯系統。研究工作結束,馮志偉立即回到北京,並把他的研究成果寫成了《自然語言機器翻譯新論》在語文出版社出版。,從軟件工程師到計算語言學家,從法國回國后,馮志偉被分配到中國科學技術信息研究所計算中心擔任軟件工程師。1982年,他去布拉格出席了國際計算語言學會議,介紹了他研究的多叉多標記樹形圖模型和“漢—法、英、日、俄、德”多語種翻譯系統,他是第一個參加這個會議的中國學者。,1985年,馮志偉的老朋友,時任國家語委副主任、語言文字應用研究所所長陳章太登門拜訪。陳章太告訴馮志偉,語文現代化就是要在語言研究中鳥槍換炮,不是換舊時的加農炮,而是要換最先進的火箭炮,“我們國家語委要搞鳥槍換炮,在語言文字應用研究所設置了一個機構,叫作計算語言學研究室。”陳章太希望馮志偉重啟舊業,回到語言學隊伍,擔任語言文字應用研究所計算語言學研究室的負責人,這是他此行的主要目的。,馮志偉知道,語言文字應用研究所是一個文科單位,資金支持和計算機設備都比中國科技信息研究所差得多,到那裡肯定很難開展像現單位這樣的高水平研究,親戚、朋友、計算機界的老同學也都對調動持反對態度。但馮志偉被陳章太的誠意感動了,更重要的是,他心裏還牽挂着語言學。幾經考慮,他想,自己在北京大學學習過多年的語言學,回到語言學界應該能夠為國家做一些有意義的事情,就點頭應允了。,不久之後,馮志偉調入了語言文字應用研究所,擔任計算語言學研究室主任,同時在中國科學院軟件研究所擔任兼職研究員。同年9月,馮志偉被中科院軟件所派往德國斯圖加特的夫琅禾費研究院與德方合作,從事術語數據庫的研究,研製成世界上第一个中文術語數據庫GLOT-C。術語是科學知識在自然語言中的結晶,術語學是馮志偉從事語言跨學科研究的一個重要領域。根據術語數據庫的研究成果,馮志偉撰寫成《現代術語學引論》,受到國內外學術界的高度評價。2008年6月,聯合國教科文組織奧地利委員會和國際術語信息中心給馮志偉頒發了維斯特獎,表彰他在術語學研究中作出的突出貢獻。,1998年5月退休后,馮志偉仍然馬不停蹄,退而不休。2001年他應聘到韓國科學技術院計算機科學與电子工程系擔任客座教授,用英語為博士生講授“自然語言處理”的高級課程。在備課中,馮志偉發現英文版的《語音和語言處理——自然語言處理、計算語言學和語音識別導論》覆蓋面廣,理論分析深入,是一本很優秀的自然語言處理的教材,決定把此書翻譯成中文。他白天講課,晚上加班翻譯到深夜,連續工作了11個月,當翻譯完14章的時候,他患了眼病,難於繼續翻譯,中國科學院軟件研究所研究員孫樂把剩下的7章翻譯成中文,幫助他邁過難關。2005年,全書翻譯大功告成,由电子工業出版社以《自然語言處理綜論》的書名出版。2018年,他們又合作翻譯出版了此書的第二版。,我國制定的漢語拼音方案,已經在1982年成為全世界用羅馬字母拼寫漢字的國際標準,標準編號是ISO-7098。進入信息時代之後,在信息和文獻工作中,這個標準已難以適應信息社會發展的需要,在2011年5月,國家教育部派遣馮志偉參加國際標準化組織第46技術委員會的會議,修訂這個國際標準。修訂一個國際標準需要通過5個步驟:工作草案階段、委員會草案階段、國際標準草案階段、最終國際標準草案階段、國際標準階段。已是古稀之年的馮志偉被國際標準化組織任命為這個國際標準的國際工作組組長,先後奔波於悉尼、柏林、巴黎、華盛頓等城市,用英文起草了新的國際標準,在修訂的過程中,在國際會議的會場和會外與各國代表的交流中,馮志偉熟練運用多種外語,积極有效地與會議主辦機構、與會各國代表、國際標準化組織負責人進行溝通、協商和解釋。他認真應對,機智處理,克服重重困難,出色完成了這項任務。,馮志偉還對國內外自然語言處理的研究成果進行了系統梳理,寫成了專著《自然語言計算機形式分析的理論與方法》,被納入“十三五”國家重點圖書規劃項目“當代科學技術基礎理論與前沿問題研究叢書”,於2017年由中國科學技術大學出版社出版。此書是基於規則與基於統計的自然語言處理方法的專著,分別討論了基於短語結構語法的形式模型、基於合一運算的形式模型、基於依存和配價的形式模型、基於格語法的形式模型、基於詞彙主義的形式模型、語義自動處理的形式模型、語用自動處理的形式模型、隱馬爾可夫模型、統計機器翻譯的形式模型。此書獲得中華優秀出版物獎,這是中國出版界三大獎之一。,2014年以來,神經網絡的方法成了機器翻譯的主流方法,有的神經機器翻譯系統的正確率已經接近人的翻譯水平,因而基於規則的理性主義方法受到冷落。馮志偉已經進入耄耋之年,他仍然密切關注着機器翻譯的最新進展,堅持每天閱讀和梳理國內外文獻,先後撰寫了多篇關於人工智能、統計機器翻譯、神經機器翻譯、詞向量生成的論文。在這些論文中,他介紹國內外神經機器翻譯的最新進展,在充分肯定神經機器翻譯成就的同時,明確指出,我們這一代學者有幸趕上了基於語言大數據的黃金時代,在機器翻譯研究中,採用神經網絡的經驗主義方法,那些處於機器翻譯低枝頭上的果實我們唾手可得,然而,由於神經機器翻譯只關注語言大數據,忽視語言知識,很多問題難以根據語言規則從理性主義的角度進行解釋,這樣,在今後的機器翻譯研究中,我們留給下一代的將是那些最難啃的、處於機器翻譯高枝頭上的硬骨頭。在自然語言處理的研究中,基於語言規則的理性主義方法依然不可或缺,基於語言數據的經驗主義方法一定要與基於語言規則的理性主義方法結合起來,才會通向自然語言處理髮展的金光大道。,2018年,中國計算機學會授予馮志偉NLPCC傑出貢獻獎,表彰他在自然語言處理(Natural Language Processing,NLP)和中文計算(Chinese Computing,CC)方面的成績。馮志偉是一個來自人文學科的語言學家,卻得到了中國計算機學會的嘉獎,這是非常罕見的現象。在這次頒獎儀式上,他深情地說:“現在我已經是近80歲的老人了,可是,我們從事的自然語言處理仍然是一門新興學科,她仍然顯得非常年輕,仍然充滿了青春的活力,仍然有着無比廣闊的發展前景。一個人的生命是有限的,而科學研究的發展是無限的,一個人的有限生命與科學研究這棵枝恭弘=叶 恭弘茂密的參天大樹相比,顯得多麼短促,多麼渺小,多麼微不足道啊!”,作者:錢玉趾(四川省科學技術協會高級工程師);陳星蒙(四川省科普作家協會會員)
20
2021.12
本文链接:http://yuehairailway.com/?p=4536 转载请注明出处.
如果喜欢:点此查看RSS订阅
相关文章
为您推荐
各种观点