自然語言處理(NLP)被譽為人工智能皇冠上的“明珠”。近年來,人工智能(AI)取得了長足的發(fā)展,其中最重要的技術進步之一發(fā)生在NLP領域。NLP技術的進步使得機器翻譯質量大幅提高,也催生了更多數字化場景應用,隨之國內NLP產業(yè)也迎來快速發(fā)展。據艾瑞咨詢預測,2022年NLP相關產業(yè)規(guī)模將達到1500億元,到2025年達到2400億元。微軟亞洲研究院認為未來十年是NLP發(fā)展的黃金時期。
浪潮之下,創(chuàng)新企業(yè)正在成為NLP創(chuàng)新突破的重要力量,中科凡語就是其中的典型代表。中科凡語是中國科學院自動化研究所孵化、專注于NLP服務的創(chuàng)新型企業(yè),已發(fā)展成為業(yè)內領先的多語言跨領域多模態(tài)自然語言處理方案商、服務商、運營商。恰逢中科凡語成立4周年之際,中國科學院自動化研究所研究員、博士生導師、中科凡語董事長周玉博士分享了NLP的發(fā)展趨勢和中科凡語的工作成果。
中國科學院自動化研究所研究員、
博士生導師、中科凡語董事長周玉博士
從通用到定制形成動態(tài)閉環(huán)
搭建NLP底層技術平臺
目前NLP產品的應用落地任重道遠,面臨的問題主要有兩個,一是高定制化場景帶來的高溝通門檻,使得溝通效率較低;二是要開發(fā)通用性較強的產品,需要不同的業(yè)務數據支撐,適配過程較為漫長。面對NLP產品的定制化和通用性難題,中科凡語獨辟蹊徑。
周玉研究員表示,“早期可以面對不同行業(yè)領域客戶先提煉出共性需求,搭建一個通用的技術框架,滿足基礎的模塊功能;然后再構建通用場景的通用產品;之后再遷移到特定場景進行定制化開發(fā);最后在定制化過程中再衍生出面向特定場景的產品??偟膩砜矗鋵嵤窃趧討B(tài)演化過程中不斷完善迭代,從通用到定制形成動態(tài)閉環(huán)?!?/span>
NLP產品開發(fā)的底層邏輯是技術儲備,技術儲備越豐富,通用技術模塊越成熟,遷移成本就會越低,在特定行業(yè)的產品化效率也就越高,行業(yè)壁壘也就隨之建立起來。
基于深厚的技術積淀,目前中科凡語推出了“信譯”、“信推”、“信析”、“信服”和“信取”五大NLP技術產品。“信譯”是基于為用戶提供優(yōu)質、專業(yè)、準確、高效的機器翻譯服務;“信推”是針對長文本完成多模態(tài)自動摘要生成和關鍵詞提取及內容推送;“信取”則提供跨場景、多語言、多粒度的數據爬取、融合、分類及管理,等等。目前中科凡語所推出的“五信”,“飛譯”或是“洞知”產品,都是基于客戶普遍的共性需求所建立的。未來的產品開發(fā),還將繼續(xù)朝著系統(tǒng)化、模塊化、工具化的方向出發(fā),為客戶提供更易組裝、更加靈活、適用性更強的智能服務產品,構建多模塊、廣適用、高精度的底層NLP技術平臺。
專業(yè)領域億級語料數據
為行業(yè)發(fā)展提供動力
高質量標注數據是AI時代NLP技術的關鍵因素。NLP技術本質上是基于深度學習的,相比于視覺或音頻信息,自然語言更加抽象,蘊含了更加豐富的人類定義的知識。因此,NLP的技術效果很大程度上取決于標注數據的質量和規(guī)模。
中科凡語作了大量的基礎工作。在標注人員方面,以翻譯樣本標注為例,中科凡語同全國100多所高校外國語學院達成了合作,并建立了與之相對應的人物畫像,豐富語種人才庫的同時,進一步提升適配效率;在標注數據方面,分層分級,重點篩選種子樣本;再通過不斷優(yōu)化迭代算法方面的優(yōu)勢,來最大化的降低標注成本,篩選出有價值的數據。同時,通過前臺數據與后臺算法的深度綁定,中科凡語進一步提升了數據儲備的質量和規(guī)模,形成一個良性的閉環(huán)。
基于中國科學院自動化研究所相關團隊20余年的積累,中科凡語目前已經建立了涵蓋特定行業(yè)、教育、醫(yī)療、航空等多個領域的億級雙語平行語料,及大規(guī)模涵蓋多語言、多領域、多場景、多任務、多層次的高精準標注語料,NLP語料數據方面行業(yè)領先。同時,通過創(chuàng)新迭代的智能化標注算法,中科凡語也在不斷充實NLP語料池,著力挖掘大規(guī)模、高質量的標注數據。這不僅帶來效率提升、技術升級,更是NLP發(fā)展的必然趨勢。
深耕行業(yè)夯實優(yōu)勢
NLP下一個十年中文論劍
縱觀國內外NLP產業(yè)發(fā)展現狀,國外NLP技術由于起步早、技術領先,而國內目前則處于奮起直追階段。隨著中國企業(yè)逐漸從“輔助角色”進化為中堅力量,“學術界+工業(yè)界”的雙輪驅動推動中國AI力量悄然變化。
中科凡語作為國產NLP領域先行者,承接了中科院自動化所過去20多年在NLP領域技術積累,在技術、數據乃至人才方面都有著天然優(yōu)勢。成立四年來,中科凡語已成功落地了100多家G端客戶、50余家B端客戶,同時還承擔了多項國家和政府重大需求項目,例如為“一帶一路”沿線國家提供翻譯、信息整合及分析服務等,未來還將持續(xù)深耕認知智能、通用智能、因果推斷等技術領域,進一步推動NLP成果產業(yè)化。中科凡語還于2020年11月成立了凡語AI研究院,已吸引60多名高級人才加入,共同進行前沿研究,探索新的基礎模型與技術路線,建立競合協(xié)同的行業(yè)生態(tài)。
在政策紅利和藍海市場的雙重利好下,NLP 已步入發(fā)展快車道,并涌現了許多商業(yè)化應用,如機器翻譯、輿情監(jiān)測、自動摘要、問答機器人、客服機器人、電銷機器人、智能推薦等。隨著AI技術不斷走向“深水區(qū)”,作為AI最高層次的NLP也將伴隨著數智化的產業(yè)趨勢快速迭代更新。中科凡語致力于通過本身在NLP領域積累的人才、算法、數據等優(yōu)勢,聯合業(yè)界的專家學者、行業(yè)精英,共同推動NLP最前沿技術和應用,在國產NLP的發(fā)展中貢獻力量。
金科君創(chuàng)已投部分TMT企業(yè)
(以投資先后順序排列)