網上有很多關于pos機廣告語搞笑,2022年自然語言處理行業(yè)研究報告的知識,也有很多人為大家解答關于pos機廣告語搞笑的問題,今天pos機之家(www.tjfsxbj.com)為大家整理了關于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
pos機廣告語搞笑
第一章 行業(yè)概況自然語言處理定義
自然語言處理是通過構建算法使計算機自動分析、表征人類自然語言的學科。自然語言處理是計算機理解和生成自然語言的過程,自然語言處理技術使計算機具有識別、分析、理解和生成自然語言文本(包括字、詞、句和篇章)的能力。
自然語言處理機制涉及自然語言理解和自然語言生成兩個流程:(1)自然語言理解:計算機理解自然語言文本的思想和意圖;(2)自然語言生成:計算機用自然語言文本表述思想和意圖。
自然語言理解和分析是一個層次化過程,從詞法分析、句法分析、語義分析到語用語境分析層層遞進:(1)詞法分析:分析詞匯的各個詞素,從中獲得語言學信息;(2)句法分析:分析句子和短語的結構,識別各詞語、短語在句中的作用以及相互間的關系;(3)語義分析:找出詞義、結構意義及詞與結構結合的意義,確定語言所表達的真正含義;(4)語用語境分析:分析語言所存在的外界環(huán)境對語言使用者所產生的影響。
自然語言處理環(huán)節(jié)
(1)詞法分析
詞法分析的主要任務是詞性標注和詞義標注。詞性是詞匯的基本屬性,詞性標注是在給定句子中判斷并標注各詞的詞性,而兼類詞和未登錄詞的詞性復雜難以確定,標注兼類詞與未登錄詞的詞性是詞法分析的重要任務。詞義標注是在具體語境中明確各詞的詞義,如多義詞擁有多種意義,但在具體語境中表達的意義是可確定的。在不同的具體語境中解決多義詞的義項問題是詞義標注的重點。
(2)句法分析
句法分析的基本任務是確定句子的語法結構或句子中詞匯間的依存關系,包括確定語言的語法體系,明確符合語法規(guī)則的句子的語法結構以及通過分析語言單位內成分間的依存關系推導句子的句法結構。
(3)語義分析
語義分析通過建立有效的模型使計算機系統(tǒng)能對各個語言單位(包括詞匯、句子和篇章等)進行自動語義分析,從而理解自然語言文本的真實語義。根據理解對象的語言單位不同,可將語義分析分為詞匯級語義分析、句子級語義分析以及篇章級語義分析。詞匯級語義分析關注如何獲取或區(qū)別單詞的語義,句子級語義分析關注整個句子所表達的語義,篇章級語義分析研究篇章文本的內在結構以及理解篇章文本內語言單元(句子、從句或段落)間的語義關系。
(4)語用語境分析
語用指人對語言的具體運用,自然語言用語與語境、語言使用者的知識涵養(yǎng)、言語行為、想法和表達意圖密切相關。語用分析是計算機在情景語境和文化語境中研究分析語言使用者的表達用意。
自然語言處理技術應用
隨著人工智能的深入發(fā)展,自然語言處理需求不斷提升,眾多類型智能應用需要自然語言處理技術幫助其實現(xiàn)智能化,如(1)文本領域的搜索引擎、信息檢索、機器翻譯、自動摘要、文本分類、意見挖掘、輿情分析、自動判卷系統(tǒng)、信息過濾和垃圾郵件處理等應用;(2)語音領域的語音助手、智能客服、聊天機器人、自動問答、智能解說和智能遠程教學與答疑等應用均需自然語言處理技術理解或生成自然語言。
① 自動問答
自動問答應用涉及自然語言的詞法、句法、語義等分析問題,是自然語言理解與生成技術應用的集中體現(xiàn)。自動問答系統(tǒng)能自動回答用戶提出的問題,反饋給用戶基于自然語言表述的答案,不再是簡單的基于關鍵詞匹配排序的文檔列表,系統(tǒng)在生成答案的操作中需要正確理解用戶所提出的問題,抽取用戶問題中的關鍵信息,進而檢索語料庫或知識庫,將可匹配的最佳答案用自然語言的形式反饋給用戶,完成自動問答任務。
② 信息檢索
信息檢索是計算機自主從文檔集合中查找用戶所需信息的過程。信息檢索系統(tǒng)將信息標引、描述以及組織整理后存在于數(shù)據庫中,將用戶輸入的檢索關鍵詞與數(shù)據庫中信息的標引詞匹配,實現(xiàn)用戶的信息檢索要求。信息檢索要求計算機理解用戶輸入的自然語言信息,自動將自然語言信息與數(shù)據庫中的標引信息進行比對,以達成檢索任務。如谷歌搜索引擎可通過理解用戶輸入的自然語言關鍵詞,反饋給用戶一個檢索目標頁面列表,用戶可在列表中選擇能夠滿足自己信息需求的頁面加以瀏覽。因為搜索引擎無法通過簡單的關鍵詞表達體會用戶真正的查詢意圖,只能將所有可能滿足用戶需求的結果集合以列表的形式提供給用戶。
③ 情感分析
情感分析(意見挖掘),是計算機系統(tǒng)自主對文本的情感傾向(如主觀/客觀,積極/消極,喜歡/討厭等)進行挖掘和分析的過程。情感分析能幫助商家自動處理用戶評論,將分析過的評論按照排序規(guī)則進行展示,幫助商家獲得廣告營銷效果,如淘寶、天貓等電商平臺、攜程、愛彼迎等旅游住宿平臺的商家在評論區(qū)可設置自動置頂反映積極情緒的用戶評論,置后部分反映負面信息的用戶評論,達到吸引用戶眼球的效果。商家還可通過分析用戶發(fā)布的信息了解用戶喜好,實現(xiàn)精準營銷,如新浪微博上的零售商可根據用戶發(fā)表的微博,微話題等內容了解用戶的個人喜好,為用戶定制性的推送優(yōu)惠及新品信息。
第二章 產業(yè)鏈與商業(yè)模式2.1 產業(yè)鏈分析自然語言處理產業(yè)鏈上游市場主體為基礎資源提供商,包括硬件供應商(如芯片供應商、服務器供應商和存儲供應商等)和軟件供應商(如云服務供應商和數(shù)據庫供應商等);中游市場由自然語言處理算法供應商、自然語言處理解決方案供應商以及自然語言處理應用供應商組成,負責為下游需求端提供服務;下游市場主體為各類型用戶,包括企業(yè)用戶和個人用戶,企業(yè)用戶涉及金融、醫(yī)療、教育、出行服務、互聯(lián)網服務等領域,個人用戶則為最終消費者。
圖:中國自然語言處理產業(yè)鏈
資料來源:千際投行,資產信息網,頭豹研究院
產業(yè)鏈上游
自然語言處理產業(yè)鏈上游市場由基礎資源供應商組成,涉及網絡設備、服務器、芯片、存儲、云服務、數(shù)據庫等軟、硬件供應商,負責為自然語言處理技術和產品開發(fā)商提供必要的資源支持。
(1)芯片供應商
現(xiàn)階段,行業(yè)內尚未出現(xiàn)專門用于自然語言處理運算的芯片,核心數(shù)據處理芯片CPU無法執(zhí)行自然語言處理結構化運算,目前適用于自然語言處理的芯片類型有GPU、FPGA、ASIC和DSP。
GPU解決浮點運算、數(shù)據并行計算問題優(yōu)勢明顯,可提供高密度運算能力,解決大量數(shù)據元素并行問題。但GPU芯片功耗大,依托于X86架構服務器而運行,成本高昂,不適用于廣泛的自然語言處理產品方案的開發(fā),在自然語言處理與傳統(tǒng)行業(yè)數(shù)字化進程結合加深的趨勢下,采用GPU作為自然語言處理運算芯片的方案不具備成本優(yōu)勢,小型自然語言處理應用項目負擔不起高昂成本。
FPGA具有可編程性,設計者可根據需要的邏輯功能對FPGA電路進行快速燒錄,從而改變其出廠設計,靈活性強。但FPGA的設計布線相對固定,各種型號的FPGA芯片邏輯資源相對固定,選定了型號即決定了芯片的邏輯資源上限,無法隨意增加運算能力。
ASIC芯片的運算能力強、規(guī)模量產成本低,全定制設計需要設計者完成所有電路的設計,開發(fā)周期長,時間成本高昂,主要適用于量大、對運算能力要求較高、開發(fā)周期較長的領域。
DSP內有控制單元、運算單元、各種寄存器以及存儲單元,其外圍還可以連接若干存儲器和一定數(shù)量的外部設備,有軟、硬件的全面功能,本身是一個微型計算機,運算能力強、速度快、體積小,而且采用軟件編程具有高度的靈活性。但目前DSP的性能并未通過實踐驗證,也未生產出可以與GPU相匹敵的芯片器件,商業(yè)化應用仍在研發(fā)過程中。
為滿足自然語言處理等人工智能的發(fā)展需求,部分針對深度學習的芯片,如TPU、NPU、DPU和BPU等相繼面世,但受場景以及性能限制,專用的人工智能芯片發(fā)展尚未成熟。目前自然語言處理運算的最佳芯片方案仍以GPU為主導。
(2)云服務供應商
云服務供應商為自然語言處理研發(fā)企業(yè)提供基礎設施平臺,解決自然語言處理技術研發(fā)廠商的數(shù)據存儲、運算以及調用問題。由于性價比、部署方式等因素,自然語言處理研發(fā)企業(yè)較多選用公有云服務。
目前,公有云服務供應商有:①通過云服務產業(yè)鏈資源優(yōu)勢拓展至公有云服務行業(yè)的企業(yè),如電信運營商,網絡設備制造商,IDC廠商等,此類企業(yè)擁有較強的資金實力,加上本身處在公有云產業(yè)鏈上游,基礎設施方面優(yōu)勢明顯;②大型互聯(lián)網企業(yè),如亞馬遜,騰訊、阿里巴巴等,此類企業(yè)資金實力雄厚,客戶認可度高,設施齊備、技術成熟,具備發(fā)展公有云業(yè)務的有利條件;③傳統(tǒng)的軟件企業(yè),如Microsoft、Oracle、金蝶等,此類企業(yè)的軟件產品的市場認可度高,技術積累豐厚,客戶資源豐富,有利于向公有云市場拓展。除此之外,行業(yè)中存在不少新興的創(chuàng)業(yè)公司,如青云、Ucloud、七牛云等。
(3)數(shù)據
數(shù)據是人工智能發(fā)展的基石,海量數(shù)據為訓練人工智能提供原材料。近年來,由學術及研究機構承擔建設的公共數(shù)據集不斷豐富,數(shù)據質量不斷提高,利于人工智能企業(yè)提高智能模型的準確度。例如,可運用于自然語言處理訓練的數(shù)據集類型不斷豐富,維基百科語料庫、斯坦福大學問答數(shù)據集、亞馬孫美食評論集、康奈爾電影對話語料庫、經濟新聞相關文章等語言集合相繼建成,內容覆蓋媒體用語、網絡用語、電影用語、政府用語等眾多自然語言應用場景,有助于自然語言處理研發(fā)企業(yè)優(yōu)化用于處理不同領域自然語言的模型的準確度。
產業(yè)鏈中游
自然語言處理產業(yè)鏈中游市場主體主要有自然語言處理算法提供商、解決方案提供商以及應用產品開發(fā)商。目前中國的自然語言處理廠商較多集研發(fā)算法、解決方案以及應用產品功能于一身,廠商自主研發(fā)自然語言處理算法,形成一整套自然語言處理關鍵技術方案,并將自主研發(fā)的自然語言處理算法以及技術方案內嵌于自有應用產品體系中,典型代表有百度、阿里巴巴和騰訊。
百度自然語言處理算法研究覆蓋面廣,涉及深度問答、閱讀理解、智能寫作、對話系統(tǒng)、機器翻譯、語義計算、語言分析、知識挖掘等自然語言處理細分領域。百度積累了解決問句理解、答案抽取、觀點分析與聚合等環(huán)節(jié)的一整套深度問答技術方案,目前已將該套技術方案應用于百度搜索引擎、百度手機瀏覽器、百度翻譯、百度語音助手、小度機器人等多個產品中。
百度在自然語言篇章理解方面,形成篇章結構分析、主體分析、內容標簽、情感分析等關鍵技術,且該類關鍵技術已在百度搜索、百度信息流、糯米等產品中實現(xiàn)應用。阿里巴巴開展自然語言處理技術研究主要為旗下產品服務,如阿里巴巴在其電商平臺中構建知識圖譜實現(xiàn)智能導購,對電商用戶進行興趣挖掘實現(xiàn)精準營銷,在螞蟻金融、淘寶賣家等客服場景中實現(xiàn)機器人提供客服服務,在跨境電商業(yè)務中采用機器翻譯服務進行商家商品信息翻譯、廣告詞翻譯以及買家采購需求翻譯等。
產業(yè)鏈下游
自然語言處理產業(yè)鏈下游市場主體為各類型用戶,包括企業(yè)用戶和個人用戶。企業(yè)用戶主要購買行業(yè)應用,如智能客服產品、輿情分析產品、文本分類產品等,幫助企業(yè)用戶提升業(yè)務處理的智能化水平。目前的B端市場是自然語言處理廠商競爭的焦點,部分應用產品(如智能客服、輿情分析產品等)嘗試了商業(yè)化運作,市場反饋良好,但眾多細分領域市場發(fā)展并未成熟,市場空間仍待挖掘。個人用戶主要使用手機語音助手、機器翻譯軟件、信息檢索以及互聯(lián)網搜索等服務。個人用戶使用的自然語言處理技術應用產品較多是自然語言處理廠商免費提供的,自然語言處理廠商普遍未在C端市場開發(fā)清晰的商業(yè)模式。
2.2 商業(yè)模式分析模式一:生態(tài)構建者——全產業(yè)鏈生態(tài)+場景應用作為突破口
以互聯(lián)網公司為主,長期投資基礎設施和技術,同時以場景應用作為流量入口,積累應用,成為主導的應用平臺,將成為人工智能生態(tài)構建者(如Google、Amazon、Facebook、阿里云等)。
關鍵成功因素:大量計算能力投入,積累海量優(yōu)質多維度數(shù)據,建立算法平臺、通用技術平臺和應用平臺,以場景應用為入口,積累用戶。
模式二:技術算法驅動者——技術層+場景應用作為突破口
以軟件公司為主,深耕算法平臺和通用技術平臺,同時以場景應用作為流量入口,逐漸建立應用平臺(如Microsoft、IBMWatson等)。
關鍵成功因素:深耕算法和通用技術,建立技術優(yōu)勢,同時以場景應用為入口,積累用戶。
模式三:應用聚焦者——場景應用
以創(chuàng)業(yè)公司和傳統(tǒng)行業(yè)公司為主,基于場景或行業(yè)數(shù)據,開發(fā)大量細分場景應用。
關鍵成功因素:掌握細分市場數(shù)據,選擇合適的場景構建應用,建立大量多維度的場景應用,抓住用戶;同時,與互聯(lián)網公司合作,有效結合傳統(tǒng)商業(yè)模式和人工智能。
模式四:垂直領域先行者——殺手級應用+逐漸構建垂直領域生態(tài)
以垂直領域先行者為主,在垂直領域依靠殺手級應用(如出行場景應用、面部識別應用等)積累大量用戶和數(shù)據,并深耕該領域的通用技術和算法,成為垂直領域的顛覆者(如滴滴出行、曠視科技等)。
關鍵成功因素:在應用較廣泛且有海量數(shù)據的場景能率先推出殺手級應用,從而積累用戶,成為該垂直行業(yè)的主導者;通過積累海量數(shù)據,逐步向應用平臺、通用技術、基礎算法拓展。
模式五:基礎設施提供者——從基礎設施切入,并向產業(yè)鏈下游拓展
以芯片或硬件等基礎設施公司為主,從基礎設施切入,提高技術能力,向數(shù)據、算法等產業(yè)鏈上游拓展。
關鍵成功因素:開發(fā)具有智能計算能力的新型芯片,如圖像、語音識別芯片等,拓展芯片的應用場景;在移動智能設備、大型服務器、無人機(車),機器人等設備、設施上廣泛集成運用,提供更加高效、低成本的運算能力、服務,與相關行業(yè)進行深度整合。
2.3 政策監(jiān)管法律法規(guī)
我國在人工智能領域密集出臺相關法律法規(guī)及政策,可以看出在世界主要大國紛紛在人工智能領域出臺國家戰(zhàn)略,搶占人工智能時代制高點的環(huán)境下,中國政府把人工智能上升到國家戰(zhàn)略的決心。
圖:中國人工智能行業(yè)最新政策
資料來源:千際投行,資產信息網,中商情報網
行業(yè)自律
國際化標準化組織(ISO)于2017年成立人工智能委員會,負責涵蓋算法偏見、隱私保護等領域的標準研制工作。電氣和電子工程師協(xié)會(IEEE)在2017年提出了“人權、福祉、問責、透明、慎用”的五項原則,已成為國際上最具影響的AI倫理原則之一。在學術界,牛津大學、劍橋大學和Open AI公司等7家機構于2018年共同發(fā)布《人工智能的惡意使用:預測、預防和緩解》,分析了人工智能可能帶來的安全威脅并提出應對建議。在企業(yè)界,微軟、谷歌、IBM等科技企業(yè)制定了人工智能開發(fā)的倫理原則,臉書也在2019年初聯(lián)合慕尼黑工業(yè)大學建立了AI倫理研究所。
2019年2月,國家新一代人工智能治理專業(yè)委員會成立,并于6月發(fā)布了《新一代人工智能治理原則——發(fā)展負責任的人工智能》,旨在“更好地協(xié)調發(fā)展與治理的關系,確保人工智能安全可靠可控,推動經濟、社會及生態(tài)可持續(xù)發(fā)展”。同年4月,國家人工智能標準化總體組發(fā)布了《人工智能倫理風險分析報告》,提出“人類根本利益原則”和“責任原則”。
2019年5月,由科技部和北京市政府指導成立的北京智源人工智能研究院成立了人工智能倫理與安全研究中心,并聯(lián)合北大、清華、中科院、新一代人工智能產業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟(發(fā)起成員包括百度、阿里、騰訊、華為等)和其他學術機構及產業(yè)組織共同發(fā)布《人工智能北京共識》,提出了人工智能研發(fā)、使用和治理應遵循的“有益于人類命運共同體的構建和社會發(fā)展”的15條原則。2019年8月,深圳人工智能行業(yè)協(xié)會與曠視科技、科大訊飛等數(shù)十家企業(yè)聯(lián)合發(fā)布《新一代人工智能行業(yè)自律公約》。百度、騰訊等主要科技企業(yè)也提出了企業(yè)自身的AI倫理準則;曠視科技還在制定準則的基礎上,成立了人工智能道德委員會,以推動“可持續(xù)、負責任、有價值的人工智能生態(tài)”。
第三章 技術發(fā)展表:自然語言處理重要科研進展
資料來源:千際投行,資產信息網,智譜AI
3.1 自然語言處理的范式遷移范式是建模一類任務的通用框架。過去幾年隨著神經網絡架構逐漸向Transformer統(tǒng)一以及大規(guī)模預訓練模型的普及,大多數(shù)自然語言處理(NLP)任務的建模已經收斂到幾種主流的范式。
任務定義和目標
NLP任務中廣泛使用的范式歸為以下7類,即分類(Class)、匹配(Matching)、序列標注(Seq Lab)、閱讀理解(MRC)、序列到序列(Seq2Seq)、序列到動作序列(Seq2ASeq)和語言模型((M)LM)。
具體的范式描述如下:
分類范式(Class)為文本指定預定義的標簽。文本分類通常將文本輸入一個基于深度神經網絡的編碼器來提取特征,然后將其輸入一個淺層分類器來預測標簽,如=CLS(ENC())??梢允仟殶峋幋a,ENC(?)通常是卷積網絡、循環(huán)網絡或Transformers,CLS(?)常由一個簡單的多層感知器和匯聚層實現(xiàn)。
匹配范式(Matching)是預測兩個文本語義相關性的一種范式。Matching范式可以簡單地表述為=CLS(ENC(,)),和是被預測的兩段文本,可以是離散或連續(xù)的。
序列標注范式(Seq Lab)可用于模擬各種任務,如詞性標注(POS)、命名實體識別(NER)和組塊分析。傳統(tǒng)的基于神經網絡的序列標注模型由編碼器和解碼器組成,如1,?,=DEC(ENC(1,?,))。1,?,是1,?,對應的標簽。
機器閱讀理解范式(MRC)從輸入序列中提取連續(xù)詞元序列(span)來回答給定的問題。MRC范式可以描述為?+=DEC(ENC(,)),和表示篇章和問題,?+是從或中獲得span。
序列到序列范式(Seq2Seq)是一種通用且功能強大的范式,可以處理各種NLP任務。Seq2Seq范式通常由編碼器—解碼器框架實現(xiàn),如1,?,=DEC(ENC(1,?,))。與Seq Lab不同,這里輸入和輸出的長度不需要相同。
序列到動作序列范式(Seq2ASeq)是一種廣泛使用的結構化預測范式。Seq2ASeq范式的例子通常被稱為基于轉移的模型,可規(guī)范為=CLS(ENC(),),=1,?,是動作序列,=1,?,?1是狀態(tài)序列。
語言模型范式(LM)估計給定單詞序列出現(xiàn)在句子中的概率。它可以被簡單表示為=DEC(1,?,?1),DEC可以是任何自回歸的模型。一種LM的變體ML可以被規(guī)范為:=DEC(ENC(?)),?由將的一些詞元(token)替換為特殊詞元[MASK]得到,表示待預測的詞元。
圖:自然語言處理中的七種主流范式
資料來源:千際投行,資產信息網,中國中文信息學會
技術方法與研究現(xiàn)狀
傳統(tǒng)的文本分類任務可以通過Class范式很好地解決。但其變體(如多標簽分類)可能具有挑戰(zhàn)性。為此,Yang et al.采用Seq2Seq范式,以更好地捕捉多標簽分類任務中標簽之間的相互作用。Sun et al.采用Matching范式預測輸入對(,)是否匹配,是原文本,是類的描述。
自然語言推理(NLI)通常在Matching范式中進行建模,兩個輸入文本(,)被編碼并互相作用,再連接分類器預測它們的關系。隨著BERT等功能強大的編碼器出現(xiàn),NLI任務可以通過將兩個文本連接為一個文本在Class范式中解決。
命名實體識別(NER)可以被分為3類:常規(guī)NER、嵌套NER和非連續(xù)NER。傳統(tǒng)的方法基于Seq Lab、Class和Seq2ASeq來分別解決3個任務。Li et al.提出將常規(guī)NER和嵌套NER規(guī)范為MRC任務。Yan et al.使用一種基于Seq2Seq范式的統(tǒng)一模型來解決所有3種子任務。
方面級情感分析(ABSB)是一種細粒度的情感分析,可以分為7種子任務以被不同的范式處理。Mao et al.采用MRC范式處理所有的ABSB子任務。Yan et al.通過將任務的標簽轉化為詞元序列,再使用Seq2Seq范式來處理。
關系抽?。≧E)主要有兩個子任務:關系預測和三元組抽取。前者主要通過Class范式解決,而后者常以流水線方式處理:首先使用Seq Lab范式提取實體,再使用Class范式預測實體間關系。Zeng et al.使用Seq2Seq范式處理三元組抽取任務,Levy et al.使用MRC范式處理RE任務。此外,三元組抽取也可以通過轉化為多輪對話后用MRC范式處理。
解決文本摘要任務有兩種不同的方法:抽取式摘要和生成式摘要。前者通常使用Seq Lab范式,而后者常通過Seq2Seq范式直接生成。Mc Cann et al.將其規(guī)范為一個問答任務,并使用Seq2Seq模型解決;Zhong et al.提出用Matching范式處理抽取式摘要。
語法分析在機器翻譯和問答等應用中有重要作用?;谵D移和基于圖的方法是兩種常用的手段。前者通常使用Seq2ASeq范式,而后者使用Class范式解決。通過將目標樹結構線性化為一個序列,該任務可以通過Seq2Seq范式解決。此外,Gan et al.使用MRC范式來解決依存分析任務。
技術展望與發(fā)展趨勢
一些范式已經顯示出將各種NLP任務規(guī)范為統(tǒng)一框架的潛在能力,提供了將單個模型作為不同NLP任務的統(tǒng)一解決方案的可能性。單個統(tǒng)一模型的優(yōu)勢可以概括為:不再需要大量標注數(shù)據、泛化能力強以及部署便捷。
主要探討以下4種可能統(tǒng)一不同NLP任務的范式:(M)LM、Matching、MRC和Seq2Seq。將下游任務規(guī)范為(M)LM任務是利用預訓練語言模型的自然方式。(M)LM可使用無監(jiān)督數(shù)據處理理解和生成任務。另一個可能的統(tǒng)一范式是Matching。Matching的優(yōu)勢在于只需要設計標簽描述,工程量較小。但Matching需要大量NLI數(shù)據進一步訓練,領域遷移受限,且無法做生成任務。MRC范式通過生成任務特定的問題并訓練MRC模型,從輸入文本中根據問題選擇正確的span。MRC的框架模型十分通用,但難以發(fā)揮已有訓練模型的能力。Seq2Seq是一個通用且靈活的范式,非常適用于復雜任務,但也受限于自回歸生成導致較慢的推理速度。
最近,基于提示的微調(prompt-based tuning)迅速流行起來。相比之下,其他潛在的統(tǒng)一范式沒有得到充分的探索。通過預訓練或其他技術探索更強大的Matching、MRC或Seq2Seq模型或許應受到更多的重視。
3.2 詞法、句法分析任務簡介、目標及意義
詞法分析和句法分析是自然語言處理的基礎任務,可以被應用到許多自然語言處理下游任務中去,例如機器翻譯和文本摘要。
詞法分析主要包括詞性標注這一任務。詞性標注指基于詞性含義以及詞的上下文來為輸入文本中的每個詞進行詞性標注的過程,常見的詞性標簽有名詞、動詞、形容詞等。詞性標注一般沒有直接應用場景,但它卻能為許多下游任務提供幫助,例如,在詞義消歧任務當中,詞義和詞性常常是相關聯(lián)的,比如“翻譯”一詞既可指職業(yè)也可指行為,這兩個詞義的一大區(qū)別即為其詞性不同:前者為名詞而后者為動詞。
句法分析旨在對輸入的文本句子進行分析以得到句子的句法結構。常見的句法分析有依存句法分析和成分句法分析。依存句法分析識別句子中詞與詞之間的相互依存關系,而成分句法分析識別句子中的層次化短語語法結構。句法分析在諸多自然語言處理下游任務中都有應用,例如在嵌套命名實體識別任務中,由于實體間存在相互嵌套現(xiàn)象,因此非常適合和成分句法分析中的層次化短語語法結構共同建模。
技術方法和研究現(xiàn)狀
詞法分析:最簡單的詞性標注器是使用字典中最常見的詞性作為當前詞的詞性,但這種簡單的規(guī)則只可以解決大約85%的詞性標注問題。為了解決詞性歧義的問題,研究者們使用機器學習算法進行詞性預測。在基于統(tǒng)計方法的時代,研究人員手動提取字詞特征,例如字母大小寫、前綴、后綴等特征,并使用隱馬爾可夫、條件隨機場等模型計算可能的標簽序列的概率分布,并選擇最佳標簽序列作為輸出。進入神經網絡時代后,常見的做法是使用LSTM、Transformer等編碼器對輸入文本進行編碼,并使用Softmax或者CRF進行解碼預測,這種方法在基于《華爾街日報》的WSJ數(shù)據集上取得了超過97%的準確率。近幾年以來,為了進一步提升性能和魯棒性,研究人員嘗試在詞性標注模型上展開編碼長距離標簽依賴關系等工作。
句法分析:主流的句法分析方法主要分為兩種:基于轉移的方法和基于圖的方法?;谵D移的方法通過預測一系列轉移操作來構建合法的句法樹結構,這種方法需要同時建模緩存區(qū)(已經生成的部分樹結構)、堆棧區(qū)(等待輸入的文本序列)和已經預測出來的轉移操作序列,其中常見的緩存區(qū)和堆棧區(qū)的建模方法為stack-LSTM,轉移操作序列的建模方法常用LSTM;基于圖的方法首先編碼輸入、給文本局部打分,而后采用動態(tài)規(guī)劃等算法來恢復句法樹結構,該種方法采用的主流編碼器包括LSTM和Transformer,解碼器一般基于最大生成樹算法(依存句法分析)或CKY算法(成分句法分析)。
近幾年來,隨著大規(guī)模預訓練語言模型的出現(xiàn),BERT、XLNET等預訓練語言模型也常被用作句法分析器的編碼器。當前最佳的依存句法分析器是基于圖的方法,使用BERT后可以在基于《華爾街日報》來標注的賓夕法尼亞大學樹庫數(shù)據集上取得了超過96%的有標簽F-1分數(shù);最佳的成分句法分析器亦采用了基于圖的方法,在使用BERT的情況下在賓大樹庫上取得了接近96%的F-1值。與此同時,句法分析領域也有新的模型架構、轉移范式不斷涌現(xiàn),例如,Zhang et al.提出了一種可以批處理的基于CRF的成分句法分析器,Yang et al.提出一種基于連結(attach)和并列(juxtapose)的新轉移范式。
聯(lián)合建模:為了解決錯誤傳播問題、進一步提高詞法分析和句法分析模型的表現(xiàn),一個常見方法是將詞性標注和句法分析進行聯(lián)合建模。具體來說,詞性標注、依存句法分析和成分句法分析這三個任務中,任意兩個任務或者全部三個任務均可組合起來進行聯(lián)合建模。研究人員發(fā)現(xiàn),聯(lián)合建??梢杂行嵘齾⑴c建模的各個任務的準確率,例如,Zhou et al.在賓大樹庫上進行依存句法分析和成分句法分析的聯(lián)合建模,在兩個任務上的錯誤率分別比單獨建模減少了16%和3%。
發(fā)展趨勢
在詞法和句法分析任務上,隨著在新聞領域(賓大樹庫所基于的領域)內模型的表現(xiàn)接近理論上限,研究人員們將視線轉向了更加具有實用性、同時也富有挑戰(zhàn)性的跨領域和多語言場景中去,具體來說,研究人員們試圖探究在低資源、零資源的情景下如何使得詞法、句法分析器仍舊得以應用,沿著這個研究方向,近期工作包括了跨語言、跨領域詞法分析器的設計、新領域樹庫的構建和跨領域、跨語言句法分析器的構建等工作。
3.3 語義分析任務簡介、目標及研究意義
語義分析(semantic analysis)是生成意義表示并將這些意義指派給語言輸入的過程。根據語言輸入的粒度不同,語義分析又可進一步分為詞匯級語義分析、句子級語義分析和篇章級語義分析。通常,詞匯級語義分析主要關注如何區(qū)分和獲取單個詞語的語義,經典任務是詞義消歧(Word Sense Disambiguation, WSD),即在特定的語境中,識別出某個歧義詞的正確詞義;句子級語義分析主要關注解析由詞語所組成的句子的語義,根據分析的深淺程度又分為淺層語義分析和深層語義分析,其中淺層語義分析的經典任務是語義角色標注(Semantic Role Labeling, SRL),即識別出給定句子的謂詞及謂詞的相應語義角色成分。
深層語義分析,又稱為語義解析,即將輸入的句子轉換為計算機可識別、可計算的語義表示,語義解析又根據應用情境的不同,可分為自然語言到結構化查詢(language to query)、語言到代碼(language to code)和語言到機器操作指令(language to instruction);篇章級語義分析主要關注由句子組成的篇章的內在結構并理解各個句子的語義以及句子與句子之間的語義關系,進而理解整個篇章的語義。詞語級語義分析是句子、篇章語義分析的基礎,句子級語義分析又是篇章語義分析的基礎。
語義分析是自然語言處理的核心任務,其目標是實現(xiàn)對語言輸入的語義理解,進而支撐后續(xù)的操作和處理。在理論上,語義分析涉及語言學、計算語言學、認知科學、神經科學等多個學科,語義分析的研究和進展可推動多個相關學科的發(fā)展。在應用上,語義分析對自然語言處理領域的其他任務都有一定的促進作用。
如現(xiàn)代機器翻譯,雖然目前的神經機器翻譯系統(tǒng)已取得媲美人類甚至超過人類的翻譯效果,但要真正達到“信、達、雅”的標準,還需要有語義分析的參與。如現(xiàn)代的語義搜索引擎,從以前的匹配查詢與文檔轉變?yōu)榱死斫庥脩籼峤坏牟樵兊囊鈭D,能夠更精準的向用戶返回最符合需求的搜索結果。另外,知識獲取方面,它與語義分析是相互促進的,一方面,語義分析需要知識的支撐,更大、更全、更準確的知識庫對語義分析有著至關重要的作用;另一方面,為了從自由文本中獲取更多結構化的知識,語義分析又是必不可少的技術。
目前,語義分析的研究吸引了國內外大批學者,但大部分都集中于句子級語義分析方向上,詞匯級和篇章級的研究工作甚少。主要因為詞匯級語義分析,如詞義消歧,已發(fā)展多年,技術已趨成熟,研究的重心轉向句子級的語義分析;而篇章級語義分析由于完全體的篇章理解過于困難,因此衍生了多個與之相關的任務,如篇章的結構分析、話語分割、指代消解、共指消解等,任務分散且偏邊緣,導致得到的研究關注很少,進展也緩慢。整體來說,語義分析雖然已取得了一定的進展,但技術還遠未成熟完美。
研究進展與影響
在深度神經網絡模型崛起之前,語義分析領域基于文法和組合規(guī)則的模型占據主流。近5年來,隨著神經網絡模型的興起,特別是序列到序列模型(Seq2Seq)在自然語言處理多個任務上的成功,如機器翻譯,語義分析任務上也開始嘗試將語義分析問題建模為序列到序列的問題。近2年,隨著像BERT、GPT這樣的大規(guī)模預訓練語言模型的提出,并在自然語言處理的多個任務上面取得SOTA,整個NLP領域都轉型采用預訓練+精調的新研究范式。為了更好的利用大模型里面的知識,NLP領域還興起了基于提示語(prompt)的方法浪潮。深度語義分析領域也緊跟整個NLP領域的大潮,與之對應的先后出現(xiàn)了基于序列到序列的語義分析方法面向語義分析的預訓練方法和基于大模型受限生成的方法。
其中基于序列到序列的語義分析方法的核心在于將結構化的語義表示序列化,把語義表示看成一系列的語義單元。相比基于文法和組合規(guī)則的方法,Seq2Seq方法非常簡單,是端到端的,不需要人工設計特征,也不需要學習文法和組合規(guī)則。然而,Seq2Seq的方法也忽略了一個問題,不同于機器翻譯,語義分析的目標語言不是一種自然語言,而是一種形式化語言,它具有層次結構,Seq2Seq方法只是簡單地將語義表示偏平序列化,忽略了語義表示的層次結構信息,基于此,Dong et al.提出了Seq2Tree的方法,其核心是一個層次化的解碼器,解碼時不再生成偏平化的語義表示序列,而是生成層次結構化的語義表示,簡而言之,用一個層次樹結構的形式來表征語義,序列化時,采用層次結構樹的廣度優(yōu)先遍歷的形式。
考慮到Seq2Seq和Seq2Tree方法都忽略了語義表示token之間的緊密聯(lián)系,Chen et al.提出了一種Seq2Action的方法,該方法采用語義圖作為語義表示,然后將語義圖進行原子級分解,用設計好的動作序列來表示語義圖的構建,進而用編碼器-解碼器模型框架來生成動作序列,并利用到語義表示token之間存在嚴格的句法和語義約束,提出了一種受限的解碼方法?;谛蛄械叫蛄械恼Z義分析方法由于其簡單而有效的特點,成為了目前語義分析領域最常用的基線模型。
與其它面向特定任務的預訓練模型方法類似,面向語義分析的預訓練模型也包含兩個關鍵:收集數(shù)據和設計自監(jiān)督學習任務。針對text-to-sql的語義分析問題,典型的預訓練模型是GraPPa,其采用了兩種常用的用于text-to-sql問題的數(shù)據收集方法,一是從已有的跟表格有關的數(shù)據中抽取表格與自然語言對,二是利用同步文法在新采樣的表格上自動生成(表格,自然語言,sql)數(shù)據對。預訓練模型的輸入不同于預訓練語言模型的輸入,這里的輸入是將自然語言查詢與表格的表頭拼接起來的。
自監(jiān)督學習任務方面,為了在表示層面簡歷自然語言詞語與表頭的交互,設計掩碼任務,即對輸入進行隨機的掩碼,再進行復原,最后計算損失函數(shù)。為了進一步在表示層面學習表,通過預測表頭的語義標簽來實現(xiàn)。由于是預訓練模型,使用方面可以像使用BERT一樣方便,可適用于所有語義分析模型。
基于大模型的受限生成的方法啟發(fā)于像T5在text-to-text任務上的成功,以及GPT在文本生成任務上的成功??紤]到語義分析任務與text-to-text問題的不同:語義分析生成的不是自然語言,而是形式化的語義表示,需要滿足一定的文法約束,研究者們引入了一種中間語言:經典句式,它是一種介乎于自然語言與語義表示之間的一種語言,又與自然語言類似,但又符合確定性的文法,它與語義表示之間可以通過同步文法進行確定性的轉換。
基于經典句式,語義分析可以轉換成一種受限的復述生成。即給定輸入句子,大模型利用復述生成其經典句式,在解碼生成過程中可以利用約束來減小解碼空間。這類模型的關鍵在于解碼過程中約束的確定,目前一般采用啟發(fā)式的基于文法的形式引入約束條件。由于大模型,如T5、BART和GPT在few-shot和zero-shot問題上都表現(xiàn)出色,基于大模型的受限生成語義分析方法在few-shot和無監(jiān)督的設定下也取得了很好的成績。
技術展望和發(fā)展趨勢
語義分析技術發(fā)展迅速,整體上,緊跟自然語言處理領域的發(fā)展大潮,一方面部分方法啟發(fā)于其他任務的先進技術,如基于序列到序列的語義分析方法,另一方面部分方法也啟發(fā)了其他領域,如基于受限解碼的事件抽取方法。
基于對現(xiàn)有技術的分析和總結,語義分析后續(xù)的研究發(fā)展趨勢主要包括:
(1)通用的面向自然語言理解的預訓練模型
目前的面向語義分析的預訓練模型由于高質量的標注數(shù)據難以獲取的問題,預訓練模型還只在text-to-sql和code generation等數(shù)據相對容易獲取的問題上得以實現(xiàn)。接下來,可以嘗試同時面向更加通用的語義分析情境,如面向開放域的問答,語言到機器執(zhí)行指令等,一個預訓練模型,適用所有的語義分析任務。
(2)自學習的控制生成
目前,研究者都已意識到大模型加受限解碼在語義分析問題上的威力。但整個過程還需要人工參與,如約束條件需要人來參與設計,用于經典句式與語義表示之間互相轉換的同步文法需要人工定義。如何將這些人工參與的部分交給模型自主學習,實現(xiàn)自學習的soft的同步文法和自學習的soft的條件約束是下一步可研究的點。
(3)狀態(tài)感知的預訓練模型
目前的大模型與世界沒有太多交互。而語義分析任務中有些情境需要與世界進行交互,如基于對話執(zhí)行查詢,基于對話執(zhí)行指令操作等。如何訓練一個面向自然語言理解的能與世界進行交互的大模型,即當世界的狀態(tài)因為當前的動作發(fā)生改變時,大模型能否及時的感知到狀態(tài)的變化,并在理解下個輸入的過程中是基于已更新過的世界狀態(tài)的,也是一個可探究的點。
3.4 信息抽取任務定義和目標
信息抽?。↖nformation Extraction)的目標是從非結構化文本中抽取出結構化的信息,主要包括實體抽取、實體關系抽?。≧elation Extraction,RE)、事件抽?。‥vent Extraction,EE)和事件關系抽?。‥vent Relation Extraction,ERE)等任務。實體主要是指文本中名詞性的短語,比如人名、地名、機構名、時間、日期、數(shù)字等。實體抽取也稱為命名實體識別(Named Entity Recognition,NER),包括實體的識別和分類。實體識別就是從文本中找出哪個片段是一個實體。實體的分類就是判斷找出的實體屬于什么類別,比如:人名、地名等。實體關系抽取則是判斷兩個實體之間的語義關系,比如“姚明”和“上海市”這兩個實體之間是“出生于”的關系,而“北京”與“中國”則是“首都”的關系。事件抽取任務是識別特定類型的事件,并把事件中擔任既定角色的要素找出來,該任務可進一步分解為4個子任務:觸發(fā)詞識別、事件類型分類、論元識別和角色分類任務。
信息抽取技術是中文信息處理和人工智能的核心技術,具有重要的科學意義。通過將文本所表述的信息結構化和語義化,信息抽取技術提供了分析非結構化文本的有效手段,是實現(xiàn)大數(shù)據資源化、知識化和普適化的核心技術。被抽取出來的信息通常以結構化的形式描述,可以為計算機直接處理,從而實現(xiàn)對海量非結構化數(shù)據的分析、組織、管理、計算、查詢和推理,并進一步為更高層面的應用和任務(如自然語言理解、知識庫構建、智能問答系統(tǒng)、輿情分析系統(tǒng))提供支撐。
技術方法和研究現(xiàn)狀
信息抽取的核心是將自然語言表達映射到目標知識結構上,并轉換為可供計算機處理的知識。然而,自然語言表達具有多樣性、歧義性和結構性,其中蘊含的知識具有復雜性、開放性以及規(guī)模巨大的特點,進而導致信息抽取任務極具挑戰(zhàn)性。自上世紀80年代被提出以來,信息抽取一直是自然語言處理的研究熱點。
在早期,大部分信息抽取系統(tǒng)(如MUC評測中的信息抽取系統(tǒng))都采用基于規(guī)則的方法,該類方法依靠人工制定規(guī)則,其優(yōu)點是可預判和解釋,但面臨著移植性差,很多場景很難甚至無法總結有效的規(guī)則。自90年代以來,統(tǒng)計模型成為信息抽取的主流方法,通常將信息抽取任務形式化為從文本輸入到特定目標結構的預測,使用統(tǒng)計模型來建模輸入與輸出之間的關聯(lián),并使用機器學習方法來學習模型的參數(shù),經典的方法包括使用條件隨機場(CRF)將實體識別問題轉化為序列標注問題。近年來,隨著深度學習時代來臨,研究者主要聚焦于如何使用深度神經網絡自動學習有區(qū)分性的特征,進而避免使用傳統(tǒng)自然語言處理工具抽取特征時存在的錯誤累積問題。隨著研究的深入,特別是大規(guī)模預訓練語言模型的引入,基于深度神經網絡的信息抽取模型在公開數(shù)據集上達到了不錯的成績,但是在實際應用場景效果還不盡人意。
理想設定與實際場景存在巨大鴻溝,近期越來越多的工作針對實際應用中的挑戰(zhàn)展開。真實場景中實體、關系、事件具有長尾分布特點,許多關系和實體對的示例較少。對于金融、醫(yī)療等垂直領域,缺失標注數(shù)據現(xiàn)象更為明顯,甚至數(shù)據的獲取也很困難,而神經網絡作為典型的“數(shù)據饑渴”模型,在訓練樣例過少時性能會受到極大影響。針對小樣本任務,Ding等發(fā)布了包含8種粗粒度和66種細粒度實體類的少樣本命名實體識別;Han等發(fā)布了小樣本關系抽取數(shù)據集Few Rel,Gao等在Few Rel數(shù)據集的基礎上提出了FewRel2.0,增加了領域遷移(domain adaptation)和“以上都不是”檢測(noneof-the-above detection)。利用海量無監(jiān)督數(shù)據得到的預訓練模型得到有效的語義特征是少量樣本快速學習知識的代表性方法,Baldini等使用BERT來對文本關系進行表示,并且提出了Matching the blanks的方法來預訓練任務不可知(task agnostic)的關系抽取模型。
真實場景中的信息抽取還面臨著復雜的語境,例如大量的實體間關系是通過多個句子表達的,同一個文檔中的多個事件相互影響,文檔級的信息抽取最近也收到廣泛的關注,代表性的方法是使用圖神經網絡融合分布在文檔中不同位置的實體的信息,并利用圖算法進行信息的傳遞。Quirk等最早嘗試構建文檔級圖,捕獲相鄰句子之間的關系。Christopoulou等構建以實體、實體提及(Mention)和句子為節(jié)點的文檔圖,并通過圖上的迭代算法得到邊的表示進行關系分類,之后有大量的研究者采用類似的方法對文檔建模。除了使用圖網絡外,研究者也開始嘗試直接使用大規(guī)模語言模型建模文檔,Xu等將Mention是否在同一個句子中、是否指向同一個實體編碼作為實體結構信息送入到BERT編碼層。Zhou等提出自適應閾值代替用于多標簽分類的全局閾值,并直接利用預訓練模型的自注意力得分找到有助于確定關系的相關上下文特征。在大規(guī)模預訓練語言模型的研究上,研究者也嘗試著加入知識增強語義表示,例如ERNIE中字、短語和實體三個級別的遮罩(MASK)訓練,Qin等通過對比學習的方式將實體判別、關系判別作為輔助任務幫助模型的訓練。
發(fā)展趨勢
信息抽取技術研究蓬勃發(fā)展,已經成為了自然語言處理和人工智能等領域的重要分支。這一方面得益于系列國際權威評測和會議的推動,如消息理解系列會議(MUC,Message Understanding Conference),自動內容抽取評測(ACE,Automatic Content Extraction)和文本分析會議系列評測(TAC,Text Analysis Conference)。另一方面也是因為信息抽取技術的重要性和實用性,使其同時得到了研究界和工業(yè)界的廣泛關注。信息抽取技術自身的發(fā)展也大幅度推進了中文信息處理研究的發(fā)展,迫使研究人員面向實際應用需求,開始重視之前未被發(fā)現(xiàn)的研究難點和重點。
縱觀信息抽取研究發(fā)展的態(tài)勢和技術現(xiàn)狀,信息抽取的發(fā)展方向如下:
(1) 高效的小樣本學習能力
目前的小樣本學習設定需要用一個巨大的訓練集訓練的,測試時只給出N-way Kshot,在這N*K個樣本上學習并預測。真實場景下的小樣本學習不存在巨大的訓練集,從GPT3開始,預訓練-提示(Prompt)學習范式受到研究者的關注,該范式將下游任務也建模成語言模型任務,在只給出幾條或幾十條樣本作為訓練集,借助與大規(guī)模預訓練語言模型中蘊含的大量知識,取得了不錯的小樣本學習效果取得了。此外,相對于傳統(tǒng)的Pretrain+Finetune范式,Prompt有得天獨厚的,可以擺脫指數(shù)級的預訓練參數(shù)量對巨大計算資源的需求,高效的利用預訓練模型?;谏鲜龇治?,信息抽取的發(fā)展方向之一是利用預訓練—提示學習范式進行高效的小樣本學習。具體包括:1)提示學習中信息抽取任務模板的設計;2)模板的自動學習與挖掘;3)預訓練-提示學習范式進行信息抽取的理論分析。
(2) 多模態(tài)信息融合
目前信息抽取主要針對的是純文本數(shù)據,而常見的文檔具有多樣的布局且包含豐富的信息,以富文本文檔的形式呈現(xiàn)包含大量的多模態(tài)信息,從認知科學的角度來說,人腦的感知和認知過程是跨越多種感官信息的融合處理,如人可以同時利用視覺和聽覺信息理解說話人的情感、可以通過視覺信息補全文本中的缺失信息等,信息抽取技術的進一步發(fā)展也應該是針對多模態(tài)的富文檔?;谏鲜龇治?,信息抽取的發(fā)展方向之一是多模態(tài)信息的融合。具體包括:1)多模態(tài)預訓練模型的設計;2)多模態(tài)信息抽取框架中跨模態(tài)對齊任務設計;3)多模態(tài)信息的提取和表示。
(3) 數(shù)據驅動和知識驅動融合
現(xiàn)有的神經網絡信息抽取方法依靠深度學習以數(shù)據驅動的方式得到各種語義關系的統(tǒng)計模式,其優(yōu)勢在于能從大量的原始數(shù)據中學習相關特征,比較容易利用證據和事實,但是忽略了怎樣融合專家知識。單純依靠神經網絡進行信息抽取,到一定準確率之后,就很難再改進。從人類進行知識獲取來看,很多決策的時候同時要使用先驗知識以及證據。數(shù)據驅動和知識驅動結合是模擬人腦進行信息抽取的關鍵挑戰(zhàn)?;谏鲜龇治?,信息抽取的發(fā)展方向之一是構建數(shù)據驅動和知識驅動融合抽取技術。具體包括:1)神經符號學習信息抽取框架的構建;2)學習神經網絡到邏輯符號的對應關系;3)神經網絡對于符號計算過程進行模擬。
3.5 基于知識的自然語言處理任務定義和目標
基于知識的NLP,是指利用人類各類型結構化知識(如語言知識圖譜、世界知識圖譜、常識知識圖譜等)提升NLP模型語言處理能力的相關處理方法。通過融合符號表示的人類結構化知識及其帶來的認知推理能力,賦予語言深度學習模型更好的可解釋性與認知推理能力,突破當前NLP領域中廣泛使用的深度學習技術所面臨的可解釋性差、可擴展性差和魯棒性差等瓶頸問題。
研究內容和技術現(xiàn)狀
完成知識圖譜到NLP深度學習模型的融合,涉及知識表示學習、融合知識的預訓練語言模型等關鍵技術。
(1)面向NLP的知識表示學習(KRL)
離散符號表示的知識圖譜,在計算上存在計算效率低下和數(shù)據稀疏等挑戰(zhàn)問題。近年來,人們提出了基于深度學習的KRL的技術方案,并被廣泛研究與應用。
語言知識圖譜的KRL:語言知識圖譜,描述的是以形式化和結構化語言表達的語言學知識,可以輕松植入各種NLP系統(tǒng),代表性有How Net、WordNet等。詞表示學習是許多NLP任務的基礎步驟,代表性方法有Word2Vec、GloVe等,但這些方法都是將每個詞映射成一個向量,不能夠解決一詞多義的問題。為解決該問題,許多學者提出利用語言知識圖譜指導的詞表示學習,通過其細粒度語言學知識增強詞的語義表示。例如,1)基于How Net義原編碼的詞表示學習方法(SE-WRL),將每個詞看成一組義原的組合,將詞義消歧和融合義原、義項、詞的Skip-gram詞表示學習進行聯(lián)合建模。2)將詞向量改造為語義詞典的Retrofitting方法,給出了通過鼓勵鏈接詞具有相似的向量表示來使用WordNet等語義詞典中的關系信息來細化向量空間表示。近幾年隨著基于預訓練模型的背景表示學習的興起,相關研究開始聚焦于如何利用語言知識圖譜增強詞的上下文表示。
世界知識圖譜的KRL:世界知識圖譜,指以結構化符號表示的實體及其關系的知識庫,代表性有Wiki Data、DBpedia等,其表示學習的核心問題是學習實體和關系的低維分布式表示。相關研究圍繞的核心問題有:1)如何度量事實三元組的合理性;2)何種編碼模型建模關系交互;3)如何融合異構信息。
度量函數(shù),用于衡量事實的合理性。目前有兩種典型的度量函數(shù):1)基于距離的度量函數(shù),通過計算實體之間的距離來衡量事實的合理性,其中+≈關系的上平移被廣泛使用,代表方法有Trans E、Trans H、Trans R等。2)基于語義相似性的度量函數(shù),通過語義匹配來衡量事實的合理性。它通常采用乘法公式?≈,代表方法有RESCAL、Dist Mult、ComplEx等。
編碼模型,即對實體和關系的交互編碼使用的具體模型架構,包括線性/雙線性模型、分解模型和神經網絡模型。線性模型通過將頭部實體投影到靠近尾部實體的表示空間中,將關系表述為線性/雙線性映射,代表方法有DistMult, ComplEx等。分解模型旨在將關系數(shù)據分解為低秩矩陣以進行表征學習,代表方法有RESCAL、Tuck ER等。神經網絡模型通過用更復雜的網絡結構對關系數(shù)據進行編碼,如R-GCN、KG-BERT等,其中KG-BERT借鑒PLM思想,用BERT作為實體和關系的編碼器。
異構信息,在知識圖譜中除了實體和關系本身信息之外,還包含其他類型信息,如文本描述、實體屬性、類別約束、關系路徑、視覺信息等。利用這些額外信息增強實體和關系的知識語義表示,主要挑戰(zhàn)在于異構信息編碼和異構信息融合等問題。KEPLER給出了預訓練語言表示和知識表示聯(lián)合學習的統(tǒng)一模型,如圖所示,其通過聯(lián)合學習不僅能夠將事實知識信息更好的嵌入到預訓練語言模型中,同時通過預訓練語言模型可以得到文本語義增強的知識表示。
圖:KEPLER模型框架
資料來源:千際投行,資產信息網,中國中文信息學會
(2)融合知識的預訓練語言模型(PLM)
目前PLM主要采用互聯(lián)網獲取的海量通用文本語料訓練得到,實現(xiàn)了對文本豐富語義模式的編碼,但由于沒有自覺運用結構化知識,依然嚴重缺乏知識運用和推理能力,缺乏可解釋性和魯棒性。為此,許多學者研究了融合結構化知識的PLM及其學習框架,融合方法大致分為以下4種:
知識增廣:從輸入端增強模型,有兩種主流的方法:一種方式是直接把知識加到輸入,另一方法是設計特定模塊來融合原輸入和相關的知識化的輸入表示。目前,基于知識增廣的方法已經在不同任務上取得良好效果,如信息檢索、問答系統(tǒng)和閱讀理解。知識支撐:關注于對帶有知識的模型本身的處理流程進行優(yōu)化。一種方式是在模型的底部引入知識指導層來處理特征,以便能得到更豐富的特征信息。例如,使用專門的知識記憶模塊來從PLM底部注入豐富的記憶特征。另一方面,知識也可以作為專家在模型頂層構建后處理模塊,以計算得到更準確和有效的輸出。例如,利用知識庫來改進語言生成質量。知識約束:利用知識構建額外的預測目標和約束函數(shù),來增強模型的原始目標函數(shù)。例如,遠程監(jiān)督學習利用知識圖譜啟發(fā)式標注語料作為新的目標,并廣泛用于系列NLP任務,如實體識別、關系抽取和詞義消歧?;蛘呃弥R構建額外的預測目標,比如ERNIE, Co LAKE和KEPLER等工作,都是在原始的語言建模之外構建了相應額外的預訓練目標。知識遷移:則是從參數(shù)空間進行考量,獲取一個知識指導的假設空間,從而讓模型更有效。遷移學習和自監(jiān)督學習分別關注從標注數(shù)據和無標注數(shù)據獲取遷移學習和自監(jiān)督學習分別關注從標注數(shù)據和無標注數(shù)據獲取知識。作為一個遷移模型知識的典型范式,微調PLM在絕大多數(shù)NLP任務都可以取得良好的效果。在中文信息處理領域,一些中文PLM也相繼被提出,如CPM-1、CPM-2、Pan Gu-等,也都在各種中文任務中展現(xiàn)了良好性能。技術展望和發(fā)展趨勢
結合國內外相關的研究工作,下面概括性地總結基于知識的NLP的技術趨勢。一方面,面向NLP的深度學習技術能夠自動學習語義的分布式表示,表達能力強,已在NLP多項重要任務中得到充分驗證,為進一步融入知識指導信息的方法研究奠定了堅實基礎。另一方面,知識表示與推理技術已經初步具備完整的方法體系,充分利用人類各類型結構化知識賦予了人工智能不同的能力,為提升模型的可擴展性和魯棒性提供了支撐。
盡管相關研究進展顯著,但部分工作還非常初步,仍然有很多關鍵問題亟待解決,以下研究問題值得關注:
更大規(guī)模的知識表示:雖然已經出現(xiàn)了Graph Vite、Open KE、DGL-KE等系統(tǒng)工具,但這些工具還主要針對小規(guī)模知識圖譜,這限制了大規(guī)模知識圖譜的應用潛力。目前知識圖譜的規(guī)模越來越大,如Wiki data已經含有了超過9千萬實體、14.7億的關系,而且這種規(guī)模仍然呈現(xiàn)快速增長趨勢。如何將現(xiàn)有知識表示學習方法適配到億級實體規(guī)模的圖譜上仍然是一個挑戰(zhàn)。PLM的多元知識融合:目前在PLM中融合知識主要是圍繞實體、實體關系等相關事實知識圖譜,融合的知識類型和知識層次還比較單一,存在知識指導融合度低的問題。面向人類不同層次不同類型的豐富知識體系,探索融合這些多層次多類型知識的PLM框架和學習機制,是PLM技術未來研究的重要方向。PLM的持續(xù)知識增強:雖然PLM模型已經在多項任務上取得了超越人類的表現(xiàn),但是現(xiàn)在PLM的模型通用智能水平增長仍遇到瓶頸。在可以預見的未來,PLM模型的性能將持續(xù)增長。如何持續(xù)學習新知識、新數(shù)據提升模型語言處理能力,建立高效的知識持續(xù)植入的PLM學習機制,是PLM的關鍵研究方向。PLM的可靠知識編輯:PLM在訓練中需要事實知識并將其存儲在模型參數(shù)中,以用于下游各種任務等,但大量事實知識存在時效性,隨著時間推移可能會存在不準確或過時的問題。開發(fā)可靠的、無需重新訓練的高效方法來修正模型中對應知識,是實現(xiàn)高質量可靠的PLM的關鍵問題。第四章 行業(yè)發(fā)展與市場競爭4.1 行業(yè)財務分析圖:行業(yè)綜合財務分析
資料來源:千際投行,資產信息網,Wind
圖:行業(yè)歷史估值
資料來源:千際投行,資產信息網,Wind
圖:指數(shù)市場表現(xiàn)
資料來源:千際投行,資產信息網,Wind
圖:指數(shù)歷史估值
資料來源:千際投行,資產信息網,Wind
估值方法可以選擇市盈率估值法、PEG估值法、市凈率估值法、市現(xiàn)率、P/S市銷率估值法、EV/Sales市售率估值法、RNAV重估凈資產估值法、EV/EBITDA估值法、DDM估值法、DCF現(xiàn)金流折現(xiàn)估值法、NAV凈資產價值估值法等。
圖:主要上市公司
資料來源:千際投行,資產信息網,Wind
圖:機器人主營構成
資料來源:千際投行,資產信息網,Wind
圖:科大訊飛主營構成
資料來源:千際投行,資產信息網,Wind
4.2 驅動因子自然語言處理要素演進,行業(yè)迎來變更式發(fā)展
數(shù)據量、運算力和算法模型是影響自然語言處理行業(yè)發(fā)展的三大要素。2012年以來,數(shù)據量的上漲、運算力的提升和深度學習算法的出現(xiàn)促進了自然語言處理行業(yè)的快速發(fā)展?;ヂ?lián)網、社交媒體、移動設備的普及,使產生并存儲的數(shù)據量急劇增加,2020年全球將有超500億的終端與設備聯(lián)網,產生的數(shù)據總量將大于40澤字節(jié),人均每天產生的數(shù)據量預計達1.5GB。中國2020年的數(shù)據總量將達到全球數(shù)據總量的20.0%,聯(lián)網設備預計從2016年的8.4億個增長至35.0億個,連接設備數(shù)的快速增長產生了大量的應用數(shù)據。數(shù)據的爆發(fā)式增長有助于優(yōu)化自然語言處理算法,海量優(yōu)質的場景數(shù)據能夠幫助算法模型完成高效精準的識別訓練。
算法是計算機基于其所訓練的數(shù)據集歸納出的識別邏輯,算法模型的優(yōu)化可使自然語言處理技術更精準地理解與生成自然語言文本。深度學習算法通過使用復雜結構設計和各種梯度技術,將多重非線性結構變換成多個處理層,實現(xiàn)對大量數(shù)據樣本的抽象計算,擬合出一個可處理新輸入信息的函數(shù)模型,解決數(shù)據分類或預測問題。基于深層神經網絡的深度學習方法從根本上改變了自然語言處理技術的面貌,改變了自然語言處理問題的定義,變更了自然語言處理所使用的數(shù)學工具,深度學習的出現(xiàn)突破了傳統(tǒng)淺層學習算法的局限,重塑了自然語言處理算法的設計思路,極大地促進自然語言處理研究的發(fā)展。
運算力方面,GPU、FPGA,ASIC等專用芯片的出現(xiàn),緩解了自然語言數(shù)據處理速度難題,解決傳統(tǒng)的CPU芯片算力不足問題。新興的GPU、FPGA、ASIC等具有良好的并行計算能力,芯片性能大幅優(yōu)于CPU,算力比CPU芯片強數(shù)十倍甚至百倍,縮短了模型運算時間,使得自然語言運算模型的進步速度加快。
傳統(tǒng)行業(yè)智能需求增長,帶動語言處理需求上漲
金融、醫(yī)療、法律等傳統(tǒng)行業(yè)的業(yè)務處理智能化水平要求上漲,加速自然語言處理技術在行業(yè)應用中的落地進程。例如,智能問答、資訊輿情分析、文檔信息抽取、文檔自動生成等應用逐漸在金融領域的智能投研、智能投顧、智能客服和智能運營等場景實現(xiàn)應用。在智能投研場景中,投研人員每天需要通過多渠道搜索大量金融資訊信息以掌握金融市場動態(tài),而金融資訊信息極為豐富(如涉及標的公司重大新聞、公告、財務狀況,金融產品信息、宏觀經濟狀況、政策法規(guī)變化、社交媒體評論等),數(shù)據量龐大,單靠投研人員從浩如煙海的資訊庫中搜索并閱讀分析相關內容,時間精力耗費嚴重,工作效率難以提高,在此種情況下,具備資訊分類(按公司、產品、行業(yè)范圍分類)、情感分析(分析新聞、公司或產品的正負面信息)、自動文摘(分析文章的主要內容)及資訊個性化推薦功能的資訊輿情分析應用逐步受到投研人士和金融機構的推崇,資訊輿情分析應用對海量定性數(shù)據自動摘要、歸納、縮簡和抽取,為投研人員提供高效的信息展示,大幅縮短投研人員搜索以及摘取資訊的時間,提高其工作效率。
在法律領域,自然語言處理應用可幫助法律從業(yè)人員進行案例搜索、判決預測、法律文書自動生成、法律文本翻譯等,實現(xiàn)事件預處理,減少從業(yè)人員相關案件處理耗費時間。在醫(yī)療領域,病歷的輔助錄入、醫(yī)學資料的檢索與分析、輔助診斷等醫(yī)療步驟可由相關自然語言處理應用輔助進行?,F(xiàn)代醫(yī)學資料浩如煙海,新的醫(yī)學手段、方法發(fā)展迅猛,醫(yī)生和專家無法及時完全掌握所有的醫(yī)學發(fā)展動態(tài),相關自然語言處理應用可幫助醫(yī)生快速準確地尋找各種疑難病癥的最新研究進展,為醫(yī)生的診斷提供及時有效的參考。
隨著自然語言處理技術的深入發(fā)展,自然語言處理應用有望與更多傳統(tǒng)行業(yè)實現(xiàn)更深層次的結合,為人類帶來更多人工智能效應。
4.3 制約因子自然語言處理存在技術難題
自然語言處理與語音識別以及圖像識別不同,自然語言處理不是單輪處理操作過程,算法模型對單一輸入進行單輪分析無法輸出結果,自然語言的語義與上下文或前后輪對話語境有關,需要對輸入的自然語言進行多輪分析方可得到結果。而目前的深度學習技術,多輪建模發(fā)展并不成熟,與語音識別以及圖像識別的單輪分析模型的成熟度無法相提并論。
此外,人類在語言交流過程中,使用的話語表達內容通常暗含常識性表示(如嬰兒、小孩以及成人代表不同年齡段人群),話語表達風格反應用語者的個性化特征,不同的人對相同的內容可有不同的表達方式。現(xiàn)階段的自然語言處理模型未能解決常識問題和個性化問題,如手機語音助手聽到“查找附近的餐館”指令時,可在地圖上執(zhí)行查找附近餐館的任務,并顯示附近餐館信息,但若發(fā)號指令者說“我餓了”,手機語音助手則不會有任何反應,因為語音助手缺乏“餓了需要進食”的常識,而人類聽了“我餓了”的話語,反應一定是“需要進食”。眾多潛藏在人類意識中的常識,計算機并不具備且無法學習,模型開發(fā)者亦不知道將常識知識用在機器問答和機器搜索中的效果如何,業(yè)內尚待建立常識知識庫,測試訓練模型。
自然語言處理模型通用性不強
自然語言使用情況復雜,不同場景、不同語種、不同專業(yè)的自然用語差異較大,所需要的自然語言處理層次不同,基于某一領域語料庫建立的自然語言處理模型不具通用性,應用于其他領域時處理結果明顯較差,系統(tǒng)性能顯著下降。自然語言模型不具通用性限制了自然語言產品在不同應用領域的推廣,大幅減緩了自然語言處理行業(yè)的發(fā)展進程。
雖然近年來研究者們針對語言模型、語序模型、語調模型等問題對自然語言處理進行了眾多領域自適應的調試,但每種調試方法只能解決單方面的自適應問題,通用性問題仍然無法解決。自然語言處理廠商無法用單一模型解決自然語言處理方面的所有問題,只能根據不同領域,開發(fā)相應的自然語言模型,運行相關領域的知識庫,處理特定領域的自然語言問題。但在目前行業(yè)應用尚未普及,產品商業(yè)模式并不清晰的情況下,自然語言處理廠商缺乏動力為少數(shù)應用以及各種領域開發(fā)專用算法,導致自然語言處理技術難以大范圍推廣落地。
機器理解自然語言技術未有突破
自然語言理解結果不準確,限制自然語言處理應用推廣。自然語言理解與生成是機器在人工智能、大數(shù)據等技術指引下產生的機器行為。機器由于難以擁有生活常識、文化背景和人類風俗習慣知識儲備,對于作為文化載體的自然語言,無法結合具體的語言環(huán)境、風俗習慣等因素分析語言內容,只能通過系統(tǒng)設定的規(guī)則機械地分析源語的語法結構,語言邏輯無法處理,對于復雜句子結構或層層句式嵌套的情況,機器的自然語言理解準確度不高。機器對自然語言長句的理解能力以及全方位體會語用者的真實表達意圖的能力無法在短期內得到明顯提高,與人類的語言理解能力相比,差距仍然存在較大。自然語言處理應用暫時只能通過完善部分領域的知識庫和語料庫,優(yōu)化部分領域內的自然語言處理應用的用戶體驗。
4.4 市場發(fā)展現(xiàn)狀早期的靜態(tài)詞向量預訓練模型,以及后來的動態(tài)詞向量預訓練模型,特別2018年以來,以BERT、GPT為代表的超大規(guī)模預訓練語言模型恰好彌補了自然語言處理標注數(shù)據不足的缺點,幫助自然語言處理取得了一系列的突破,使得包括閱讀理解在內的幾乎所有自然語言處理任務性能都得到了大幅提高,在有些數(shù)據集上甚至達到或超過了人類水平。
所謂預訓練模型(Pre-trained Models),即首先在一個原任務上預先訓練一個初始模型,然后在下游任務(也稱目標任務)上繼續(xù)對該模型進行精調(Fine-tune),從而達到提高下游任務準確率的目的。本質上,這也是遷移學習(Transfer Learning)思想的一種應用。然而,由于同樣需要人工標注,導致原任務標注數(shù)據的規(guī)模往往也是非常有限的。那么,如何獲得更大規(guī)模的標注數(shù)據呢?
其實文本自身的順序性就是一種天然的標注數(shù)據,通過若干連續(xù)出現(xiàn)的詞語預測下一個詞語(又稱語言模型)就可以構成一項源任務。由于圖書、網頁等文本數(shù)據規(guī)模近乎無限,這樣就可以非常容易地獲得超大規(guī)模的預訓練數(shù)據。有人將這種不需要人工標注數(shù)據的預訓練學習方法稱為無監(jiān)督學習(Unsupervised Learning),其實這并不準確,因為學習的過程仍然是有監(jiān)督的(Supervised),更準確的叫法應該是自監(jiān)督學習(Selfsupervised Learning)。
為了能夠刻畫大規(guī)模數(shù)據中復雜的語言現(xiàn)象,還要求所使用的深度學習模型容量足夠大?;谧宰⒁饬Φ腡ransformer模型顯著地提升了對于自然語言的建模能力,是近30年來具有里程碑意義的進展之一。要想在可容忍的時間內,在如此大規(guī)模的數(shù)據上訓練一個超大規(guī)模的Transformer模型,也離不開以GPU、TPU為代表的現(xiàn)代并行計算硬件??梢哉f,超大規(guī)模預訓練語言模型完全依賴“蠻力”,在大數(shù)據、大模型和大計算資源的加持下,使自然語言處理取得了長足的進步。如Open AI推出的GPT-3,是一個具有1,750億參數(shù)的巨大規(guī)模,無需接受任何特定任務的訓練,便可以通過小樣本學習完成十余種文本生成任務(如問答、風格遷移、網頁生成、自動編曲等)。目前,預訓練模型已經開啟了自然語言處理的新時代。
綜上,可以看出自然語言處理的發(fā)展歷史呈現(xiàn)了一種明顯的“同質化”趨勢。早期的自然語言處理算法需要根據不同的任務編寫特定的邏輯將輸入文本轉換為更高級別的特征,然后使用相對同質化的機器學習算法(如支持向量機)進行結果預測;此后,深度學習技術能夠使用更加同質化的模型架構(如卷積神經網絡),在輸入文本上直接進行學習,并在學習的過程中自動“涌現(xiàn)”出用于預測的更高級別的特征;而預訓練模型同質化的特性更加明顯,目前幾乎所有最新的自然語言處理模型都源自少數(shù)大規(guī)模預訓練模型(如BERT、Ro BERTa、BART、T5等)。GPT-3模型更是能夠做到一次預訓練,即可直接(或僅使用極少量訓練樣本)完成特定的下游任務。
截至2020年,全球自然語言處理的市場規(guī)模為118億2000萬美元,預計將于2026年增長至530億8000萬美元?,F(xiàn)階段,我國自然語言處理技術商業(yè)化并不成熟,部分已實現(xiàn)商業(yè)化應用的自然語言處理技術相關產品(如智能客服、搜索引擎等)均無法將收益直接歸因于自然語言處理技術,單獨運用自然語言處理技術的產品應用(文檔分類、輿情分析等)尚未產生明顯受益,因此自然語言處理技術產生的市場營收規(guī)模仍然較小,2020年,我國人工智能核心產業(yè)及帶動產業(yè)規(guī)模分別為1512.5億元和5725.7億元,預計至2021年將分別達到1898.1億元和7442.1億元,年均復合增長率分別為32%和19.5%。但自然語言處理技術是眾多人工智能設備(如智能家居設備、智能機器人、智能助手等)不可或缺的核心技術,隨著智能設備數(shù)量增長以及行業(yè)智能化業(yè)務處理水平要求的提高,自然語言處理市場有望得到進一步拓展,自然語言處理市場營收規(guī)模有望在2019-2023年間以48.2%的年復合增速實現(xiàn)快速增長。
圖:2019-2022年中國人工智能市場規(guī)模預測趨勢圖
資料來源:千際投行,資產信息網,中商情報網
4.5 競爭格局中國自然語言處理市場參與者可分為互聯(lián)網巨頭企業(yè)、自然語言處理技術研發(fā)企業(yè)以及自然語言處理創(chuàng)業(yè)企業(yè),其中互聯(lián)網巨頭企業(yè)在自然語言處理行業(yè)占據約80%的市場份額,自然語言處理技術研發(fā)企業(yè)以及創(chuàng)業(yè)企業(yè)合計共占20%的市場份額。
互聯(lián)網巨頭企業(yè)通過資金、技術、數(shù)據資源等實力,實現(xiàn)自然語言處理的基礎軟、硬件層、技術層以及應用層全產業(yè)鏈布局,如百度開發(fā)了自然語言處理應用平臺,為眾多自然語言研發(fā)企業(yè)開源提供底層研發(fā)架構支持,同時百度自主研發(fā)自然語言處理基礎算法、問答系統(tǒng)、閱讀理解等核心技術,并將核心技術應用于百度搜索、百度新聞、百度翻譯、百度助手等C端產品中,提升了自有產品的智能水平。
自然語言處理技術研發(fā)企業(yè)在自然語言處理技術方面積累深厚,拓展了穩(wěn)定的B端業(yè)務市場,典型代表有搜狗和科大訊飛。例如,科大訊飛推出完善智能硬件語音交互解決方案,幫助企業(yè)用戶解決語音交互、語義理解等技術研發(fā)難題。B端市場的定制化需求高,對自然語言處理廠商的研發(fā)能力以及資金投入要求高,導致缺乏資金、技術積累的自然語言處理創(chuàng)業(yè)企業(yè)難以大范圍拓展B端市場。
自然語言創(chuàng)業(yè)企業(yè)多以具體的自然語言處理場景、垂直細分的應用場景切入自然語言處理市場,為下游用戶提供單一類型的行業(yè)應用解決方案或消費級產品,如智齒科技為企業(yè)用戶提供專門的智能客服解決方案。
互聯(lián)網巨頭有深厚的資源積累,技術研發(fā)實力雄厚,自然語言處理技術的迭代將長期由互聯(lián)網巨頭主導。然而互聯(lián)網巨頭的技術研發(fā)多以業(yè)務布局為導向,旗下產品生態(tài)不包含的領域,互聯(lián)網巨頭一般不會涉足,因此為自然語言處理技術研發(fā)企業(yè)以及創(chuàng)業(yè)企業(yè)留下市場空間,自然語言處理技術研發(fā)企業(yè)以及創(chuàng)業(yè)企業(yè)能從細分領域開拓市場,避開與互聯(lián)網巨頭企業(yè)的直接競爭。
4.6 中國主要參與者中國參與者主要有:百度(09888)、科大訊飛(002230)、搜狗(00700)、云知聲、新譯信息、思必馳、智齒科技、達觀數(shù)據、北京紫平方、追一科技、玻森數(shù)據、武漢烽火普天、北京嘿哈科技、拓爾思(300229)、智言科技、明略數(shù)據、今日頭條、蘇州馳聲信息等。
新譯信息科技(深圳)有限公司
企業(yè)簡介
新譯科技成立于2014年12月,是一家研發(fā)人工智能技術的科技公司,以機器翻譯和語音識別等技術為基礎,向用戶提供在線機器翻譯、在線輔助翻譯平臺和互聯(lián)網語言服務平臺等一系列關于翻譯領域的產品和服務。新譯科技以軟、硬件智能翻譯為承載體,服務于國家“一帶一路”多語傳播平臺建設,為金融、專利、法律、醫(yī)學等垂直領域提供全球化基礎性多語溝通服務。
產品研發(fā)
(1)B端和G端產品:
新譯科技的B端和G端產品包括軟件和硬件產品,主要面向大型央企、軍工企業(yè)、互聯(lián)網媒體及政府機關等企業(yè)和政府機構提供服務。
①定制化機器翻譯是一個混合神經網絡翻譯引擎,該服務能統(tǒng)一管理企業(yè)語料,給企業(yè)特定的數(shù)據和管理賬號,滿足企業(yè)個性化、精細化、專業(yè)性的需求,達到保護企業(yè)數(shù)據隱私和數(shù)據的效果。
②智能翻譯插件包括辦公翻譯插件和網頁翻譯插件,辦公翻譯插件可以在WPS和Office兩大辦公系統(tǒng)上使用,滿足多語言文檔的快速轉換和閱讀;網頁翻譯插件支持各大瀏覽器網頁翻譯,一鍵轉化母語閱讀。
(2)C端產品:
新譯科技主要向個人消費者提供在線文檔翻譯、PC端翻譯、智譯APP服務以及可穿戴式翻譯產品。智譯APP可實現(xiàn)語音和文本的多種語言智能翻譯,適用于旅游、社交、住宿、商務等領域。在線文檔翻譯支持10種常用文檔格式輸入,可應用于通用或專業(yè)領域的文檔翻譯,翻譯質量較高。
競爭優(yōu)勢
新譯科技擁有較強的技術優(yōu)勢,同時擁有澳門大學自然語言處理與葡中智能翻譯(NLP2CT)實驗室、葡萄牙里斯本L2F語音實驗室、美國卡耐基梅隆大學LTI實驗室以及新譯-澳大-清華人工智能研究院四所優(yōu)質自然語言研究實驗室提供的技術人才和原創(chuàng)技術支持,公司所研發(fā)的智能翻譯產品于2017年通過國家科技成果認定,并獲得深圳青年技術獎以及吳文俊人工智能科學技術獎。新譯科技目前擁有近百人的團隊,核心技術研發(fā)人員主要在清華大學自然語言處理研究中心,澳門團隊主要開發(fā)機器翻譯的各個衍生品,深圳團隊做自然語言處理底層設計,北京團隊負責前端、產品和銷售。新譯科技未來將會著力提升限定性神經網絡翻譯技術、增強交互式輔助翻譯水平、提高語義翻譯的技術、改進自動修正技術提高后編譯能力水平。
蘇州思必馳信息科技有限公司
企業(yè)簡介
思必馳成立于2007年,是研發(fā)智能語音交互技術的智能語音服務商,為企業(yè)和開發(fā)者提供自然語言交互解決方案,包括DUI開放平臺、企業(yè)級智能服務、人機對話操作系統(tǒng)、人工智能芯片模組等。思必馳已于2018年5月完成由元禾控股、中民投領投,深創(chuàng)投、富士康、聯(lián)發(fā)科跟投的5億元人民幣D輪融資。
產品研發(fā)
(1)語音交互
思必馳為用戶提供移動端的語音交互技術支持,適用于Android、iOS等系統(tǒng),可應用于語音助手、智能客服、地圖導航等領域,具備語音喚醒、識別、合成以及語義理解等多種能力。在智能車載場景中,思必馳為用戶提供“云+端”解決方案,利用智能語音操作系統(tǒng)控制智能后視鏡、智能車機、便攜式導航儀等設施,實現(xiàn)雙手解放。
(2)智能家居
思必馳擁有軟硬一體化的智能家居解決方案,為智能家居產品提供高性能、低成本的聲源定位、個性喚醒、語音識別、語義理解、對話交互等功能,使家居產品可適應近場、遠場的語音交互,方便用戶控制,提高家居產品的智能化水平。
競爭優(yōu)勢
思必馳擁有自主知識產權的人機對話、語音識別、語義理解、語音合成、聲紋識別等綜合語音技術,其智能人機對話技術突破了傳統(tǒng)語音技術不能很好支持復雜語音交互功能的難題,使語音輸入不再局限于呆板簡單的句式,在復雜環(huán)境和自然口語交流的情況下,能保證優(yōu)異的語音分析精度和穩(wěn)健的人機對話性能。其智能人機對話技術能夠提供基于不完整或不準確的語音識別結果進行智能語義推理,通過針對特定領域特定應用需求、對話目標、對話行為、對話狀態(tài)和對話上下文的統(tǒng)計建模,解決傳統(tǒng)系統(tǒng)設計中規(guī)則無法覆蓋實際對話狀態(tài)的問題,同時增強系統(tǒng)對于錯誤識別結果和錯誤推理結果的自適應性,大幅度提升用戶的語音交互體驗。
思必馳語音識別技術解決了大量的詞典和語言模型的識別問題,采用了魯棒特征提取的方法,能夠有效降低噪聲環(huán)境下的錯誤率,并用動態(tài)噪聲自適應來使統(tǒng)一的模型適用于各種噪聲環(huán)境,支持全國各地方不同口音普通話識別,在用戶實際使用環(huán)境下,引擎的識別率能保持較高水準。
北京智齒博創(chuàng)科技有限公司
企業(yè)簡介
智齒科技成立于2014年5月,是一家提供智能客服服務的互聯(lián)網創(chuàng)業(yè)企業(yè)。智齒科技將自然語言理解、機器學習及大數(shù)據技術進行有效整合,構建了包括云呼叫中心、智能機器人客服、人工在線客服、工單系統(tǒng)、智齒360、智能外呼機器人在內的智能全客服平臺和智能外呼平臺,為企業(yè)用戶提供多樣化的智能客服服務,為用戶解決移動時代、體驗經濟環(huán)境下傳統(tǒng)客服所不能解決的企業(yè)客服痛點。智齒科技于2018年4月獲得由云啟資本領投,耀途資本、上海原龍投資和博雅盛景等機構跟投的1.5億元人民幣B+輪融資。
產品研發(fā)
智齒科技推出云呼叫中心、客服機器人、在線客服、工單系統(tǒng)、外呼機器人等SaaS客服產品,為金融、教育、電商、企服、生活消費、互娛、政企等領域的客戶提供一站式客服解決方案,同時構建了多元豐富的統(tǒng)計分析報表,幫助企業(yè)用戶分析顧客關注焦點、營銷活動結果驗收、客服人工工作量及效率,為客服主管提供數(shù)據支撐,輔助企業(yè)科學經營決策。
智齒客服產品支持桌面網站、移動網站、微信、微博、APP等接入方式,用戶只需把代碼復制到網站上即可將多平臺顧客匯集于同一平臺管理,操作簡便。
競爭優(yōu)勢
智齒科技的智能客服業(yè)務行業(yè)服務經驗豐富。智齒科技在26個行業(yè)構建知識圖譜,其中16個行業(yè)構建了40個細分場景知識圖譜,提供行業(yè)知識庫及行業(yè)客服機器人問答,問答語料庫內容覆蓋面廣,能為眾多領域行業(yè)用戶提供智能客服問答服務,目前智齒科技服務過的企業(yè)數(shù)量超5萬家,覆蓋電商、互聯(lián)網金融、生活服務、企業(yè)服務、在線教育、互動娛樂等多個細分行業(yè),包括用友、富士康、滴滴出行、趣分期、新東方、搜狐、銷售易等知名企業(yè)用戶。
智齒客服率先將自然語言處理技術及機器學習引入客服產品,實現(xiàn)精準理解用戶問題并匹配最佳答案,反饋答案準確率高達98%。智齒客服支持的機器人客服與人工客服自由切換模式,可解決80%人工客服的同質化回復問題,同時機器人客服可自動組織標準答案,幫助客服人員大幅提升客服回復質量和效率。
北京搜狗科技發(fā)展有限公司
搜狗知音自然語言處理平臺
憑借著搜狗互聯(lián)網公司文字信息獲取的天然優(yōu)勢以及多年來的數(shù)據和技術積累,搜狗從2012年開始布局自然語言處理領域,并于2016年推出搜狗知音自然語言處理平臺。搜狗知音自然語言處理平臺主要聚焦于提供模塊化的產品服務以及解決方案。目前,該平臺以囊括語音識別、語音合成、語音分析、機器翻譯等通用模塊,以便讓平臺用戶進行自由組合,從而構建符合其行業(yè)以及業(yè)務場景的客制化解決方案。近幾年,通過客戶的反饋,搜狗知音自然語言平臺已形成針對文體娛樂、企業(yè)服務、科研教育等領域的專有解決方案,并推出了搜狗分身,搜狗同傳等泛化行業(yè)垂直領域性解決方案以加快平臺用戶落地腳步。目前,搜狗分身與搜狗同傳在傳媒、教育、金融等領域都有離散應用落地。
央視財經與搜狗合作利用搜狗知音的搜狗分身所推出的AI主播“姚小松”,是基于央視主持人姚雪松的形象和聲音,用人工智能技術合成的仿真AI主播。AI主播的背后,是搜狗分身通過語音合成技術模仿真實主持人的聲音,通過文本語音轉化技術,實現(xiàn)真人般的主播發(fā)聲,并結合平臺上的模型優(yōu)化,使唇形、面部表情等與真人完全吻合,實現(xiàn)主播的“克隆”。除了“姚小松”外,同樣基于搜狗分身的虛擬主播不僅在傳媒領域被廣泛應用,還在教育、金融以及社會服務領域都有相關應用案例。
科大訊飛(002230)
科大訊飛股份有限公司成立于1999年,是一家專業(yè)從事智能語音及語言技術、人工智能技術研究、軟件及芯片產品開發(fā)、語音信息服務及電子政務系統(tǒng)集成的國家級骨干軟件企業(yè)??拼笥嶏w作為中國智能語音與人工智能產業(yè)領導者,在語音合成、語音識別、口語評測、自然語言處理等多項技術上擁有國際領先的成果。
訊飛開放自然語言處理平臺
2010年科大訊飛率先對外發(fā)布訊飛開放平臺,利用本身的技術及數(shù)據優(yōu)勢,搭建訊飛開放平臺并提供相對完善的AI產品體系,提供語音識別、語音合成以及語義理解等AI技術接入。訊飛開放平臺依托本身技術優(yōu)勢,針對不同行業(yè)以及服務場景都推出了豐富的技術模塊產品與解決方案。平臺不光有成熟的技術產品模塊化服務(包括語音識別、語音合成、情感分析、關鍵字提取等),還可針對上述模塊提供對應的管理軟件以及硬件等一攬子服務。目前,科大訊飛不僅正在尋求通過自然語言處理平臺構建覆蓋該領域上、中、下游的全套解決方案,還希望該全套解決方案可以適應如健康醫(yī)療、文體娛樂、及企業(yè)服務等傳統(tǒng)領域,從而進一步增強平臺客戶的粘著性。
科大訊飛利用訊飛開放平臺開發(fā)語音電子病歷輸入系統(tǒng)落地上海瑞金醫(yī)院,通過將自然語言處理技術與前端醫(yī)生佩戴的麥克風硬件對接,在醫(yī)生隨身佩戴麥克風時能夠分析來自醫(yī)生和患者交流過程中的語音信息,自動過濾無關的閑聊語句,并將病情信息結構化的錄入病例表格,正常情況下,醫(yī)生問完診,病歷記錄也基本完成了?;谟嶏w開放平臺的語音電子病歷系統(tǒng),總體上節(jié)省醫(yī)生40%的病歷書寫時間。該系統(tǒng)輸入高達1分鐘400字,且系統(tǒng)內置百萬級醫(yī)學詞匯,支持40種以上的標點符號的口述或自動生成。
騰訊(00700)
AI Lab是騰訊的人工智能實驗室,研究領域包括計算機視覺、語音識別、自然語言處理、機器學習等。其研發(fā)的騰訊文智自然語言處理基于并行計算、分布式爬蟲系統(tǒng),結合獨特的語義分析技術,可滿足自然語言處理、轉碼、抽取、數(shù)據抓取等需求。
在機器翻譯方面,2017年騰訊宣布翻譯君上線“同聲傳譯”新功能,用戶邊說邊翻的需求得到滿足,語音識別+NMT等技術的應用保證了邊說邊翻的速度與精準性。
騰訊知文自然語言處理平臺
騰訊知文自然語言處理平臺的初衷是試圖打造服務于企業(yè)內部的智能問答平臺,隨著自然語言處理技術的逐步成熟,該平臺也開始兼容更多模塊。目前,騰訊知文平臺具有三層架構,由下至上分別為:基礎會話模塊,分析用戶閑聊、以及用戶間的情感聯(lián)系分析;問答系統(tǒng)模塊,提供智能搜索以及所需的會話模型;任務導向型會話模塊,包括詞槽填充、多輪對話以及對話管理。上述模塊與架構讓騰訊知文具備了從基礎到高級的智能文本處理能力,可廣泛應用于多行業(yè)以及領域針對用戶評論情感分析、資訊熱點挖掘、電話投訴分析等場景的需求。該平臺已被應用于,通訊、金融、文體娛樂等多個行業(yè),并與多家全球500強企業(yè)展開合作。
中國銀行利用騰訊知文平臺構建了支持電子渠道和電話渠道全系列的智能客服系統(tǒng)。該系統(tǒng)由全媒體坐席平臺、運營監(jiān)控、多媒體接入與統(tǒng)一路由、智能工單、智能門戶、智能知識庫、客戶之聲等模塊組成,將手機銀行、電話銀行等服務功能整合?;隍v訊知文平臺本身的技術優(yōu)勢,對于語音、文本及視頻信息進行智能處理等項服務,開發(fā)基于自然語言識別的服務機器人,并與平安金服提供的智能知識庫結合,為打造下一代虛擬銀行、遠程銀行打下基礎。自動服務機器人在平安銀行營業(yè)廳投產后,有效的替代了繁瑣的人工服務,方便顧客自動辦理。
云知聲智能科技股份有限公司
云知聲智能開放平臺
云知聲的智能開放平臺,從物聯(lián)網數(shù)據出發(fā),逐步構建了符合自身用戶群特點的自然語言處理開放平臺。該平臺高度集成語音識別、自然語言理解、語音合成等技術,以深度學習、超級計算和認知計算為基礎,構建其完整的AI體系,并可有效服務物聯(lián)網領域的多項應用。目前,云知聲依靠其平臺優(yōu)勢,打造基于智能開放平臺的語音互動機器人服務于多個場景,包括智能醫(yī)療、智能車載、智能教育等。除此之外,云知聲推出通用行業(yè)服務機器人,除依賴本身平臺的自然語言處理技術外,結合仿生肢體及視覺圖形技術,應用于零售營銷、餐飲住宿、金融、交通出行等行業(yè)中更細化的垂直領域。對于不同行業(yè)用戶更加客制化的要求,云知聲開放平臺借助其與計算平臺的計算能力和移動互聯(lián)網技術,能夠實現(xiàn)用戶與設備之間更緊密智能的人機交互,幫助傳統(tǒng)行業(yè)實現(xiàn)的聯(lián)網化。
云知聲為兒童早教公司所開發(fā)的教育機器人“聰聰”整合了云知聲智能開放平臺云因識別模塊以及人機交互技術。現(xiàn)階段,聰聰可以實現(xiàn)聲紋+人臉認主、聲源定位+人臉跟隨,情感分析等功能,實現(xiàn)更個性化的人機交互。同時,聰聰還依托平臺的KEROS2.0系統(tǒng)可實現(xiàn)讀書互動、識物互動、口語學習等高難度自然語言處理應用任務。
武漢烽火普天信息技術有限公司
武漢烽火普天Image Q大數(shù)據語義分析應用平臺
烽火普天推出的Image Q互聯(lián)網大數(shù)據語義分析應用平臺專注中文自然語言處理和深度學習技術。其基于上述技術所構建的文本信息要素提取模塊與數(shù)據挖掘模塊,可適應多個行業(yè)的文本數(shù)據情報挖掘分析任務。由于武漢烽火普天的客戶多為黨政機關和國企,所以其Image Q平臺的發(fā)展策略在注重自然語言處理模塊構建的同時,更著重于信息安全與可靠性驗證相關技術的發(fā)展。目前,Image Q平臺的合作伙伴已覆蓋中國超過半數(shù)的地區(qū)黨媒,主要關注于輿情演練和媒體數(shù)據挖掘場景。與此同時,由于該平臺的安全性,公共安全與安防領域的落地案例也與日俱增。
在安防領域,公安系統(tǒng)非結構化數(shù)據占比高且傳統(tǒng)偵防工作高度依賴人工,案例由大量的文字描述構成,為了獲取關鍵線索,不得不依靠人工檢閱海量案卷數(shù)據。ImageQ通過挖掘業(yè)務過程中產生的非結構化文檔數(shù)據中案件要素、特征及線索,從過去的案件語料中提取語義要素,然后進行語義關聯(lián),在進行深度挖掘便可應用在刑偵情報中,同時結合公安系統(tǒng)的大數(shù)據數(shù)據庫,為偵查人員提供智能的分析手段。此類解決方案已經在湖北公安,湖南公安等多個省級公安系統(tǒng)得到了落地。
北京紫平方信息技術股份有限公司
紫平方語音交互智能機器人平臺
紫平方自然語言處理平臺的側重點主要是在語音交互方向,并試圖實現(xiàn)針對企業(yè)級用戶的自動化解決方案。為了能夠提高自身語音交互平臺中對語義理解的準確度,紫平方同時也構建了不同細分行業(yè)的知識圖譜,自主提升意圖判斷的學習能力。同時,紫平方平臺還應用TTS文本轉語音技術,實現(xiàn)全變量模擬真人發(fā)聲,提升服為不同垂直場景中的合作方提供智能交互、情感問答的對話系統(tǒng),有效的滿足用戶多元化對話的需求。目前,平臺集成了完整的自然語言處理、機器學習、知識挖掘等技術,并覆蓋了兒童教育、銀行服務、市場營銷等多個行業(yè)的眾多垂直領域,以幫助用戶通過前端與后臺業(yè)務意圖搭建客制化自然語言處理自動化解決方案。
中財訊智能科技股份有限公司基于紫平方語音交互智能機器人平臺推出了智能財稅機器人“i財”,是中國同類機器人中首臺具有深度學習能力的人工智能財稅機器人?!癷財”機器人借助紫平方平臺的自然語言處理模塊,能夠實現(xiàn)數(shù)據實時抓取,數(shù)據挖掘分析,基于其對文本數(shù)據的自動化處理,并可自主完成賬務處理、財務狀況分析、納稅風險評估、等多項人機交互任務。
阿里巴巴(09988)
阿里自然語言處理為其產品服務,在電商平臺中構建知識圖譜實現(xiàn)智能導購,同時進行全網用戶興趣挖掘,在客服場景中也運用自然語言處理技術打造機器人客服。例如螞蟻金融智能小寶、淘寶賣家的輔助工具千牛插件等,同時進行語音識別以及后續(xù)分析。
阿里的機器翻譯主要與其國家化電商的規(guī)劃相聯(lián)系,2017年初阿里正式上線了自主開發(fā)的神經網絡翻譯系統(tǒng),進一步提升了其翻譯質量。
圖:阿里機器翻譯
資料來源:千際投行,資產信息網,阿里巴巴
AliNLP自然語言處理平臺
阿里巴巴為了適應自己復雜的電商生態(tài)推出了AliNLP自然語言處理平臺。該平臺框架可分為三層:底層是各種基礎數(shù)據庫;中間層包含基本的詞法分析,句法分析,文檔分析等基礎自然語言處理技術;而上層則是針對不同行業(yè)垂直場景的大業(yè)務單元,例如智能交互,輿情監(jiān)控等。同時,AliNLP自然語言處理平臺還將著重發(fā)展服務于通用場景的應用服務模塊,以便更好的切入傳統(tǒng)行業(yè)領域。
淘寶網“阿里小蜜”是基于阿里巴巴的AliNLP自然語言處理平臺所開發(fā)的人工智能客服。整個阿里小蜜系統(tǒng)由三個服務模塊構成:助手服務、用戶服務、聊天服務,并可根據數(shù)據與對應知識庫有效自主服務于客戶與商家之間。系統(tǒng)可通過知識圖譜內容抽取以及形成開放域對話系統(tǒng)解決零售服務中近95%的客服用戶請求。目前,阿里小蜜已替代大部分的淘寶人工客服,實現(xiàn)了從純人力到智能+人力的客服場景轉型。
4.7 全球主要參與者全球參與者主要有:蘋果Apple(AAPL)、谷歌Google(GOOG)、臉書Facebook(FB)、微軟(MSFT)、亞馬遜Amazon(AMZN)、英特爾Intel(INTC)、三星Samsung(005930.KS)、雅虎Yahoo(YHOO)、Beyond Verbal、EI Technology、Telegram(SAS)、Powerset、Inxight(SAP)、Systran(SYTN)、Autonomy(AUTN)、Metaweb、Language Weaver(SDL)等。
蘋果APPLE(AAPL)
蘋果公司(Apple Inc.)是美國一家高科技公司。蘋果營收達到3658億美元,由史蒂夫·喬布斯、斯蒂夫·蓋瑞·沃茲尼亞克和羅納德·杰拉爾德·韋恩(RonWayne)等人于1976年4月1日創(chuàng)立,并命名為美國蘋果電腦公司(Apple Computer Inc.),2007年1月9日更名為蘋果公司,總部位于加利福尼亞州的庫比蒂諾。
蘋果收購Siri、Novauris,組建基于神經網絡算法的語音識別團隊
2010年4月,蘋果公司以1.5-2.5億美元收購了Siri。在2013年,蘋果收購了自動語音識別公司Novauris Technologies。Novauris是英國研究機構Dragon Systems旗下的附屬公司,以語音聽寫識別著稱,成立于2012年。
2014年7月,有消息稱,蘋果正在聯(lián)系多位語音識別技術的專家,正在招聘經理、小組負責人、研究員,很可能將成立一支強大的語音識別團隊,并最終取代現(xiàn)在的Siri技術服務商Nuance。過去幾年中,蘋果招聘了多名此前供職于Nuance的高層次語音技術研究員,包括前研究副總裁拉里·吉利克(Larry Gillick)、Siri的項目經理貢納爾·艾弗曼(Gunnar Evermann)、微軟語音識別項目高管亞歷克斯·阿賽洛(Alex Acero)。
谷歌GOOGLE(GOOG)
谷歌公司(Google Inc.)成立于1998年9月4日,由拉里·佩奇和謝爾蓋·布林共同創(chuàng)建,被公認為全球最大的搜索引擎公司。谷歌是一家位于美國的跨國科技企業(yè),業(yè)務包括互聯(lián)網搜索、云計算、廣告技術等,同時開發(fā)并提供大量基于互聯(lián)網的產品與服務,其主要利潤來自于AdWords等廣告服務。2017年12月13日,谷歌正式宣布谷歌AI中國中心(Google AI China Center)在北京成立。
2015年8月,Google聯(lián)合創(chuàng)始人兼CEO拉里·佩奇宣布公司重組消息。他與另一位聯(lián)合創(chuàng)始人謝爾蓋·布林創(chuàng)辦新控股公司Alphabet。Alphabet取代Google在納斯達克上市,而Google則成為Alphabet的一部分。
Google收購多項語音識別技術專利、Say Now、Phonetic Arts
Google在2014年收購了SR Tech Group的多項語音識別相關的專利,其中包括“搜索引擎語音界面”和“修改、更新語音識別項目系統(tǒng)”的專利。Google一直致力于投資語音搜索技術,以期與蘋果公司的Siri展開競爭。2011年,Google收購語音通信技術公司Say Now和語音合成技術Phonetic Arts。其中,Say Now創(chuàng)建于2005年,可以把語音通信、點對點對話、以及群組通話和社交應用整合在一起,支持的設備包括PC瀏覽器、智能手機乃至座機。被收購時,有1500萬用戶,旗下產品包括Say Now Phone,Say Now廣播,Big Call以及Chit Chat等。
Google Dialogflow自然語言處理平臺
DialogFlow是Google提供的自然語言處理服務平臺,其前身為Api.ai,通過谷歌的深度學習技術以及谷歌云的支持,平臺已構建可實現(xiàn)對文本語義理解,文字轉化,以及文字處理等多項功能模塊。目前,Dialogflow自然語言處理平臺可適用于針對網站、移動應用、熱門消息傳遞平臺和物聯(lián)網(IoT)設備創(chuàng)建對話界面的聊天機器人以及語音交互功能的開發(fā)。近幾年,DialogFlow已被成為多個行業(yè)另有構建自有聊天機器人、對話個人助理等系統(tǒng)的自然語言處理服務供應商。
荷蘭皇家航空公司利用Dialogflow自然語言處理服務平臺的語音與文字文本處理推出了自己在Facebook Messenger上的首個預定機器人——Blue Bot。Blue Bot可基于Dialogflow的人機交互功能模塊實現(xiàn)與潛在客戶的文字聊天交流和客戶需求梳理。Blue Bot還可利用文本處理模塊實現(xiàn)信息歸類,并將有價值信息直接發(fā)送至荷蘭皇家航空的CRM系統(tǒng)。
臉書Facebook(FB)
Facebook(臉書)公司創(chuàng)立于2004年2月4日,總部位于美國加利福尼亞州門洛帕克。2012年3月6日發(fā)布Windows版桌面聊天軟件Facebook Messenger。主要創(chuàng)始人馬克·扎克伯格(Mark Zuckerberg)。Facebook是世界排名領先的照片分享站點,截至2013年11月每天上傳約3.5億張照片。
2021年10月,扎克伯格在Facebook的Connect開發(fā)者大會上宣布,將公司名稱改為“Meta”。
Facebook收購Wit.ai和Mobile Technologies
語音交互解決方案服務商Wit.ai要做的就是重寫互聯(lián)網的語音層,簡單地在第三方App中加入幾行代碼來為它生成一個語音交互界面,就能把語言轉化成可以操作的數(shù)據。正如移動支付公司Stripe通過幾行代碼就為網站解決了線上支付問題一樣。Wit.ai稱,它比Siri更靈敏精確,不需要開發(fā)者先期投資,或訓練數(shù)據集,而且可以應用在移動應用程序(iOS、Android等平臺)、穿戴設備和機器人以及幾乎任何你可以想到的智能設備。被收購時,Wit.ai成立才18個月,吸引了6000多名開發(fā)者,創(chuàng)建的應用超過了數(shù)百個。此次收購有助于提高Facebook整體對自然語言的理解能力。
除了Wit.ai,F(xiàn)acebook還在2013年收購了語音識別公司Mobile Technologies。MT創(chuàng)建于2001年,在2009年推出了Jibbigo應用,允許用戶在25種語言中進行選擇,使用一種語言進行語音片段錄制或文本輸入,然后將翻譯顯示在屏幕上,根據你選擇的語言大聲讀出來。
亞馬遜Amazon(AMZN)
亞馬遜公司(Amazon,簡稱亞馬遜;NASDAQ:AMZN),是美國最大的一家網絡電子商務公司,位于華盛頓州的西雅圖。是網絡上最早開始經營電子商務的公司之一,亞馬遜成立于1994年,一開始只經營網絡的書籍銷售業(yè)務,現(xiàn)在則擴及了范圍相當廣的其他產品,已成為全球商品品種最多的網上零售商和全球第二大互聯(lián)網企業(yè),在公司名下,也包括了Alexa Internet、a9、lab126、和互聯(lián)網電影數(shù)據庫(Internet Movie Database,IMDB)等子公司。
Amazon收購語Yap、Evi、Ivona
2011年,Amazon收購語音識別公司Yap。Yap成立于2006年,主要提供語音轉文本服務,代表應用是Yap語音郵件。利用Yap的技術亞馬遜建立自己的語音技術平臺,服務于亞馬遜的網上搜索和客戶服務等領域。
2012年,Amazon收購語音技術公司Evi。Evi是一家應該創(chuàng)業(yè)公司,原名True Knowledge,在獲得了Nuance語音識別技術的授權后,基于自主的自然語言搜索引擎開發(fā)了一款與蘋果Siri類似的應用。
2013年,Amazon收購語音技術公司Ivona Software。Ivona是一家波蘭公司,是Nuance的競爭對手,主要做文本語音轉換,被收購時支持17種語言44種聲音。
Amazon Alexa自然語言處理平臺
Alexa是亞馬遜為了支持其智能音箱硬件推出的開放性自然語言處理平臺,Alexa框架分為三部分:Alexa平臺框架是亞馬遜的語音服務框架,是整個Alexa最核心的部分;Alexa Skill Kit作為亞馬遜提供給語音服務應用開發(fā)者的工具包,能夠吸引個體開發(fā)者對Alexa的功能模塊進行補充;Alexa Voice Service需要集成在物聯(lián)網終端設備中,是亞馬遜提供給終端設備的服務。Alexa通過自動會話識別和自然語言理解引擎,可以對語音請求及時識別和回應,目前,Alexa已經與多家通訊、電子消費產品廠商達成合作,將使用其自然語言處理平臺進行相關產品開發(fā)。
利用Alexa平臺及與其搭配的硬件設施,amazon推出了一系列語音處理相關的附屬功能,針對多個行業(yè)的不同垂直領域。Alexa for business是Alexa在企業(yè)服務領域的一個典型應用,主要針對企業(yè)會議場景。Energy BBDO公司購買Alexa for business服務后,通過智能語音識別及人機交互系統(tǒng)實現(xiàn)了公司會議全場景自動化、智能化。系統(tǒng)能夠更直接的預定會議室并啟動電話會議,通過分析獲取的環(huán)境聲音信息自動取消已預訂但無人參加的會議室。同時在企業(yè)會議期間,alexa for business還可以對會議內容進行記錄整理。目前。這一系統(tǒng)已經在多家企業(yè)落地,例如Energy BBDO和Gildewell Dental等。
第五章 未來趨勢多模態(tài)語言處理融合
深度學習神經網絡的引進使得語言模態(tài)、文字模態(tài)、圖像模態(tài)、視頻模態(tài)的編碼和解碼可在同一個深度學習框架下統(tǒng)一運行。不同模態(tài)的對象可被同一模式編碼與解碼,同一模式的編碼與解碼即可使不同模態(tài)對象隨意融合,各種語言分析的結果可與語音分析、圖像分析結果結合應用,產生更多的產品應用模式,如科大訊飛推出的語音交互系統(tǒng)AIUI,融合了語音技術和語義理解技術,使智能助手如同人類大腦能多功能區(qū)域協(xié)同工作,提升了應用的智能化水平以及人機交互效果。
機器的各方面智能不應是相互獨立的,應像人類大腦般同時處理聽覺、視覺以及觸覺認知與感知信息,未來的自然語言處理技術必定與語音處理技術、圖像處理技術等人工智能技術相互融合,賦予AI高度智能。
自然語言處理應用逐漸成熟
隨著自然語言處理技術研究的不斷深入,自然語言處理應用逐步得到推廣,尤其在知識圖譜、機器翻譯、閱讀理解和智能創(chuàng)作等方面開始產生較成熟的應用。
知識圖譜已在科研、金融、醫(yī)療、互聯(lián)網服務、汽車等領域得到廣泛應用。2018年以來,百度搜索引擎構建知識圖譜,為用戶提供全面的智能搜索服務。阿里健康與國家級醫(yī)療健康大數(shù)據平臺啟動建立醫(yī)學知識圖譜“醫(yī)知鹿”,并在醫(yī)療領域逐步推廣。騰訊推出醫(yī)療AI引擎“騰訊睿知”,發(fā)力智能導診。美團通過構建生活知識圖譜為用戶提供智能化的生活服務。汽車之家構建汽車領域的知識圖譜幫助旗下APP“家家小秘”實現(xiàn)圖譜問答。
智能創(chuàng)作應用方面,百度推出人工智能寫作輔助平臺“創(chuàng)作大腦”,其語義智能糾錯功能識別準確率超95%,達到大學生寫作糾錯能力的平均水平,能為人類作者提供良好的糾錯、提取信息等輔助寫作服務,提高寫作者的寫作效率。微軟的智能助手小冰開始向作詞、作曲、演唱方面發(fā)展,能輔助音樂創(chuàng)作者進行音樂創(chuàng)作。IBM推出的智能辯手曾與以色列國際辯論協(xié)會主席以及以色列國家辯論冠軍進行辯論比賽,IBM智能辯手通過處理大量文本,就特定主題構建出有良好結構的演講,清晰明了地反駁了這兩位辯論對手。智能創(chuàng)作應用需要運用到目前業(yè)內研發(fā)的各種自然語言處理技術,是業(yè)界自然語言處理技術水平的良好體現(xiàn),智能創(chuàng)作應用的成熟表現(xiàn),有效地反映了業(yè)內自然語言處理技術良好的發(fā)展成果。
Cover Photo by Michael Dziedzic on Unsplash
以上就是關于pos機廣告語搞笑,2022年自然語言處理行業(yè)研究報告的知識,后面我們會繼續(xù)為大家整理關于pos機廣告語搞笑的知識,希望能夠幫助到大家!
