中文分詞是中文信息處理的基礎(chǔ),也是中文信息處理的關(guān)鍵,中文分詞,通俗的講就是由機(jī)器在中文文本中詞與詞之間自動(dòng)加上空格。
NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。
NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)十三大功能:
精準(zhǔn)采集:對(duì)境內(nèi)外互聯(lián)網(wǎng)海量信息實(shí)時(shí)精準(zhǔn)采集,有主題采集(按照信息需求的主題采集)與站點(diǎn)采集兩種模式(給定網(wǎng)址列表的站內(nèi)定點(diǎn)采集功能)。
文檔轉(zhuǎn)化:對(duì)doc、excel、pdf與ppt等多種主流文檔格式,進(jìn)行文本信息轉(zhuǎn)化,效率達(dá)到大數(shù)據(jù)處理的要求。
新詞發(fā)現(xiàn):從文本中挖掘出新詞、新概念,用戶(hù)可以用于專(zhuān)業(yè)詞典的編撰,還可以進(jìn)一步編輯標(biāo)注,導(dǎo)入分詞詞典中,提高分詞系統(tǒng)的準(zhǔn)確度,并適應(yīng)新的語(yǔ)言變化。
批量分詞:對(duì)原始語(yǔ)料進(jìn)行分詞,自動(dòng)識(shí)別人名地名機(jī)構(gòu)名等未登錄詞,新詞標(biāo)注以及詞性標(biāo)注。并可在分析過(guò)程中,導(dǎo)入用戶(hù)定義的詞典。
語(yǔ)言統(tǒng)計(jì):針對(duì)切分標(biāo)注結(jié)果,系統(tǒng)可以自動(dòng)地進(jìn)行一元詞頻統(tǒng)計(jì)、二元詞語(yǔ)轉(zhuǎn)移概率統(tǒng)計(jì)。針對(duì)常用的術(shù)語(yǔ),會(huì)自動(dòng)給出相應(yīng)的英文解釋。
文本聚類(lèi):能夠從大規(guī)模數(shù)據(jù)中自動(dòng)分析出熱點(diǎn)事件,并提供事件話題的關(guān)鍵特征描述。同時(shí)適用于長(zhǎng)文本和短信、微博等短文本的熱點(diǎn)分析。
文本分類(lèi):根據(jù)規(guī)則或訓(xùn)練的方法對(duì)大量文本進(jìn)行分類(lèi),可用于新聞分類(lèi)、簡(jiǎn)歷分類(lèi)、郵件分類(lèi)、辦公文檔分類(lèi)、區(qū)域分類(lèi)等諸多方面。
摘要實(shí)體:對(duì)單篇或多篇文章,自動(dòng)提煉出內(nèi)容摘要,抽取人名、地名、機(jī)構(gòu)名、時(shí)間及主題關(guān)鍵詞;方便用戶(hù)快速瀏覽文本內(nèi)容。
智能過(guò)濾:對(duì)文本內(nèi)容的語(yǔ)義智能過(guò)濾審查,內(nèi)置國(guó)內(nèi)最全詞庫(kù),智能識(shí)別多種變種:形變、音變、繁簡(jiǎn)等多種變形,語(yǔ)義精準(zhǔn)排歧。
情感分析:針對(duì)事先指定的分析對(duì)象,系統(tǒng)自動(dòng)分析海量文檔的情感傾向:情感極性及情感值測(cè)量,并在原文中給出正負(fù)面的得分和句子樣例。
文檔去重:快速準(zhǔn)確地判斷文件集合或數(shù)據(jù)庫(kù)中是否存在相同或相似內(nèi)容的記錄,同時(shí)找出所有的重復(fù)記錄。
全文檢索:支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類(lèi)型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢(xún)語(yǔ)法,支持維語(yǔ)、藏語(yǔ)、蒙語(yǔ)、阿拉伯、韓語(yǔ)等多種少數(shù)民族語(yǔ)言的檢索。
編碼轉(zhuǎn)換:自動(dòng)識(shí)別內(nèi)容的編碼,并把編碼統(tǒng)一轉(zhuǎn)換為 |
 |
|