AWS更新自然語(yǔ)言處理服務(wù)Amazon Comprehend,開(kāi)始支援Word和PDF文件,讓用戶(hù)可以從這些類(lèi)型的dangan擷取數據。Amazon Comprehend能夠分析不同語(yǔ)言的文字,並且辨識這些文字的內容,諸如人名、地點(diǎn)、品牌和產(chǎn)品等,同時(shí)還能理解文本中的關(guān)鍵句子和情緒,或對大量文件的內容,依照主題加以分類(lèi)。
無(wú)論是開(kāi)設銀行帳戶(hù)、申請保險或是房屋借款等程序,皆大量使用紙本文件,而這些文件動(dòng)則超過(guò)百頁(yè),對於企業(yè)來(lái)說(shuō),手動(dòng)處理這些文件是一件繁瑣的工作,不只需要人工,而且速度緩慢容易出錯,而藉由使用Amazon Comprehend,可以大幅加速文件的創(chuàng )建和管理,並且降低出錯機率。
Amazon Comprehend新的解決方案,可處理PDF、Word和原始文字等dangan格式,或是筆記和列表等布局,並進(jìn)行內容擷取和分析,AWS提到,這次推出的解決方案,結合自然語(yǔ)言處理和光學(xué)字元辨識技術(shù),能夠減少企業(yè)文件的預處理和後處理工作量,用戶(hù)不再需要將dangan轉換成原始文本,就能夠使用自定義命名實(shí)際辨識(NER)功能。
過(guò)去Amazon Comprehend只能處理純文字dangan,這需要用戶(hù)先將文件整理成機器可讀的文本,但用戶(hù)現在能夠利用Amazon Comprehend以相同的API,直接從PDF和Word中的文字或是列表等不同文件布局,擷取特定詞語(yǔ)。
新的Amazon Comprehend自定義實(shí)體辨識模型,綜合分析結構上下文和自然語(yǔ)言上下文,從文件中的任何位置,擷取自定義實(shí)體。AWS提到,用戶(hù)對于每一種實(shí)體類(lèi)型,只要提供250個(gè)文件和100個(gè)注解,即可訓練模型並且開(kāi)始使用該功能,而為了要掃描PDF並擷取空間位置,Amazon Comprehen。d會(huì )呼叫Amazon Textract服務(wù),來(lái)執行必要的處理。
這項新功能有助於企業(yè)處理保險、抵押、金融等業(yè)務(wù)中的文件處理工作流程,通常這些文件布局復雜,用戶(hù)也不需要頁(yè)面上的每一個(gè)數據點(diǎn),因此擷取特定資訊存在困難,而Amazon Comprehend這項新功能,可以使用機器學(xué)習,使用單個(gè)模型和API呼叫,快速擷取自定義的詞語(yǔ),像是處理汽車(chē)或健康保險文件中的索賠金額,甚至是在抵押貸款中,擷取申請人姓名、共同簽署人或是其他財務(wù)文件資訊等