“苏集创”苏州大学创新成果推介(1)——面向表单图像的文字识别与智能信息处理平台

发布者:柳鑫发布时间:2022-06-23浏览次数:400

“苏集创”是依托苏州大学国家技术转移中心,紧密围绕苏州产业创新集群布局,以苏州大学等国内外知名高校、科研院所、技术创新中心的集成创新成果为标的,构建科技、产业、资本深度融合的成果发布平台。


本期向大家推介的是苏州大学计算机科学与技术学院陈文亮教授团队的项目:《面向表单图像的文字识别与智能信息处理平台》


陈文亮教授:苏州大学计算机科学与技术学院 教授,博士生导师,主要研究方向:包含语言分析、信息抽取、知识图谱。目前主要专注于建设基础语言分析平台和构建知识图谱。


《面向表单图像的文字识别与智能信息处理平台》

应用产业领域:人工智能、电子信息

技术成熟度:已开展行业应用

专利情况:已授权专利三项


成果简介:

苏州大学智能信息处理平台的目标是能处理多模态文字数据,精准分析语言内部结构,对人类语言进行深层理解,以支持各种应用需求。系统可以处理多种非结构化数据,比如说明书、技术标准、车间工单等纸质文档或电子文档。把图像识别技术(OCR)和自然语言理解技术(NLP)相结合,从表单图像中抽取关键要素信息。在此基础上,我们搭建了包括知识图谱问答 (KBQA)、常见问题检索 (FAQ)、对话 (Chatbot)在内的智能问答及对话系统、以及面向大数据的文档信息抽取系统。能够对给定的自然语言问题通过查询、推理提供精准满意的答案,和面向大规模文档提供信息抽取和舆情分析等服务。目前已经向多家公司提供各项相关服务。



创新要点:

1)可处理印刷体和手写体混合的图像文件,抽取关键要素信息。

2)利用自然语言理解技术深层理解所抽取的要素信息,并建立它们之间的联系,构建知识图谱。

3)能对给定自然问句进行理解,通过查询、推理提供精准满意的答案。

4)实现基于知识图谱的问答系统和常见问题检索系统。

5)提供面向大规模文档的信息抽取和舆情分析服务。


技术指标:

1)中文命名实体识别正确率95%以上。

2)关系抽取正确率80%以上。

3)事件抽取正确率80%以上。

4)知识图谱问答正确率85%以上。


其他说明:

1)CCKS2021面向金融领域的事件因果关系抽取第四名(技术创新奖)

2)2021语言与智能技术竞赛(LIC):多形态信息抽取任务三等奖。

3)CCKS2020金融事件要素抽取任务:第1名

4)CCKS2019中文知识图谱问答KBQA任务:第2名&技术创新奖

5)2019年搜狐内容识别算法大赛:亚军

6)CCL2018 中移在线客服领域用户意图分类:第一名

7)CCF-CIDB2017 情感分析任务:三等奖