欢迎光临9159金沙游艺场官方网站,让我们一起努力,探索图象图形领域的广袤天地!
9159金沙游艺场 > 学会动态 > 学会新闻

CSIG 2020年文档图像分析与识别前沿理论与应用研讨会暨 9159金沙游艺场文档图像分析与识别专委会2020学术年会成功召开

2020-09-22

       2020年9月19日下午,由9159金沙游艺场主办,文档图像分析与识别专委会承办的“CSIG 2020年文档图像分析与识别前沿理论与应用研讨会暨9159金沙游艺场文档图像分析与识别专委会2020学术年会”以线上形式成功召开。

1.jpg

本次大会针对文档图像分析与识别、文字识别、模式识别的基础问题、前沿方向和热点课题,展开研讨交流,为本领域研究者和工程师提供一个良好的交流与合作平台。此次大会采用腾讯会议研讨和Bilibili网络直播两种方式同步进行;文档图像分析与识别专委会五十多名委员参加了腾讯会议研讨,同时累计超多10000多人同步观看了学术年会的网络直播。

本次大会分两个部分进行了学术报告,分别由专委会副主任华东师范大学吕岳教授和富士通研发中心孙俊副总经理主持。会议开始,专委会主任华南理工大学金连文教授进行致词。会议邀请华南理工大学金连文教授、华中科技大学白翔教授、北京大学连宙辉副教授、中国科学技术大学杜俊副教授、微软亚洲研究院崔磊博士、以及北京科技大学殷绪成教授分别做了精彩报告。

2.jpg

文字是信息交流及感知世界最重要的载体,手写文字及自然场景文字分析与识别技术在图像理解、信息录入、智慧金融、智慧教育、身份认证等诸多领域有非常广阔的应用前景,是计算机视觉及人工智能领域的重要问题之一。金连文教授介绍了近一两年来他们团队在手写及场景文字分析与识别的一些新尝试,重点介绍了他们在联机手写签名鉴别、脱机手写笔迹识别、自然场景文字端到端识别、场景文字擦除、端到端古籍文字检测与版面分析等方面的一些最新研究成果,并探讨文档图像分析与识别、文字识别领域的一些未来发展新方向及新问题。

3.jpg

场景文字理解是一种通用文字识别技术,近年来已经取得了显著的进展,有效推动了有关产业的科技进步;特别是近些年来,场景文字理解取得了丰富的研究成果。白翔教授介绍了2020年场景文字理解领域(文本检测、文本识别、端到端识别、基于文本的视觉问答等)的代表性工作,并对过去几年该领域存在的问题做出重新思考。同时,面向充满变化的2020年,白翔教授阐述了场景文字理解技术发展一些主要方向。

4.jpg

图像图形生成是计算机图形学、计算机视觉、人工智能领域中的一个研究热点,近年来随着深度学习技术尤其是生成对抗网络、变分自编码器等深度生成模型的提出、应用与快速发展,该问题吸引了国内外学术界和工业界越来越多研究人员的广泛关注,并取得了显著进展。面向文字的图像图形生成(GISS)任务是生成问题中最具难度的挑战之一。连宙辉教授首先简要介绍了图像图形生成技术的研究概况,随后分析了学术界在文字图像图形生成方向的最新研究进展,最后重点介绍了他们团队近一年来文字生成及文字分析的几个重要工作,并对现有面向文字的图像图形生成方法中存在的主要问题、潜在的解决方案和未来的研究方向进行了分析和讨论。

5.jpg

近年来,基于深度学习的端到端数学公式识别成为研究热点。杜俊教授首先介绍了基于编码-解码模型并结合注意力机制的数学公式识别框架,接着从编码器的设计、解码器的设计、多模态信息融合等角度探讨了公式识别的一些最新进展;最后,从系统层面介绍下他们团队参加CROHME2019和OffRaSHME2020数学公式识别比赛获得冠军的一些方案细节。

6.jpg

电子文档(包括纸质文档的扫描图像件和计算机生成的数字文档)的自动精准快速处理对于企业生产力提升至关重要,利用人工智能技术帮助大量人工从繁杂的电子文档处理任务中脱离出来,其关键核心就是自动文档分析与识别技术。面对大量无标注电子文档,现有的大规模预训练语言模型能够在预训练阶段有效捕捉文本中蕴含的语义信息,但忽视了文档中的视觉结构信息。崔磊博士介绍了他们提出一种结合文档结构信息和视觉信息的通用文档预训练模型 LayoutLM,展示了该模型在表单理解、票据理解、文档图像分类等任务中均取得优异成绩,并指出了自然语言处理在文档分析、识别与理解中的一些研究方向。

7.jpg

复杂环境下的图像文本检测与识别是文档分析与识别领域中的一个研究热点和应用难点。基于深度学习的文本检测与识别方法是当前的主流方向;然而,目前大部分方法都是从图像目标检测与识别、序列信息识别等方法中借鉴而来的,很少考虑文字本身结构的特点及其在图像中的分布属性。以场景文本检测、手写体文字识别为具体对象,殷绪成教授阐述了他们团队在这些方面的一些思考,并重点介绍了基于连通域分析/部件关系挖掘的文本检测技术,以及基于文字结构属性的手写体文字识别方法。最后,殷绪成教授也分享了自己在文字识别与自然语言处理、小样本学习融合发展方面的一些看法。




来源:CSIG文档图像分析与识别专委会