摘要
表格数据是信息表达的一种重要形式,它可以按标准结构组织数据,以便于信息的检索和比较。 但是,在金融业和许多其他领域中,表格通常以非结构化的电子文件如便携式文档格式(PDF)和图像等形式公开,难以直接提取。 在本文中,为了促进从非结构化数字文件中进行基于深度学习的表格提取,我们发布了一个名为FinTab的标准中文数据集,其中包含1,600多种不同类型的财务表及其在JSON中的相应结构表示形式。 此外,我们提出了一种新的基于图的卷积神经网络模型,称为GFTE,作为将来进行比较的基准。 GFTE将图像特征,位置特征和文本特征集成在一起,可进行精确的边缘预测,并获得总体良好的结果。
1. 简介
在信息时代,如何快速获取信息并从庞大而复杂的资源中提取关键信息已成为一个重要的问题[1]。 同时,随着企业数量的增加和财务信息的披露量的增加,提取关键信息也已成为提高财务信息交换过程效率的必不可少的手段[2],[3]。 近年来,一些新的研究也开始集中在提高信息检索技术的效率和准确性上[4],[5]。
表格作为结构化数据的一种形式,既简单又标准化。 赫斯特等人的文献[6]将表格视为有组织的层次概念或类别之间的一组关系的表示,而Long等人则认为[7]认为它是施加在字符级网格上的上层结构。 由于其结构清晰,用户可以快速理解表格数据。 财务数据,尤其是数字信息,通常以表格形式显示。 从某种意义上说,表格数据作为财务数据中的关键信息,在财务数据处理过程中越来越受到财务工作者的重视。
尽管表格提取是各个领域的常见任务,但是手动提取表格信息通常是一个繁琐且耗时的过程。 因此,我们要求使用自动表格提取的方法来避免人工干预。 但是,现有方法仍然难以准确地恢复相对复杂的财务表的结构。
图1展示了不同现有方法(即Adobe Acrobat DC和Tabby [8])的性能的直观示例。 他们两个都无法给出正确的结果。 同时,不难发现问题经常发生在跨单元格上,这些单元格很可能带有表头的信息,因此对于表的提取和理解至关重要。 因此,表格提取方法的性能仍然需要改进,尤其是在复杂情况下。
基于这些考虑,由于人工智能算法的设计依赖于标准数据和测试基准,因此我们构建了一个名为FinTab的开源财务基准数据集。 更具体地说,样本收集,样本分类和清洗,基准数据确定和基准方法测试都已完成。 FinTAb可以在财务方面可进一步用于表格提取,关键信息提取,图像数据标识,票据标识和其他特定内容。 借助更全面的基准数据集,我们希望促进更多创新技术的出现。 有关我们标准财务数据集的更多详细信息将在第三部分中介绍。
此外,本文还借助图卷积网络(GCN)提出了一种新的表提取方法GFTE。 GFTE可以用作基线,该基线将表结构识别的任务视为基于图形的边缘预测问题。 更具体地说,我们将图像特征,文本特征和位置特征整合在一起,并将其馈送到GCN以预测两个节点之间的关系。 关于此基准算法的详细信息将在第四节中讨论。总的来说,这项工作的贡献可以总结如下:
- 一个汉语基准数据集FinTab,包含1,600多张各种难度的表格,其中包含表格位置,结构标识和表格解释信息。
- 我们提出了一个基于图形的卷积网络模型,称为GFTE,作为表格提取基线。 大量的实验表明,我们提出的模型大大超过了最新的基准。
2. 相关工作
在本节中,我们将首先带读者熟悉一些以前发布的数据集和一些相关的竞赛,然后概述表提取技术。
A.以前的数据集
我们介绍一些现有的公共可用数据集:
Marmot
Marmot数据集[9]由中文和英文页面组成。中文页面选自Founder Apabi图书馆提供的120多种不同领域的电子书,而英文页面则来自Citeseer网站。该数据集源自PDF,它存储所有文档布局的树结构,其中叶子是字符,图像和路径,而根是整个页面。内部节点包括文本行,段落,表格等。
UW3和UNLV
UW3数据集[10]是从1,600页经歪斜校正的英文文档中收集的,其中120页包含至少一个带标记的表格区域。 UNLV数据集来自2889页扫描的文档图像,其中427张图像包含表格。ICDAR 2013该数据集[11]总共包括150张表:75张表(摘自欧盟的27个摘录)和75张表(摘录自40个美国政府的摘录),即,总共67个PDF文档,英语238页。
ICDAR 2019
ICDAR 2019表格检测和识别竞赛[12]的数据集分为训练部分和测试部分。训练数据集包含600个现代文档的图像及其表格区域的边框,以及600个档案文档的图像,表格结构以及表格区域和单元格区域的边框。在测试数据集中,提供了199个档案文档和240个现代文档的图像和表格区域。此外,还包括350个档案文件的表格结构和单元区域。
PubTabNet
PubTabNet数据集[13]包含超过56.8万个表格式数据的图像,并用表格的相应HTML表示进行注释。更具体地说,提供了表结构和字符,但缺少边框。
SciTSR
SciTSR [14]是一个综合的数据集,由15,000张PDF格式的表格,表格区域的图像,其相应的结构标签和每个单元格的边界框组成。它分为1,2000个训练数据和3,000个测试数据。同时,还提供了称为SciTSR-COMP的复杂表列表。
TableBank
TableBank [15]是基于图像的表格检测和识别数据集。由于涉及两个任务,因此它由两部分组成。对于表格检测任务,包括页面图像和表格区域的边界框。对于表格结构识别任务,提供了表示行和列的排列以及表格单元格类型的页面和HTML标记序列的图像。但是,文本内容识别不是本文的重点,因此不包含文本内容及其边界框。表一提供了更多信息供比较。
B. 方法
表格提取被视为表格理解的一部分[16],并且通常包括两个步骤[8]:1)表格检测。 即,在该步骤中,将文件的特定部分识别为表。2)表格结构分解。 此任务旨在将表格恢复到尽可能接近原始表的组件中。 例如,标题元素的正确标识,列和行的结构,数据单元的正确分配等。在过去的二十年中,为表格提取设计了一些方法和工具。 在最近的一些调查中对其中一些进行了讨论和比较[17]-[22]。现有方法通常分为三大类[23]:
- 预定义的基于布局的方法
- 基于启发式的方法
- 统计或基于优化的方法。
基于预定义布局的方法为可能的表结构设计了几个模板。 如果文档的某些部分与某些模板相对应,则将其标识为表格。 Shamilian [24]提出了一种预定义的基于布局的表识别和分段算法,以及用于定义新布局的图形用户界面(GUI)。 但是,它仅在单列情况下有效。 [25]中提到了一种基于包装的方法,该方法将低级PDF指令转换为文本段。 Mohemad等 [26]提出了另一种基于预定义布局的方法,该方法着重于段落和表格,然后结合使用启发式,基于规则和预定义指示符的文本。 但是,这些方法的缺点是只能将表分类到以前定义的布局中,而总是会预先定义有限类型的模板。
基于启发式的方法指定一组规则来进行决策,以便检测满足特定条件的表。 根据[20],基于启发式的方法在文学中仍然占主导地位。 [27]是第一个针对PDF表提取的相关研究,它使用名为pdf2hmtl的工具返回文本片段及其绝对坐标,然后将它们用于表检测和分解。 对于清晰表格,此技术可取得良好的结果,但是它假定所有页面均为单列。 刘等[28]提出了一组与形式无关的表元数据,以方便表索引,搜索和交换,以提取表及其元数据的内容。 另一种基于启发式的方法[29]提出了一种自下而上的方法来识别表格排列。 基本内容元素根据其空间特征进行分组。
统计方法利用通过离线训练获得的统计方法,然后将估计的参数用于实际表提取。 已经使用了不同的统计模型,例如概率模型[30],朴素贝叶斯分类器[31],[32],决策树[33],[34],支持向量机[33],[35],条件 随机字段[35]-[37],图神经网络[14],[38],[39],注意力模块[40]等。[41]使用一对深度学习模型(拆分和合并模型)来 从图像恢复表。
3. 数据集收集和注释
总体而言,现有比赛和标准数据集目前存在以下问题:
1)从财务文件中提取表格信息的竞赛和标准数据集很少。
2)表格信息提取的来源缺乏多样性。
考虑到这一点,这次发布的基准数据集FinTab旨在在这一领域做出一定贡献。 在此数据集中,我们总共收集了19个PDF文件,其中包含1600多个表格。 具体的文件分类如表II所示。 所有文档总计达3,329页,而其中2,522页包含表格。
为了确保表格的类型多样化,除了表格的基本表格外,还包括具有不同难度的特殊情况,例如 值得一提的是,总共有119,021个单元格,而合并的单元格数是2,859个,占2.4%。 表的详细类型和数量分布在表III中显示。
FinTab包含各种类型的表。在这里,我们按难度顺序简要介绍其中一些。
1)基本的单页表。这是表的最基本类型,占用不到一页,并且不包含合并的单元格。值得一提的是,我们不仅提供文本基础的事实和结构信息,而且还提供表格的单位,因为大多数财务表格包含很多数字。
2)合并单元格的表格。在这种情况下,应恢复相应的合并单元格。
3)跨页表。如果表格似乎散布在各个页面上,则需要将跨页面表格合并为一个表格。如果两页的页眉似乎重复,则仅需保留一页。页码和其他无用的信息也应删除。另一个值得注意的困难情况是,如果单个单元格被两页分开,则应根据其语义将其合并为一个页面。
4)表格行不完整。在这种情况下,需要根据文本的位置,格式和含义来智能地定位分界线。
4. 基线算法
在本文中,我们还提出了一种新的基于图形神经网络的算法GFTE来完成表结构识别任务,该算法可用作基线。 在本节中,我们介绍该算法的详细过程。图2概述了GFTE。 由于我们的数据集是中文的,因此为了更好地理解,在表IV中给出了示例的翻译版本。 给定PDF文档中的表格,我们的方法可以归纳为以下步骤:
- 建立其真实标签,其中包括
1. 表格区域的图片
2. 文本内容
3. 文本位置
4. 结构标签 - 然后,我们在单元格上构建无向图G =
。 - 最后,我们使用基于GCN的算法来预测相邻关系,包括垂直和水平关系。
在第IV-1小节中,我们首先介绍如何理解这个表格结构识别问题。
1.问题解释:在表格识别问题中,将表中的每个单元格视为一个节点是很自然的。 然后,节点及其邻居之间的垂直或水平关系可以理解为边的特征。
如果我们用N表示节点集,用Ec表示全连接的边,则表结构可以用图G =
因此,我们可以将问题解释如下:给定一组节点N及其特征,我们的目标是尽可能精确地预测节点对之间的关系Rc。
但是,在完整图上进行训练非常昂贵。 它不仅计算量大,而且非常耗时。 同时,不难注意到,只要一个节点连接到它的最近邻居(包括垂直邻居和水平邻居),表结构就可以用更少的边缘来表示。 有了节点位置的信息,我们还能够从这些关系中恢复表结构。
因此,在本文中,我们不使用复杂度为
O(∣N∣2)的Rc训练完整图,而是使用K最近邻(KNN)方法构造R,其中包含每个节点及其K个最近的邻居。 借助KNN,我们可以将复杂度降低为
O(K?∣N∣)。
2.GFTE:对于每个节点,包括三种类型的信息,即文本内容,绝对位置和图像,如图4所示。然后,我们利用结构关系来构建真实标签,并且整个结构可以是如图5所示。为了获得更高的精度,我们分别训练水平和垂直关系。 对于水平关系,我们将每个边标记为1:在同一行中;或 0:不在同一行中。 同样,对于垂直关系,我们在同一列中将每个边标记为1:在同一列中;或0 :不在同一列中。
图3给出了基于图的卷积网络GFTE的结构。 我们首先将绝对位置转换为相对位置,这些位置将进一步用于生成图。 同时,将纯文本首先嵌入到预定义的特征空间中,然后使用LSTM获得语义特征。 我们将位置特征和文本特征拼接在一起,并将其馈送到两层图卷积网络(GCN)。
同时,我们首先通过一个小的kernel来扩展图像,以使表格线更粗。 我们还将图像大小调整为256×256像素,以规范化输入。 然后,我们使用三层CNN来计算图像特征。 之后,使用节点的相对位置,我们可以计算一个flow-field网格。 通过使用来自网格的输入像素位置计算输出,我们可以获取特定节点在特定点的图像特征。
准备好这三种不同类型的特征后,我们将在生成图的边上的两个节点配对。 即,我们找到一个边的两个节点,并将它们的三种不同类型的特征合并在一起。 最后,我们使用MLP预测两个节点是在同一行还是在同一列。
在此基准算法中,我们使用第二部分介绍的SciTSR训练数据集训练网络。 SciTSR数据集仍然包含一定数量的错误样本。 我们使用一些过滤器来过滤它们。