智能文档
分析表单和文档
创建智能搜索索引
自动化业务工作流程
图解(从你的所有内容中发现潜在的见解)
现实世界中的文档理解
图解(视觉效果丰富的文档)
文档理解任务
相关工作
文本和视觉信息的浅融合
结合预先训练的NLP或CV模型的输出
带标记样本的监督学习
文本和视觉信息的深度融合
对端到端文本和视觉信息进行预训练
用于预训练的大规模未标记数据集
一些贴有标签的样品进行微调
LayoutLM
为何将文本和布局联合训练
现有的研究主要集中在单模态信息或将语境文本嵌入与空间信息简单结合而不进行交互
文档在布局中的局部不变性
词语的相对位置与其语义表征高度相关
局部不变性
键-值对的布局
左右或自上而下的
表布局
网格/表格
标签数据不足和昂贵
建模目标
联合建模文本和布局信息:上下文文本嵌入+上下文空间信息
对未标记数据进行预训练,以利用局部不变性,更好地将布局信息与语义表示对齐。
LayoutLMv1 -> LayoutLMv2 -> LayoutXLM
Image
Layout
建模过程图
对layout进行自监督学习
带有掩码机制的的视觉语言模型(下图)
文档图片分类
预训练数据
图解(IIT-CDIP Test Collection 1.0上1100万的文档图片)
下游任务
格式解析
票据的解析
文档图像分类
形式理解
图解(实验结果)
票据解析
图解(实验结果)
文档图像分类
图解(实验结果)
LayoutLMv1 -> LayoutLMv2
Layout
LayoutMv2框架图
预训练模型
带掩码的视觉语言模型
Text-Image匹配
Text-Image对齐
在一些下游任务的结果
图解(语义实体识别的结果)
图解(文档图像分类的结果)
图解(文档VQA结果)
LayoutLMv2 -> LayoutXLM
框架图
预训练语言的分布
图解(30M文档的图片用来预训练LayoutXLM)
XFUND基准
8种语言,英语、汉语、日语、西班牙语、法语、意大利语、德语、葡萄牙语
每种语言有199个文档图像(没有重复模板)训练149个,测试50个。标签、头、键、值、其他
图解(特定语言的微调结果)
图解(zero-shot transfer 实验结果)
图解(多任务学习实验结果)