商业场景

知识库问答

企业舆情

合同信息抽取

场景:识别提取需求的关键信息、做财务、供应商风控

难点:

  • 扫描件pdf转word(扫描件ocr)
  • 表格、两列无边框表格关键信息提取
  • 页眉、页脚处理及关键信息提取
  • 印章去除
  • 跨页合并
  • 文档格式还原

产品形式

  • 合同核验系统

产品、解决方案问答

泛化、推理

表格提取

单据识别

固定格式,但是有印章和手写

审计报告生成

分批提取

image-20230426100316478

审计问答下的问题法律定性

数据治理

原ERP系统中业务字段梳理 +库 表字段对应(现在是驻场5人月)

基于表数据(结构)的问答

  • 如收入表,可以问A公司2023年第二季度营收多少,直接接入数据库表结构,给出答案

行政处罚决定书及各类附件字段提取

合同及各类合同单据字段提取

底层技术

数据侧

  • 数据采集
  • 数据处理
  • 数据标注

数据采集

数据处理

数据标注

算法侧

  • 非格式化文档解析
  • 文档提取

大模型

moos

硬件