商业架构
商业场景
知识库问答
企业舆情
合同信息抽取
场景:识别提取需求的关键信息、做财务、供应商风控
难点:
- 扫描件pdf转word(扫描件ocr)
- 表格、两列无边框表格关键信息提取
- 页眉、页脚处理及关键信息提取
- 印章去除
- 跨页合并
- 文档格式还原
产品形式
- 合同核验系统
产品、解决方案问答
泛化、推理
表格提取
单据识别
固定格式,但是有印章和手写
审计报告生成
分批提取
审计问答下的问题法律定性
数据治理
原ERP系统中业务字段梳理 +库 表字段对应(现在是驻场5人月)
基于表数据(结构)的问答
- 如收入表,可以问A公司2023年第二季度营收多少,直接接入数据库表结构,给出答案
行政处罚决定书及各类附件字段提取
合同及各类合同单据字段提取
底层技术
数据侧
- 数据采集
- 数据处理
- 数据标注
数据采集
数据处理
数据标注
算法侧
- 非格式化文档解析
- 文档提取
大模型
moos
硬件
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 吕小布の博客!
评论