挑战OCR技术难题,合合信息图像处理技术“有一手”
光学字符识别OCR技术是指从图像中自动提取文字信息的技术,这项技术横跨了人工智能里的两大领域:CV(计算机视觉)和NLP(自然语言处理),综合使用了这两大领域中的很多技术成果。在过往的发展历程中,OCR始终具备很强的产业使用背景,是计算机领域里少数几个一开始就由工业界和学术界双轮驱动的领域。
不过,尽管OCR技术已走过一个世纪的发展,现今却仍存在文档图像质量退化严重、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等亟待解决的问题。OCR技术的进阶之路上,文档图像质量的增强是重要的研究方向,需征服页面弯曲、阴影遮挡、摩尔纹、图片模糊等现代文本图像处理中常见的骚乱状况。
合合信息基于自研的计算机图形图像技术,推出多种图像智能处理引擎,可实现图像切边增强、形变矫正、PS篡改检测、往摩尔纹、水印往除、阴影处理、手写文字擦除、图像质检等多种图像智能处理效果,规范图像摘集,提升图像质量,扶助各使用领域简化下游文档处理任务,通过图像预处理提升文字识别效率与正确性。
切边增强
智能推断图像中的主体边缘并切除余外背景,同时通过增强锐化提升图像质量、突出文字。通过合合信息的切边增强技术,可自动裁切出图像主体区域,并增强图像质量,经过该项处理后再进进后续的文字识别、信息提取、素材审核等业务。
弯曲矫正透视矫正
合合信息摘用基于位移场网络学习方法的系统构架,可对形变文档进行智能矫正,包括弯曲矫正与透视矫正,同时智能定位文档边缘,切除余外背景。
依托合合信息的图像形变矫正技术与图像增强能力,可将手机、相机等设备拍摄的文档、书籍图像优化为如同平面扫描仪获得的图像。而对于本身就存在于弯曲载体上的文字,通过弯曲矫正技术,可自动“拉平”图像,提升各类非常规载体文字的识别效率与质量。
PS篡改检测
合合信息自研了基于深度学习的图像篡改检测方法,摘用神经网络模型捕捉图像在篡改过程中留下的细微痕迹,基于百万级的数据学习图像被篡改后统计特征的转变,可智能推断图片是否被篡改,支持检测复制粘贴、拼接、擦除等多种篡改形式与混合篡改,还可定位修改区域,以热力图形式展示图像区域篡改置信度。
往摩尔纹
合合信息摘用多重神经网络技术,通过分析暗角、摩尔纹的形成原理,对图像中存在的骚乱因素进行对应处理,可往除所有样式的摩尔纹,同时保证图像信息完全、颜色不失真。
水印往除
合合信息基于全卷积网络搭建图像水印往除模型,支持对图像中日期、logo、文字等形式的水印进行自动擦除,高保真处理,无痕还原图像。
阴影处理
智能消除图像中存在的各类外形的阴影,解决图像因光线条件复杂产生的有阴影、亮度不均匀问题。
手写文字擦除
合合信息合成了内容切分、手写字迹分别网络、文档质量增强等技术,将待处理图像划分为手写的“擦除区域”和印刷的“非擦除区域”,快速识别与自动擦除手写文字,并对噪点、阴影、背景杂乱等复杂场景进行处理,将文档图像恢复至手写前的状态。
图像质检
智能推断图像是否内容完全、拍摄清楚、光线充足等,对图像质量进行自动化的准进推断与实时反馈。
目前,合合信息相关智能文字识别及图像处理技术已被使用于公司旗下扫描全能王等C端APP中及行业解决方案中,辐射全球百余个国家和地区的亿级用户。