云计算赋能金融文本数据智慧处理
随着爆发式增长的数据从四面八方奔涌而来,金融行业面临的数据挑战,比我们很多人想象得更加严峻。
在传统的模式下,数据的分析、录入和审核全部采用人工审阅模式,极大地降低了业务效率,容易造成商机错失。于是,通过OCR(光学字符识别)技术来实现各种业务场景的智能化,已经成为当前诸多银行的首选。作为一项枯燥繁杂、重复度高、工作量大的业务,财报的数据录入和分析显然可以让OCR技术大展身手。最近几年,云上模式成为趋势,新型数字化应用飞速发展,原有的OCR模式已经难以满足金融行业需求。
基于相关的技术与云服务,亚马逊云科技在中国市场近期推出了一系列本地“原生”的、服务于金融行业的解决方案,帮助企业盘活数字资产,以AI创新场景,加速金融企业的数字化转型。
亚马逊云科技的智能公告文本知识标签提取机器人方案,便是其之中一。该方案利用Amazon SageMaker机器学习服务、Amazon Neptune图数据库服务和金融行业资产盘活机器人等云服务,对上市公司公告、研报等文本进行分析与实体抽取,形成知识标签,以提升银行和证券机构识别外部风险与商业机会的效率。
利用这个方案,用户不仅可以从上市公司公告中提取价值信息,也可以“阅读”法院公告、工商、互联网媒体、路透、征信、网点监控等不同的数据来源。针对上市公司公告、研究报告,通过利用智能公告文本知识标签提取机器人方案,银行就不必在季末抽取大量人工投入分析文本、提取内容等工作,而可以将这些专业资源用于其他高价值工作。
与传统OCR不同的是,该方案对财报的分析不仅是提取其中的数据,还包括了高管变动等关键信息。其中,AI模型可以对文档进行自动分析与文字抽取,将识别出的数据、文字等信息,进行实体识别与关系抽取,形成知识标签,通过图数据库进行保存,便于前端进行查询和展示。
该方案以Amazon S3为基础,联接了Amazon Neptune、Amazon AppSync、Amazon DynamoDB等不同的服务,通过数据预处理、数据抽取和数据后处理,进行智能文本处理服务,可以基于数据的生命周期,帮助客户构建智能业务平台和专业服务团队。
通过亚马逊云科技的智能公告文本知识标签提取机器人方案,金融机构可以高效率地进行如财报等文本的处理和分析,从更多的数据来源提取价值信息,及时发现商机、规避风险。
“对于金融行业来说,这是一种很典型的资产激活。”
亚马逊云科技中国地区金融解决方案负责人
需要说明的是,亚马逊云科技中国本土团队提供的金融行业解决方案依托开源框架,支持多种框架和模型,用户对架构和模型自主可控。
其次,用户的数据由金融机构拥有和掌控,他们可以利用这些自有数据,进行OCR模型的增强训练和精度提升,实现业务的更多可能性。
再次,借助机器学习平台Amazon SageMaker和图数据库Amazon Neptune,该方案可以在OCR识别出文字的基础上,进一步进行智能的实体识别与关系抽取,形成知识标签,支持风控、营销、推荐等业务产品的开发,并可引入图神经网络算法模型,服务更多的业务场景。
最后,我们还必须提及亚马逊云科技金融行业解决方案的云端优势:弹性伸缩、资源按实际用量付费,用户可以随时根据自己的需求开启服务,节省不必要的花费。