?

我被“非结构化数据包围了”,请求支援!

作者:CQITer小编 时间:2019-09-11 16:01

字号

我被“非结构化数据包围了”,请求支援!

非结构化数据的内容占据了当前数据海洋的80%。换句话来说,就是我们都被“非结构化数据”包围了。由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使用成为了难点。如果说结构化数据用详实的方式记录了企业的生产交易活动,那么非结构化数据则是掌握企业命脉的关键内容,所反映的信息蕴含着诸多企业效益提高的机会。而对大部分组织而言,掌握先进的非结构化数据分析能力仍是从“大数据”中获得价值的重大挑战。

当前,数据技术及产品部对结构化数据处理和应用已经具备了成熟的技术以及产品方案。为了应对日益增长的非结构化数据诉求,非结构化数据体系通过覆盖非结构化数据规范、数据设计、算法能力、服务能力等来解决这一问题,该体系是对OneData体系的非结构化数据的补充和完善。已经赋能了集团内很多业务取得了非常好的效果,而这只是刚刚开始。

非结构化数据概述

“非结构化数据”是什么?相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息等。

相对于结构化数据,非结构化数据具有以下特点:数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。

当前行业公认:非结构化数据占数据总量的80%以上。结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,非结构化数据包含各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。

我被“非结构化数据包围了”,请求支援!

图:非结构化数据的占比图 图片来源:《大数据分析行业网》

非结构化数据没有预定义的数据模型,不方便用数据库二维逻辑表来表现。 下面对比一下结构化数据和非结构化数据的区别:

结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

结构化数据格式形式如图下:

我被“非结构化数据包围了”,请求支援!

图:结构化数据

非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。

非结构化数据-图片格式如下图所示:

我被“非结构化数据包围了”,请求支援!

图:非结构化数据 图片来源:《数字时代》

非结构化数据包含的信息量丰富。非结构化数据与结构化数据最大的区别在于蕴含信息量非常丰富,同样以图片为例,请看下图:

我被“非结构化数据包围了”,请求支援!

图:图片蕴含的信息 图片来源:淘宝

你看到了多少信息?不妨我们一起看一看:

人物:女人,短发,佩戴项链,做了美甲,......

衣服:女装,黑色T恤,长袖,低领,白色裤子,薄款,紧身

文字:秋定制,流金诗意,2折包邮,custom

这是一些显性信息,可以看出一张图片里面的显性信息就已经很多了,当然还有很多隐形信息。比如:

1.衣服材质:纯棉2.特点:时尚的版型,贴身,显身材......

由此可以看出非结构化数据隐含的信息量非常丰富。 非结构化数据一般不能直接使用,需要通过算法等手段进行处理。但因非结构化数据本身的特点,处理难度大。比如:对评论文本信息的情感分析。为了实现情感分析,需要使用算法进行复杂的处理,通过大量的数据训练才能完成。以商品评论数据来看,对于结构化的评论如下表:

我被“非结构化数据包围了”,请求支援!

结构化评论数据

可以直观看出用户感情是负向的。

同一个买家的非结构化评论:我在这家买了,缺少螺丝,商品还有划痕直接不管。

根据以上的评论内容,如果要确定买家的情感,就没那么简单了。需要使用NLP算法,并经过算法效果评估等一系列过程。

因此,当前非结构化数据的处理门槛还是很高,处理难度还比较大。

非结构化数据的价值及应用

责任编辑:CQITer新闻报料:400-888-8888 ? 本站原创,未经授权不得转载
关键词 >> 数据,非结构化,AI
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接