从 2012 年开始,几乎人人(至少是互联网界)言必称大数据,似乎不和大数据沾点边都不好意思和别人聊天。从 2016 年开始,大数据系统逐步开始在企业中进入部署阶段,大数据的炒作逐渐散去,随之而来的是应用的蓬勃发展期,一些代表成熟技术的标志性 IPO 在国内外资本市场也不断出现。转眼间,大数据几年前经历的泡沫正在无可争议地转移到人工智能身上。可以说,在过去的一年,AI 所经历的共同意识“大爆炸”与当年的大数据相比,有过之而无不及。最近风口又转移到区块链上了,某种程度上也成为业内人士焦虑的一种诱因了。
但无论技术热点如何变换,我们能看到的是,随着行业沉下心来进行实质的落地,大数据生态也越来越细分。今天就我和大家来谈谈大数据领域的一些新变化、新趋势。
一、数据治理与安全 Data Governance& Security 就发展趋势而言,这个可以放在第一位来讲讲。
多年来,数据已经在企业中不断快速积累。物联网 (IoT) 更是不断加速数据的生成。
对于许多企业来说,大数据的解决方案就是利用类似于开源的 Apache Hadoop 等技术作为基础支持,创建数据湖 (Data Lake),即创建整个企业的数据管理平台,用于以本机格式存储企业的所有数据。数据湖将通过提供一个单一的数据存储库来消除信息孤岛,整个组织都可以使用该存储库来进行业务分析、数据挖掘等各种应用。当有了数据湖之后,大家会倾向于认为这东西将会成为一个全方位和万能的大数据集,例如点击流数据、物联网数据、日志数据等都会被要求进入这个湖中,而这些数据很难处理的问题却会被忽略。
但是,除非你知道数据湖里具体有什么,并且能够访问到合适的数据进行分析,否则数据湖再大也没有意义。因此,最后大家都会意识到许多数据湖是表现不佳的资源,人们不知道其中存储着什么内容,如何进行访问,或者如何从这些数据中获取洞察力。
但是,方便地找到想要的东西、同时管理好权限并不容易。除了数据湖以外,治理的另一个主题是以安全的、可审计的方式为任何人提供对可靠数据的便捷访问。
所以,站在管理并使用好公司数据资产的角度而言,数据治理犹如公司的顶层制度和宣言一样需要被重视,并且用相应的策略、流程等来进行落实。最终目的是通过实现数据治理,来提升数据管理、确保数据质量、形成开放共享的新局面等。此外,数据治理也是决策、职能以及操作流程有机组合的系统,并且人们对这些数据资产承担责任。
二、致力于协作的数据工作台发展 在大多数大型企业里,大数据的采用是从少数独立项目开始的,个推也是如此:譬如这里做一点 Hadoop 集群,那里用一用分析工具,跑一个简单业务模型,以及意识到需要设立一些新的职位(数据科学家、首席数据官)等等。
现在,业务场景越来越丰富,异质性也越来越突出,各种各样的工具在整个企业范围内得到了使用。在公司的组织范围内,集中化的“数据科学部门”正在逐渐让位于更加去中心化的组织,原因在于集中化的部门越来越走向瓶颈,也更容易造成资源的流失。
这个由数据科学家、数据工程师以及数据分析师组成的群体,正日益嵌入到不同的业务部门里。因此,对于平台来说需求已经很明显了,那就是要让一切都能协作到一起来,因为大数据的成功正是建立在设立一条由技术、人以及流程组成的装配线基础之上的。
因此,一些全新的协作平台类型(譬如 Jupyter 等)正在加快出现,引领着所谓的 DataOps(与 DevOps 对应)领域的发展。
三、数据科学自动化 数据科学家 (Data Scientist) 依然是市场上炙手可热的争夺对象。但是我们在周围却很少见到这类人,哪怕是财富前 1000 强的公司也为无法招到更多“数据科学家”而感到困扰。而在一些组织里,数据科学部门正在从使能者演变为瓶颈。
与此同时,AI 的大众化以及自服务工具的蔓延使得数据科学技能有限的数据工程师,甚至是数据分析师在执行一些基本操作时变得更加容易了,而这些操作直到最近仍然是数据科学家的领地。在自动化工具的帮助下,企业大量的大数据工作,尤其是那些简单枯燥的工作,将由数据工程师和数据分析师进行处理,而不必麻烦有着深厚技术技能的数据科学家。当然,即便如此,数据科学家目前还不需要太过“恐惧”。
在可预见的未来里,自服务工具和自动化模型将会“增强”数据科学家而不是消灭他们,会解放他们,让他们把焦点放在需要判断、创造力、社会化技能或者需要垂直行业知识的任务上,那样才能更加体现科学家的名号。
四、大数据管理员的崛起 大数据管理员 (BDA) 也对标于数据库管理员 (DBA),虽然两个英文字母只是变换了一下顺序,但是其内涵相差甚远。一个非常明显的趋势是,企业将对一个新岗位角色产生需求,即大数据管理员。DBA 大家已经非常熟悉,但它与大数据时代下的数据管理员,有非常大的差别。
数据管理员处于数据使用者和数据工程师之间。为了取得成功,数据管理员在进行大数据系统的维护工作之外,还必须了解数据的含义以及掌握应用于数据中的一些技术。
数据管理员需要清楚整个组织内需要执行的数据分析类型,哪些数据集非常适用于这项工作,以及如何将数据从原始状态转换为数据使用者执行这项工作所需的形态和形式。数据管理员应使用像自助服务数据平台这样的系统来加快数据使用者访问基本数据集的端到端流程,而无需制作无数的数据副本。
结语 以上四个方面是数据科学在实践发展中提出的新需求,谁能在这些方面得到好的成绩,谁便会在这个大数据时代取得领先的位置。