数据生态系统在2017年终于实现了火力全开(组图)

编者按:本文来自微信公众号,作者 Matt Turck;36氪经授权发布。

数据生态终于在2017年轮回。本文为您提供大数据领域的详细“国情咨文”,以及投资机构对该行业的见解和关键趋势。本文最初发表于 Matt Turck 的博客,经原作者许可由 InfoQ 翻译分享。

写在前面

作为一个数据极客,你应该在 2017 年感到高兴。

去年,我们问过大家,“大数据还很重要吗?” 并注意到由于大数据更像是一种“系统工程”,它在采用速度方面落后于行业。炒作。大数据技术从看起来很酷的新技术发展为企业在生产环境中实际部署的核心企业级系统需要数年时间。

2017 年,我们已经对这样的部署阶段感到非常满意。“大数据”一词正在淡出我们的视线,但技术本身正在迅速扩展。各行各业的各种轶事和证据证明,相关产品在越来越多的财富 1000 强企业中变得越来越成熟和实用,许多初创公司已经利用这些技术实现了快速的收入增长。

与此同时,炒作泡沫开始明确转向生态系统中的机器学习和人工智能等领域。过去几个月,人工智能领域出现了“大爆炸”的集体意识,类似于几年前大数据技术的“遭遇”,只是速度更快。

换个角度看,2017年也是激动人心的一年:看透秋水的IPO。今年前几个月,大数据领域的初创公司一直活跃在这一领域,并受到公共市场的热烈欢迎。

总体而言,数据生态系统终于在 2017 年完成了一个完整的循环。与往年一样,我们将通过我们的年度大数据领域审查为您提供详细的“国情咨文”,总结我们对关键趋势的行业洞察。

开始吧!

大数据+人工智能=新技术栈的上流趋势

任何 VC 有幸看到的任何炒作都证明了一个事实,即 2016 年每家初创公司都在变成一家“机器学习公司”,“.ai”已成为必备域名,“等等,我们将用机器学习技术解决这个问题”已经开始出现在各种筹款活动的演讲中。

围绕人工智能的报道、座谈会、时事通讯、微博层出不穷。很多一直关注机器学习技术的人都反应了,仿佛发现一个本土品牌突然开始向全球扩张:一方面,双倍Proud;但另一方面,这就像面对派对迟到并摆出姿势的人表现出明显的无聊,同时为不可避免的失望做好准备。

虽然很容易认为这些趋势非常温和,但该领域所经历的演变是不可避免且影响深远的:机器学习正迅速成为许多应用程序中最重要的组成部分。

我们正在见证一种新技术堆栈的出现,其中大数据技术用于解决数据工程中的核心挑战,机器学习技术用于从数据中提取价值(分析洞察力或行动等形式)。

换句话说:大数据提供了渠道,人工智能提供了我们需要的智能。

当然,这种共生关系并不是什么新鲜事,但只有少数人有幸真正能够做到。

这些技术真正开始“民主化”。“大数据+人工智能”已经成为很多现代应用的默认技术栈,无论是普通消费者还是企业。许多初创公司和一些财富 1000 强公司都在使用这种新技术堆栈(例如 JP Morgan 的“Contract Intelligence”应用程序)。

通常,云计算是“板凳”的第三条腿,但并非总是如此。该领域的增长也受到主要云计算巨头的推动,它们正在发动一场公开战争,开始提供机器学习云(更多内容见下文)。

短期内,是否可以认为民主化会促进人工智能技术的商品化?事实上,从技术角度来看,人工智能还是有难度的。尽管许多工程师都在争先恐后地开发人工智能技术方面的技能,但至少目前,全球范围内深入该领域的专家仍然很少。

不过,这种民主化趋势至少不会“倒车”,机器学习技术迟早会从竞争优势“进化”为必备要素。这种趋势对初创公司和大公司都有深远的影响。对于初创公司:除非你开发的AI软件是最终产品,否则称自己为“机器学习公司”很快就没有意义了。对于大型企业:如果你目前不主动制定“大数据+AI”战略(无论是自己还是与其他供应商合作),你很快就会被淘汰。大数据这个说法已经很多年了,但是随着基于大数据技术的人工智能技术的飞速发展,这一天只会越来越快。

商业预算:追求利润

在过去几年与大数据技术买家和卖家的对话中,我们发现财富 1000 强公司越来越多的预算用于核心基础设施升级以及与数据分析相关的技术。,大家都非常关注大数据技术。许多分析师同意这个结论:IDC 预计到 2020 年,大数据和分析市场将从 2016 年的 1300 亿美元增长到 2030 亿美元。

在大数据技术方面,许多财富 1000 强公司的买家变得更加成熟和理智。多年来,它们经过充分研究,现在已准备好进行全面部署。不仅在科技行业,目前在很多行业都是如此。旧技术的自然淘汰周期进一步推动了这种快速发展的趋势,对于大型企业而言,这种淘汰周期通常每隔几年发生一次。曾经不利的大数据技术(难以淘汰或替换遗留基础设施)现在正在流行(“我们需要替换过时的技术,市场上最好的技术是什么?”)。

当然,很多大玩家(“后来者”)在大数据领域仍然是“新手”,但这种变化越来越快。

企业数据正在逐步上云

就在几年前,如果你建议公司将数据迁移到公共云上,大公司的 CIO 大多会以“除非我死”来回应你。奇怪的、非关键的出站应用程序迁移到云中。但现在他们的看法似乎正在发生变化,这种变化从去年开始就很明显。我们听到了更开放的想法:越来越多的人意识到“我们的客户数据已经在 Salesforce 的云中”或“我们在网络安全预算方面没有与 AWS 相同的预算。德比”,具有讽刺意味的是,安全性多年来,担忧一直是企业采用云计算的主要障碍之一,但云供应商在安全性和合规性 (HIPAA) 等方面的努力终于得到了回报。

毫无疑问,在公共云中拥有大部分企业数据的目标还有一段路要走,但这部分是由于遗留系统和治理。

但是,进化的趋势是明显的,而且越来越快。云提供商尽其所能促进这一过程,甚至提供运输大量数据的卡车。

2017大数据全景

言归正传,我们想象一下2017年大数据领域的全景是这样的。

1、我们放大看开源技术部分;2. 当然,我今年在FirstMark 的同事Jim Hao 在制作这张地图时也提供了很大的帮助。

合并工作开始了吗?

大数据领域一年比一年热闹,这就提出了一个明显的问题:行业是否正在经历一波大规模的并购浪潮?

似乎还没有,至少现在还没有。

一方面,风投将继续愉快地投资于新老公司。2017 年头几个月充满了向成长阶段大数据初创公司注入大量资金的消息:Looker(D 轮融资,8100 万美元)、InsideSales(F 轮融资,5000 万美元)、DataRobot(C 轮融资,5400 万美元)、Confluent (C系列,5000万美元)、Collibra(C系列,5000万美元)、Uptake(C系列,4000万美元)、WorkFusion(D系列,3500万美元)和MapD(B系列,3500万美元),3500万美元)。此外,DataBricks 也非常引人注目,他们刚刚在 2016 年 12 月获得了 6000 万美元的 C 轮投资。全球范围内,大数据初创公司在 2016 年共获得了 148 亿美元的风险投资,其中 10% 由全球科技 VC 提供。

此外,需要注意的是,该领域的相关投资大多是全球性的,在欧洲、以色列(如Voyager Labs)、中国(iCarbonX)等地设立并投资了大量公司。

其次,正如 2016 年全景图所述,并购活动进展顺利,但并不特别令人印象深刻,部分原因可能是私营公司的估值持续居高不下。我们在 2016 年大数据全景图中提到,总共有 41 家公司被收购(完整名单请参考文末备注)。2017年,并购步伐基本与去年持平。

另一方面,2017 年迄今为止出现了一些非常大的并购活动,例如 Mobileye(被英特尔以 153 亿美元收购)、AppDynamics(思科,37 亿美元)和 Nimble Storage(HPE,12 亿美元)。

去年还出现了一个更常见但并不持久的现象:大型科技公司吞并了人工智能初创公司,尤其是那些为横向问题建立团队的公司。示例:Turi (Apple)、Magic Pony (Twitter)、Viv Labs (Samsung)、MetaMind (Salesforce)、Geometric Intelligence (Uber)、API.ai (Google) 和 Wise.io (GE)。虽然这些举措让以横向领域为主的AI创业公司迅速成为VC眼中的甜蜜点,但这种不假思索的快速收购,也可能对应着该领域缺乏工程师所导致的各种炒作和特殊时期的人工智能。

第三,一些大型大数据初创公司正在转变为独立的上市公司。SNAP可以说带动了科技公司IPO市场的复苏,但迄今为止,只有大数据领域的公司能够利用这个机会成功变现。

虽然只有大数据公司Talend在2016年成功上市,但2017年至今充满了IPO机会。Mulesoft 和 Alteryx 都上市并且表现良好,两次 IPO 都超过了 IPO 价格。在撰写本文时,Cloudera 也即将上市,公司最新估值(41 亿美元)与营收(2.2016 年为 61 亿美元)之间的差距将引发“独角兽”估值现象引起一点考验。此外,MapR 和位置智能公司 Yext 也准备上市。

谁会是下一个?多年来,Palantir 作为业内最低调的公司之一,一直表示有意上市。考虑到 Palantir 的最新估值为 200 亿美元,如果其公开估值接近这一数字,它将成为 IPO 领域的重磅炸弹。

图片[1]-数据生态系统在2017年终于实现了火力全开(组图)-老王博客

开启云端之战

失败和收购可能不会立即整合行业,但“功能合并”越来越普遍,尤其是在云计算领域。该领域的一些重量级玩家正在逐步构建“大数据+人工智能”一体化服务,吸引了众多用户。这些服务要么使用自研产品web工程师想转大数据,要么由流行的开源计算引擎实现。这种服务越来越接近很多买家所期待的“一站式购物”。

尤其是亚马逊网络服务继续快速发布不同类型的产品,给人留下了深刻的印象。目前,公司已经围绕大数据和人工智能技术提供了几乎所有的产品,包括分析框架、实时分析、数据库(NoSQL、图等)、商业智能以及日益成熟的人工智能能力,并拥有很多深度学习。成就(可在此处找到完整列表)。按照这个速度,AWS 很快就会让几乎所有基础设施和分析产品都参与到我们的大数据全景图中。

尽管谷歌在云计算方面起步较晚,但他们正在围绕大数据(BigQuery、Dataflow、Dataproc、Datalab、Dataprep 等)积极构建一系列产品,并将 AI 视为超越竞争对手的方式之一。在过去的一年里,谷歌在人工智能方面发布了很多公告,比如:一个新的转型引擎,聘请了两位杰出的人工智能专家李飞飞和李佳来领导新成立的 Cloud AI 和机器学习部门,New用于视频识别的机器学习 API(此处),以及数据科学家社区 Kaggle 的收购。

较大的企业 IT 供应商——尤其是微软、IBM、SAP、甲骨文和 Salesforce——也在努力提供支持云(尤其是微软)和本地部署的大数据(和人工智能)产品。除了通过自研和收购技术打造这些产品外,他们的合作意愿也在逐渐增强,尤其是与“数据”公司(数据仓库)和“人工智能”公司的合作。例如,IBM 与 Salesforce 以及 SAP 与 Google 的合作就是其中的典型。

以企业 IT 行业标准来看,云提供商仍然不高,但这些公司的雄心壮志(包括明确打算在企业技术堆栈中从 IaaS 级别上升到应用程序级别)和稳定增长将企业数据迁移到云意味着与传统 IT 供应商的全面战争已经开始。每个人都在争夺巨大的企业技术市场的控制权,大数据和人工智能将是核心战场。

大数据生态系统全景回顾

基础设施

去年发生的很多事情还没有解决,比如流处理越来越重要,Spark 现在是领头羊,但人们逐渐开始关注 Flink 等竞品。此外,人们的谈话中时不时会跳出一个有趣的话题:

SQL正式回归

被NoSQL技术“压制”了十多年的SQL数据库技术正式回归。谷歌最近发布了 Spanner 数据库的云服务版本。Spanner 和 CockroachDB(Spanner 的开源版本)承诺提供一个高生存性、强一致性、水平可扩展的 SQL 数据库。与 Snowflake 等产品类似,亚马逊的 Athena 是一个大型 SQL 数据引擎,可以直接查询存储在 S3 Buckets 中的数据。Google BigQuery、SparkSQL 和 Presto 也开始在企业领域站稳脚跟——这些都是 SQL 产品。

数据虚拟化

公共云接受度有一个有趣的趋势:数据虚拟化产品的使用正在迅速增加。虽然较旧的 ETL 流程需要移动大量数据(并且通常创建数据集的副本)并创建数据仓库,但数据虚拟化技术允许企业在不移动数据的情况下就地分析数据,从而提高速度和敏捷性。许多下一代数据分析产品供应商现在提供数据虚拟化和数据准备产品web工程师想转大数据,以帮助客户更轻松地访问存储在云中的数据。

数据治理和安全

随着大数据在企业中的应用越来越成熟,数据的种类和数量还在日益增加,数据管控等话题变得越来越重要。许多公司选择创建一个中央仓库,通过“数据湖”方法存储所有数据。但是数据湖是没有用的,除非人们确切地知道其中有什么,并且可以按需访问正确的数据进行分析。然而,在正确管理数据访问权限的同时帮助用户轻松找到他们需要的数据并非易事。

不仅需要考虑数据湖本身,而且治理的核心主题是为用户提供对可信数据的轻松访问,以满足企业中任何人的需求,所有这些都以安全和可审计的方式进行。大大小小的供应商(Informatica、Collibra、Alation)提供数据编目、参考数据管理、数据词库和数据帮助台等产品。

分析

数据科学家已经是濒危物种了吗?

就在几年前,数据科学家还被认为是“21 世纪最性感的工作”。即使是现在,“数据科学家”仍然在 Glassdoor 的“美国最佳工作”榜单中名列前茅。

但在它诞生后仅仅几年,这个行业就陷入了困境。部分原因是它的必要性,虽然学校和程序员课程仍在培养出许多粗制滥造的新手数据科学家,但这个职位仍然存在大量空缺,尤其是在难以招聘顶尖技术人才的财富 1000 强公司中。在一些组织中,数据科学部门已经从促进者“堕落”为瓶颈。

同时,随着人工智能技术的民主化和自助工具的迅速出现,数据科学技能极其有限的数据工程师,甚至是非技术数据分析师,现在已经可以负担起原本仅限于数据的成本。科学家们。负责基本工作。企业中很多与大数据相关的工作,尤其是繁琐简单的工作,可能会越来越多地开始由数据工程师和数据分析师通过自动化工具来完成,不再需要高技能的数据科学家的参与。

也就是说,数据科学最终可能完全由机器处理。几家初创公司已经明确将他们的产品定位为“自动化数据科学”,其中最引人注目的是 DataRobot 刚刚在这个想法中筹集了 5400 万美元(数据科学如何实现自动化),Salesforce Einstein 也声称提供可以自动生成的模型。

毫无疑问,这些趋势还没有流行起来,数据科学界仍然存在一些争议。但是,数据科学家目前还不必为此担心太多。在不远的将来,自助服务工具和自动模型选择将成为数据科学家的“得力助手”,而不是直接取代它们,他们可以更多地专注于那些需要判断、创新、社交需要知识任务的技能或垂直领域。

让一切协同工作:数据工作台的兴起

在大多数大型企业中,大数据技术的应用通常从几个相对独立的项目开始(这里是一个Hadoop集群,那里是一个分析工具),并创造了一些新的工作岗位(数据科学家、首席数据官)。

然而,今天的情况却大不相同:异质性更为普遍,企业内部使用的工具种类繁多。在组织结构方面,在大型企业中,集中的“数据科学部门”正逐渐成为更加“去中心化的组织”,往往由数据科学家、数据工程师和数据分析师组成的跨职能团队,更深入地融入不同的业务单元. 所以对于平台来说,要求也变得更加明确,大家需要能够在各种技术上共同合作。这在我们去年的文章中提到过。大数据项目的成功主要取决于能否完美融合不同的技术、人员和流程。

所以协作平台领域目前正在经历快速增长,并催生了一个概念,有些人称之为DataOps(类似于DevOps)。FirstMark 投资 Dataiku 正是出于这个原因(请参阅我的上一篇文章:Dataiku,或早熟大数据)。该领域其他值得注意的投资包括 Knime(A 系列,2000 万美元)和 Domino Data Lab(A 系列 1000 万美元)。Cloudera 刚刚发布了基于收购的 Sense 技术的工作台产品。该领域也有活跃的开源活动,例如 Jupyter 和 Anaconda。

应用

人工智能驱动的垂直应用

至少几年前,我们一直在谈论垂直 AI 应用程序的兴起(x.ai 和 AI 驱动的应用程序正在兴起),但从什么时候开始,什么时候流变成了现在的巨浪呢?突然之间,似乎每个人都开始开发 AI 应用程序,无论是新的,还是取得重大进展的初创公司,都将 AI 视为下一个增长点(例如 InsideSales)。

在这种形势和趋势的影响下,一些新成立的初创公司提出了许多令人兴奋的技术。尽管他们中的一些人似乎看到了迷雾中的花朵,但许多公司正在从根本上进行改造以追逐热门趋势。在某些领域使用某种机器学习技术的公司不是人工智能公司。

总的来说,人工智能初创公司的创建并不容易。最关键的第一步是选择垂直领域面临的问题。除了深厚的技术 DNA,还需要深思熟虑的定位和战略(打造人工智能初创公司:现实与战略)。

但是,确保您不被各种可能性所困扰并在快速发展的情况下保持冷静实际上是相当困难的。

尤其是去年,趋势已经很明显:通过人工智能技术解决任何与数据相关的问题。无论企业应用程序或垂直行业如何,都采用这种方法。考虑到现实,今年我们在图表的应用分类中添加了几个类别,包括交通、房地产(利用数据科学实现房地产现代化)和保险。我们还将一些非常活跃的行业分为两类,例如营销应用(分为 B2B 和 B2C)和生命科学(分为医疗保健和生命科学)。

除了这些领域之外,还有一些非常新潮的应用(比如无人驾驶汽车),而如今的人工智能技术在没有想象力的企业应用领域大放异彩,从减员预测到后端办公自动化,再到安全,在不同的形式提供了实际的结果。

人工智能造成了人类失业,可能没有得到政府部门的重视,但没有一个职业不受影响。至少需要考虑它会如何受到影响,也许会被人工智能“增强”。这些问题已经在许多白领职业中得到体现,例如医生(AI 与医生)或律师(AI 开始从事法律工作)。

尤其是金融,似乎已经充分考虑了人工智能的潜力。苦苦挣扎多年的对冲基金正在为其算法寻找替代数据(新淘金热?华尔街需要你的数据)。新的人工智能驱动的对冲基金(Numerai、Data Capital Management 等)尚不完善,但已实现快速增长。华尔街一些最重要的公司正在使用人工智能来取代人类(贝莱德、高盛)。

机器人反击

爱它或恨它,2016 年是机器人之年。许多消息服务提供可以实时聊天的全自动代理。虽然寿命很短,但这些机器人似乎经历了各种炒作周期,从最初的承诺到 Tay 面临的灾难。上线后,与众多网友交流后,变成了“种族主义和顽固的存在”),再到微复兴,再到Facebook相关研究放缓,有报道称70%的人工智能聊天机器人聊天平台上的一切都以失败告终。

对机器人的热情似乎有点早,得出这个结论的原因有很多,但我建议看看 Bradford Cross,他非常贴切地指出,人们可能是受到亚洲机器人崛起或 Slack 等底层基础设施的推动。快速增长导致了过度乐观的预期。我们相信最终这种机器人技术有很大的潜力,但毕竟这个领域需要更长的时间才能成长。在“生产者”方面(初创公司需要专注于每个特定的业务领域并做出更少的承诺)和在“消费者”方面(我们都需要习惯机器人可以做什么和不能做什么,而 Alexa 正在帮助我们意识到这些!)都需要一个完整的心态调整。

就目前而言,最光明的未来可能属于在重要领域需要人工干预的服务,或者在与机器人完全不同的位置使用人工智能来增强人类能力的技术(我们结论的基础来自 frame.ai)。

写在最后

随着大数据和人工智能的结合,我们即将进入“收获”的季节。忽略炒作,我们迎来了多种可能性。

随着核心基础设施和应用的成熟,人工智能技术驱动的应用将迎来井喷期。2017年,大数据(和人工智能)生态系统将全面展开。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论