全球互联网技术干货平台——索信达张磊博士专访

“近日,索信达控股首席科学家张雷博士接受InfoQ【全球互联网科技干货平台】专访。多年来,张雷博士在大数据领域“实践”,全栈工程师是他的标签之一,通过对话,他向我们展示了他的“数据风暴”之路。以下为采访正文。

真正的革命不在于分析数据的机器,而在于数据本身以及我们如何使用它。

——维克多·迈尔-勋伯格,《大数据时代》

二十年,什么概念?

对于大数据领域而言,过去的二十年经历了一个从崭露头角到炒作巅峰再到实际生产巅峰的过程,迎来了一次重大的时代变革。业界普遍认可的“大数据”的定义,由著名咨询公司Gartner的高级分析师Douglas Laney于2001年提出;经典的大数据框架Hadoop诞生于2006年;今天,大数据技术已经从 Hadoop 驱动的第一代技术向更智能、更实时、面向交互的技术转变。

数据挖掘的历史比大数据的历史要长得多。当数据量远没有今天这么大的时候,人们已经想尽一切办法从中提取价值。对于索信达首席科学家张磊博士来说,过去的二十年见证了数据挖掘和分析技术与应用的飞速发展。

张磊从研究生开始就进入了数据挖掘和分析领域。博士毕业后,一直在一家提供企业级大数据解决方案的知名厂商工作。从 Teradata 到 IBM 和 SAS,他参与了从运营商到金融行业的数十个项目。项目经验丰富。今年年初,张磊选择加入专注于金融数字服务的索信达担任首席科学家,希望推动国内金融大数据产业朝着“拥抱开源、自主可控、信息融合的方向发展” ,和智慧”。经过大量的项目实践,他对To B有哪些经验和独特的思考?大数据业务和技术解决方案?他如何看待金融大数据的过去和未来?做企业级大数据有哪些困难和挑战?如何打造大数据人才团队?带着这些问题,InfoQ 对张磊博士进行了专访,探讨了这位 20 年资深数据人对 To B 大数据的思考。

数据分析的变化与变化

翻看张磊的履历,可以看出他近半辈子都在和数据打交道。只有一段,毕业后在中科院等离子体物理研究所实习的经历似乎与数据无关。事实上,正是这段经历让张磊“第一次近距离接触”了数据挖掘,那是在他接触数据挖掘这个词之前的四年。

1993年大学毕业后,张磊进入中科院等离子体物理研究所理论室工作。当时实验室的朱思正老师找到了他,希望利用神经网络对托卡马克装置中等离子体的位置和形状进行建模分析,于是张磊一头扎进了BP神经网络算法。他清楚地记得,当时他在图书馆里唯一能找到的教科书就是焦立成老师写的《神经网络系统理论》。在本书的帮助下,他了解了BPNN算法并实现了C语言。也尝试解决了BPNN算法中的一些问题(陷入局部最优、隐藏层神经元个数等),最后和Mr.

1997年读研究生时,张磊选择了数据挖掘方向。后在中国科学院计算技术研究所攻读数据挖掘与信息检索方向工学博士学位,师从国内数据库权威教授王山教授、杜晓勇教授。

距离第一次“触电”已经过去了 20 多年。好在对张磊来说,数据挖掘一直是一件很有趣的事情。其中,博士。1999年到2002年这段时间,在外企工作的十几年对他来说尤为重要:前者让他更系统、更有针对性地探索数据挖掘领域的科研成果,后者让他在大量的项目实践中,我们不断验证和思考什么才是真正合理有效的挖掘方法。

数据挖掘的本质是从数据中寻找规律。张磊认为,这个本质从来没有变过,只是寻找规律的方法变了。

回顾数据分析的发展史,从19世纪下半叶高尔顿和皮尔逊创立描述性统计,到1956年人工智能和机器学习的诞生和发展,再到深度学习的异军突起。在 2006 年的学习中,人们一直在研究 尝试各种方法,努力发现数据中隐藏的模式。近年来,计算能力的快速提升和大数据的兴起,推动了数据挖掘方法和分析算法的不断演进。

拿一些业界常用的算法来说,传统而简单的BP神经网络似乎在20年前就走到了尽头,开始走向没落。二十年后,AlexNet、VGG16、Inception、RNN、LSTM、GAN等深度神经网络层出不穷,模型层出不穷,令人眼花缭乱;20 年前,业界仍在为决策树在工业应用中的简单性和有效性而欢欣鼓舞。20年后,随机森林、GBDT、XGBoost、LightGBM实现了全面超越;20 年前,大家还在使用向量空间模型、朴素贝叶斯、SVM 来分析文本,20 年后 BERT、XLNet 开始流行。

虽然数据、算力和算法这三个因素对于新一波人工智能的推动也是不可或缺的,但张磊认为,以深度神经网络为代表的深度学习算法并没有超越传统神经网络的基本框架。发展仍然落后于数据发展的速度,当然,实现同步是顺理成章的事情。

金融大数据演进的四个阶段

每一波都可能变成泡沫或浪潮,大数据属于后者。经过二十年的演进,大数据离开了技术炒作的巅峰,进入了实际生产的巅峰,并进一步成为其他技术(如人工智能)的底层支撑。

根据工信部相关数据、赛迪网等相关数据,2020年国内大数据市场规模有望达到万亿元。硬件、软件和服务是三大板块,而对分析人才和分析服务的需求最为迫切。

除了互联网行业,金融行业可以说是跟随和采用大数据、人工智能等前沿技术最快的行业。无论是在国外还是在国内,金融行业的数据分析成熟度都处于前列。从银行、保险到证券行业,大数据平台已经成为企业越来越依赖的系统。数据中心的声音让它更接近核心系统。从数据集中、数据仓库、云平台、数据湖,到商业智能、数据挖掘、人工智能,再到个人金融、企业金融、风险部门、客服中心,大数据的架构、技术和应用逐渐变得越来越多在金融行业更受欢迎。工业,尤其是银行业。

对于过去十年金融行业大数据的发展和演变,张磊认为,根据Thomas H. Davenport教授对数据分析成熟度的划分方法,可以分为四个阶段。翻译是本地化分析、分析愿望、分析公司和分析竞争对手。这四个阶段生动地展示了数据分析应用在企业或行业中的发展阶段,从早期的少数人开始使用数据分析,到建立部门层面的一些分析系统,再到形成对整个企业进行全面统一的分析 系统的最终目标是以分析为核心能力。目前,国内金融企业大多处于<

To B大数据经验与思考

在很多人眼里,To B大数据是一件脏活,但入行以来与多家金融公司、银行打过交道的张磊却有不同的看法。

图片[1]-全球互联网技术干货平台——索信达张磊博士专访-老王博客

从技术角度来说,张磊觉得To B的大数据分析其实比To C的要好。首先,数据量小很多,不会因为性能压力而放弃必要的分析尝试;另外,数据质量相对可控,数据来源是否可信几乎没有疑问,这使得To B的大数据分析相对简单。在他看来,做To B大数据的最大障碍是企业文化形成的壁垒。多年来,一些公司已经养成了依赖人类经验而不信任数据的习惯。云数据分析项目的有价值的业务问题。

新时代转型中期,金融行业的数据分析难免会遇到新的问题,比如引入更多外部数据不知道怎么用,看到互联网公司业务创新不知道怎么处理用它。To B大数据怎么做?基于在大量数据分析项目中的实践,张磊分享了自己的一些经验和思考。

数据应用方法论

没有方法论,就像“盲人骑盲马,半夜面对深潭”。你越努力,结果就越糟糕,因为你可能在不知不觉中朝着与目标相反的方向前进。

经过20年数据应用的丰富实践,金融业已经形成了非常成熟的大数据应用方法论。无论是系统架构、应用框架,还是分析平台和团队建设,都有成熟的系统经验可供参考。张磊总结如下:

问题和数据比算法更重要

百货公司之父约翰·瓦纳梅克在数字营销领域有句名言:“我知道我花在广告上的一半投资是无用的,但问题是我不知道是哪一半。”

数据分析包括三个要素:问题、数据和算法。其中,业务问题和业务目标是数据分析的起点和终点,数据是分析的基础和原材料,算法是处理这些数据原材料的工具。对于大多数项目的成功来说,这三个要素是不可或缺的,而前两个是最重要的。在张磊过去参与的那些项目的实施中,让他印象深刻的不是神奇的模型,而是一些熟悉的术语:业务问题、数据处理、模型评估、应用策略。

发现真正对企业有价值的业务问题,制定合理可行的具体目标,及时提供真实可用的优质数据bp神经网络原理及其在字符 1 识别中的应用,处理具有更多业务含义的数据特征。紧密合作。

数据团队角色

张磊曾与咨询公司合作,帮助大型国有银行规划分析团队,在国外实践中也被称为“商业分析能力中心”(BACC)。这个团队的理想组成分为三种职位:业务职位、数据职位和分析职位。人员配备比例通常为2:3:5,分析建模工作量通常不超过项目总工作量的10%。. 业务岗位是分析团队与业务部门之间的桥梁。它通常是来自业务部门或分支机构的业务骨干。熟悉业务流程和业务问题,能将分析团队的结果与业务应用相结合;数据站是一个传统的数据库。管理和ETL岗位要求熟悉数据库理论和技术,熟悉SQL语言,稳定高效的ETL脚本;分析职位的人力比例最高,但并不是每个人都是建模专家。其实这些人更像是灵丹妙药,除了熟悉常用的算法外,公司的角色应该也能同时承担业务岗位和数据岗位的部分工作。换句话说,一旦需要,它们可能会成为数据帖子或业务帖子。这些人更像是灵丹妙药,除了熟悉常用的算法,公司的角色还应该能够同时承担业务岗位和数据岗位的部分工作。换句话说,一旦需要,它们可能会成为数据帖子或业务帖子。这些人更像是灵丹妙药,除了熟悉常用的算法,公司的角色还应该能够同时承担业务岗位和数据岗位的部分工作。换句话说,一旦需要,它们可能会成为数据帖子或业务帖子。

张磊强调,分析建模人员太多,自认为是高端人才,只愿意做算法建模工作,不愿意做数据整理的手工工作,不愿意深入了解业务知识,就像一个厨师,既不愿意了解食材的特点,又不愿意了解顾客的口味,你怎么能指望他做出一道美味佳肴呢?数据科学家的头衔很迷人,但全栈工程师就是这样。因此,从职业发展的角度来看,轮岗是一个很好的制度。一方面让员工获得越来越全面的技能,另一方面也有利于团队的稳定。

开源挑战

开源正在吃软件,金融行业也不例外。多年来专注于金融数字化转型,张磊见证了技术的变革。在他看来,如今企业级大数据解决方案所采用的核心技术和架构与过去有很大不同。最突出的一点是开源的吸引力越来越大,企业在技术选择上逐渐倾向于开源。

从Doug Cutting 2006年开源的大数据经典框架Hadoop到现在,在大数据领域已经形成了一套相当活跃的开源生态系统,拥有很多成熟的开源工具。张磊坦言,开源给商业解决方案带来了巨大挑战。这种挑战局面已经从十几年前的“小河只露尖角”,变成了现在的“楚汉比拼”。

十年前,张磊与大多数银行客户进行了交流。偶尔会有一两个用户使用开源的 R、MySQL 等工具进行数据分析;近一两年,在某大型国有银行的分析团队中,使用过Python、Spark等。用于数据分析的开源工具甚至占了一半。

张磊认为,开源实力越来越强的主要原因是“生态系统”。就像乔布斯用 iPhone 让苹果再次辉煌一样,全球数亿用户成为 iPhone 忠实拥趸的关键不是手机酷炫的外观和强大的性能,而是 AppStore 打造的生态系统是真正能包围用户的。如果你有你想到的和没有想到的功能,有人为你开发了,越来越多的人加入到开发的行列中,就像有数百万人支持你一样,这是每个用户梦寐以求的场景。对于数据分析师来说,开源社区也有同样的效果。当你遇到业务问题不知道如何下手时,

生态一旦建成,强者愈强,弱者愈弱,往往难以逆转。每个人都在捡柴火,火焰很高。英雄挡不住狼。只有一两家商业公司无法与庞大的开源社区竞争。

那么提供企业级数据解决方案的公司如何应对开源带来的挑战呢?面对挑战,人们往往有两种反应:战斗或逃跑。在张磊看来,还有第三种方式,就是化敌为友。为什么不考虑将商业解决方案与开源平台相结合?接受开源发展的趋势,取长补短,商业公司还是会有自己的一席之地。

张磊目前在索信达的职位一直密切关注开源技术的发展。无论是MySQL、Hadoop等开源数据平台,还是TensorFlow、PyTorch等开源分析框架,都集成在其对外提供的一系列解决方案中,涵盖精准营销、规则引擎、场景库、模型工厂、客户微细分、可解释机器学习等领域。此外,今年索信达积极参与国内数字生态,积极与华为合作,在华为云ModelArts平台发布首个金融营销模型——客户微细分,树立行业标杆,赢得华为及领先金融客户. 得到正式认可的。

未来展望

近二十年来,大数据从星星之火变成燎原之火,而“新基建”将让大数据的火越来越旺。

张磊表示,“新基建”离不开大数据产业。实现信息融合,离不开大数据基础设施和数据生产。要实现智能化,还需要基于大数据的深度分析。因此,随着“新基建”等国家战略的实施,大数据产业将越来越重要,其发展也将越来越快。可以预期高速和高加速度。

他强调,大数据技术在未来仍有很大的发展潜力。当前的一些技术过分强调应用层的性能,模型算法变得越来越复杂和脆弱。根本原因在于底层理论体系需要新的突破。“欧几里德的《几何元素》几千年不发展,似乎已经足够成熟了。笛卡尔将代数和几何结合起来bp神经网络原理及其在字符 1 识别中的应用,立刻为世界打开了另一扇窗。底层理论的突破,才是真正的突破。带来真正的革命性变革。”

对于近年来大数据领域涌现的各种新概念,张磊认为,其中很多只是一种发展趋势,并不意味着已经实现了质的变化。比如这两年异常火爆的众泰,其实就是把运营端和分析端融合到了一定阶段。它不会带来翻天覆地的变化,也不是万病之灵。对于顺应发展趋势的新概念,当然要了解熟悉和探索,但要在金融行业成为现实,完成华丽转身,还有很长的路要走。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论