数据分析的12个误区

从数据问题、人员配备要求到技术组合,数据科学如何真正提升公司业务。

CEOCIO - - Contents -  Bob Violino /文 沈建苗/ 编译

在 IT界,炒作越大误区就越多,数据分析也不例外。数据分析是当下IT界最热门的领域之一,它可以带来显著的业务效益,但是误区会妨碍企业顺利和及时地交付可能使业务用户、最终使客户受益的分析功能。企业在制定或夯实分析策略时,应当提防这12个误区。

误区1:数据分析需要大量投入

这年头,实施的每一项技术似乎都要过财务稳健性这道关卡。IT和业务经理们提议启动项目或部署新工具时,首先面临的问题之一是“这要花多少钱?”

一些人认为,数据分析本质上很烧钱,因此仅限于预算庞大或内部资源丰富的大企业。不过移动和在线房地产服务提供商 Trulia 的工程副总裁 Deep Varma表示,并非所有的数据分析工作都需要大量投入。

Varma 说:“现在市场上有众多的开源及其他工具可以帮助你开始展示数据分析具有的价值。你要深入了解内部数据存储和想解决什么样的问题。有了云计算,试着用分析技术解决业务问题也变得很容易。”

安永咨询公司的全球分析主管 Beatriz Sanzsaiz补充道,现代分析技术“基于云系统和大数据架构,它们本身比传统的数据仓库系统便宜得多。”

Saiz 说:“此外,数据和分析技术通常用来获得三个结果:提高流程效率、增加收入和积极主动的风险管理。所以总的来说,运用数据和分析技术可以为任何公司带来大幅节省成本的好处。”

误区2:需要大数据才能执行分析

对许多人来说,大数据和分析这两个概念密不可分。这种想法指的是,企业需要在执行分析之前收集大量数据,以便获得业务洞察力和改进决策制定等。

当然,大数据分析的好处已得到了公认,拥有资源的公司确实可以利用其存储的数据作为分析工作的一部分,从而获得显著的竞争优势。但大数据对分析来说必不可少的想法是错误的。

人力资源公司 Allegis Global Solutions 的商业智能执行董事 Tim Johnson 说:“人们常常努力采集尽可能多的数据;他们一听到‘大数据’就来劲。一个误区是以为数据越多越好,机器会分门别类。”

然而分析员需要的是具体的数据,而不是更多的数据。Johnson 说:“95%的用户在寻找与其工作相关的信息,支持决策和提高业绩。”企业切忌一味获取更多的数据,而是要明白业务用户不光关注需要访问哪些数据,还关注如何展示数据。

Johnson 说:“让员工可以访问每一个信息(这些信息采用多种格式)会让人无所适从,实际上阻碍采用。而是应搞清楚对他们来说重要的信息,以及如何以最简单的格式向他们展示这些信息。”

误区3:分析可以消除人为偏差

自动化系统执行的方式不应该有偏差。但技 术是人类开发的,所以消除所有偏差几乎不可能。一些人认为,分析技术和机器学习可以消除人为偏差。

全球技术咨询公司 Thoughtworks 的技术负责人 Mike Mason说“:遗憾的是,这根本就不对。算法和分析使用‘训练数据’加以调整,会重现该训练数据具有的任何特征。”

Mason 表示,在一些情况下,这会给分析结果带来无害的偏差;在其他情况下,会带来较

严重的偏差。他说:“就因为‘算法这么说’并不意味着答案是合理的或有用的。”

误区4:最好的算法总是胜出

实际上,有了足够的数据,“有时候算法并不重要。”在 Mason 提到的 IEEE 上的一篇文章《数据的不合理有效性》中,谷歌的工程师认为,简单的统计模型加上超海量数据比含有众多特征和摘要的“更智能化”模型取得了更好的结果。

Mason 说:“在一些情况下,仅仅处理数量更多的数据就能取得最好的结果。”

误区5:算法万无一失

Johnson表示,人们天生就高度信任统计模型和算法;随着许多企业纷纷搞分析项目,它们日益依赖复杂的模型来支持决策。

“由于人们不了解模型、算法及其他先进的数据科学实践,所以信任它们。”Johnson表示,用户不觉得自己具备可以挑战模型的知识,于是他们只好信任构建模型的“聪明人”。

“在过去五六十年,我们听说过人工智能会在 20年内取得主导地位,我们会继续听到人们这么说。在我们能公然信任机器学习和结果之前,还有好多事情要做。在此之前,我们要让构建算法和模型的人解释是如何得出答案的。不是我们不能依赖结果,而是需要透明度,以便我们能够信任和验证分析。”

误区6:数据科学是神秘的“魔法”

近年来数据科学备受关注,有时让人犯疑:它到底是什么样的学科。数据科学基本上是利用算法找出数据中的模式。

数 据 存 储 公 司 Micron 的 CIO Trevor Schulze 说:“数据科学似乎很神秘,因为这些算法能够分析人脑理解能力之外的更多变量和更庞大数据集。”

“近年来随着计算能力和内存增大,我们现在能够迅速解决仅仅10年前用任何技术都解决不了的问题。数据科学是几十年来广为人知的统计推论技术的自然演变的产物。一旦你了解数学,数据科学毫无神秘可言。”

误区7:想搞更多的数据科学,你需要更多的数据科学家

数据科学家是如今所有技术专业人员中最紧俏的。如果企业调整一下工作重心,也许用较少的数据科学家就可以。

Mason 说:“许多数据科学家把时间花在了非增值型活动上,比如寻找数据集、把数据放到可以处理它们的地方以及转换和清理数据。鉴于招聘数据科学家很难,你不希望他们处理那些低价值的任务。”

“优步(Uber)的 Michelangelo 平台让数据科学家可以专注于特征工程、提取和分析,而不是将数据倒来倒去,因而大大提高了生产力。”

误区8:分析太耗时

如今,无论是赶紧将产品或服务推向市场,还是近乎实时地响应客户咨询,迅速完成工作是许多公司在考虑的一大竞争优势。分析似乎要花很长时间来执行,这有悖于实现速度和灵活性的目标。

Saiz 说:“这种类型的项目耗时太长,相当复杂,这个误区依然存在。到头来,人才是关键。借助适当的技能组合、运用敏捷方法,可以在几天或几周后、而不是几个月后解决重大问题。”

误区9:技术是最难的部分

咨询公司ISG 的 IT采购和数字咨询服务主管 James Burke 表示,由于现在可供使用的技术越来越多,选择合适的工具组合来部署和集成以便获得分析团队预期的结果并非易事。

不过 Burke表示,真正困难的部分是“把组织结构和运营模式结合起来,进而把人员、流程和技术等角度所有必需的东西综合起来。另外,你如何在现有的组织内部或‘附近’搞这项工作对企业组织来说是最难的。”

别以为分析工具会完成所有工作也很重要。咨询公司 West Monroe的技术业务高级主管Greg Layok 说:“光靠技术根本解决不了任何业务问题。许多企业急着构建数据湖,到头来深陷泥潭或谁也搞不明白的信息困境。”

Layok表示,技术解决不了分析问题。他说: “先找出业务问题,然后问‘我需要哪些数据来解决该问题?’这将帮助你找出贵企业存在的数据缺口。”

误区10:数据分析应该是独立的部门

咨询和数据收集公司 Delvinia 的总裁兼首席创新官 Steven Mast 表示,在一些企业,数据分析作为一个独立部门来运作;而在另一些企业,深深地融入到跨职能团队中。

Mast 说:“然而,由于数据在所有业务领域大量涌现,加上变化速度快,部门模式不管用了。随着企业变得更以客户为中心,数据驱动的分析专家应该是业务部门的核心,而不是作为你寻求支持的部门来运作。”

如今企业面临的许多复杂问题都在业务部 门内部,而解决这些问题的许多方案都隐藏在数据中。“数据科学家和专家与这些业务部门密切合作,利用庞大数据集和人工智能,将是打造下一代产品、服务和客户体验的关键。”

误区11:分析完全是博士干的事

分析团队有众多受过良好教育的人虽好,但不是成功的必然要求。

Saiz 说:“许多公司往往认为,要是没有博士成员,就无法开展最佳的分析工作。现代分析需要结合一系列技能,需要精通新兴技术和开源软件的人员。拥有不同的技能很重要,包括大数据架构师、数据工程师、数据科学家、数据可视化专家等。”

误区12:人工智能会淘汰工作、破坏经济

历史上新技术的出现颠覆了许多工作和行业,于是有人担心人工智能将不需要人们执行某些任务。

Schulze 说:“人工智能解决方案在解决某些类别的问题方面比人类好得多。“人工智能比人类读得更快、记得更多,计算复杂的数学关系更准确。然而面对新的情形,人工智能却无能为力,而这正是人类擅长的地方。”

当然,某些工作已经因人工智能的崛起而消失或式微,但其他工作会随之而来。他说“:不过,我们人类理解和应对完全无法预料的情形的能力不会被任何目前所知的人工智能技术取代。在可预见的未来,人工智能方面最有效的做法是,用人工智能系统增强人类能力,这类人工智能系统在算法胜过人类的领域执行一些‘繁重任务’。虽然许多工作会因人工智能而变化,但人仍将是这个商业生态系统的重要组成部分。”

(作者 Bob Violino 是 Computerworld、cio、Cso、infoworld 和 Network World等多家 IT 外媒的撰稿人,常驻纽约。本文由IDG旗下CIO 网站授权刊载。)

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.