产品

正确做数据科学——回答你最常见的问题

本文作者:Instacart副总裁数据科学杰里米·斯坦利他是LinkedIn的技术顾问和前数据主管丹尼尔顿克朗.之前,Jeremy写过这是我们见过的最全面的数据科学家招聘手册

很难相信“数据科学家”在2008年才成为一个真正的工作头衔。杰夫哈默巴赫尔在Facebook和DJ帕蒂尔领英(LinkedIn)创造了这个词,以抓住对跨分析、工程和产品的跨学科技能的新兴需求。如今,对数据科学家的需求激增,同时也需要更好地了解如何发展这些团队以获得成功。

我们俩经历过各自的好、坏和丑,在不同行业、不同成熟阶段的不同公司担任过团队的领导和顾问。我们不仅看到了招聘顶级数据科学家的挑战,还看到了如何有效利用他们,并在竞争激烈的人才市场中留住他们。

在这篇文章中,我们总结了我们给那些对建立数据科学团队感兴趣的创始人的建议。我们解释为什么数据科学对许多创业公司来说非常重要,公司应该开始投资,在哪里将数据科学纳入他们的组织如何建立一个数据科学蓬勃发展的文化。

首先,你想要达到什么目标?

数据科学服务于两组重要但截然不同的目标:改进客户使用的产品,以及改进企业做出的决策。

数据产品使用数据科学和工程来提高产品性能,通常以更好的搜索结果、推荐和自动化决策的形式。

决策科学使用数据来分析业务指标——如增长、参与度、盈利驱动因素和用户反馈——为战略和关键业务决策提供信息。

这种区别听起来很简单,但在建立和发展数据科学团队时,要记住这一点很重要。让我们仔细看看这两个领域。

使用数据科学构建更好的产品

数据产品利用数据科学来提高产品性能。它们依赖于一个良性循环,即产品收集使用数据,这些数据成为算法的素材,从而为用户提供更好的体验。

在你收集数据之前会发生什么?产品的第一个版本必须解决数据科学所称的“冷启动”问题——它必须提供“足够好的”体验,以启动数据收集和数据驱动改进的良性循环。这取决于产品经理和工程师来实现足够好的解决方案。

例如,当Instacart用户访问该网站时,应用程序会在“再次购买”标题下显示最近购买的杂货。这是一个让用户高兴的功能,但它几乎不需要数据科学——或大量的数据。当我们想要展示他们推荐的产品时,数据科学就开始发挥作用了还没之前购买的。要做到这一点,需要分析所有用户的购买行为,确定哪些用户彼此相似,并最终根据相似用户过去的购买记录推荐商品。这就是数据科学使用数据来创造价值的地方,使客户能够轻松地发现他们自己可能没有发现的新产品。

为了改进产品,数据科学家必须与工程师密切、持续地合作。您还需要具体决定数据科学家是自己实现产品增强,还是与实现产品增强的工程师合作。两种方法都可以,但重要的是要将其正式化,并在整个组织中建立共同的期望。否则,您将难以将改进应用到生产中,并且您将失去那些感到效率低下和被低估的有才华的数据科学家。

利用数据科学做出更好的决策

决策科学使用数据分析和可视化来为业务和产品决策提供信息。决策者可能在组织的任何地方——从决定如何在路线图上设定优先级的产品经理,到做出赌上公司的战略决策的执行团队。

决策科学问题涉及面很广,但它们往往具有几个特点。它们是组织以前不需要解决的新问题。它们通常是主观的,要求数据科学家处理未知变量和缺失的上下文。它们很复杂,有许多移动的部分缺乏明确的因果关系。与此同时,决策科学问题是可衡量的和有影响力的——做出决策的结果对业务来说是具体和重要的。

上述内容听起来很像数据分析,实际上分析学和决策科学之间的区别并不总是很明显。然而,决策科学应该做的不仅仅是生成报告和仪表板。数据科学家不应该做那些可以用现成的商业智能工具完成的工作。

在领英(LinkedIn),高管团队利用决策科学做出了一项关于会员资料在搜索结果中的可见性的关键商业决策。从历史上看,只有付费用户才能看到他们扩展(第三度)网络中每个人的完整资料。可见性规则很复杂,LinkedIn想要简化它们——但不是以一种会损害其收入的方式。赌注是巨大的。

建议的可见性模型是对非付费用户的每月使用限制,并根据使用情况划分界限。LinkedIn的决策科学家模拟了这一变化的影响,使用历史行为来预测对收入和参与度的影响。分析必须推断一个模型上过去的行为,以预测一个完全不同的模型上的行为。尽管如此,分析结果足以推动研究向前发展。

这一结果不仅对业务有积极影响,也让数百万用户感到高兴,并消除了一直困扰产品开发的复杂性来源。有些人抱怨这些限制,但LinkedIn认为这些人正是应该付费使用该平台的人。该项目取得了成功,这要感谢为其提供信息的决策科学。

并不是所有的决策都需要决策科学的大枪。有些决策太小,不足以证明投资的合理性。其他决策可能很重要,但业务可能缺乏数据来进行有意义的分析。在这种情况下,企业需要依靠直觉和实验。优秀的决策科学家知道自己的局限性,并能意识到他们的努力什么时候会浪费或适得其反。

虽然决策科学和数据产品需要一些相同的技能,但数据科学家很少同时擅长这两种技能。决策科学依赖于商业和产品意识、系统思维和强大的沟通技巧。数据产品需要机器学习知识和生产级工程技能。如果你有一个小型的数据科学团队,你可能需要找到罕见的超级明星,他们可以做到这两点。但当你扩大团队规模时,你会从专业化中受益。

你应该投资数据科学吗?

数据科学并不适合所有人。只有当数据科学对你的成功至关重要时,你才会想要投资它,但如果它只是一种昂贵的分心,你就不会想要投资它。

在你投资建立一个数据科学团队之前,你应该问自己以下四个问题:

1.你是否致力于使用数据科学来为战略决策提供信息或构建数据产品?

如果你不致力于使用数据科学来实现这些目标之一,那么就不要雇佣数据科学家。

它们可以帮助你做出战略决策,但前提是你致力于数据驱动决策的文化。你可能在第一天就不需要他们,但你需要时间来雇佣合适的人,也需要时间让他们了解你的数据和你的业务。在他们将数据科学应用于决策制定之前,你需要实现这一切。

数据产品可以通过改进优化、相关性等来创造价值和取悦用户。如果这些都在你的产品路线图上,你应该尽早让数据科学家来做出设计决策,这将为你的长期成功奠定基础。数据科学家可以对产品设计、数据收集和系统架构做出关键决策,这些都是构建神奇产品的关键基础。

2.你能收集到你需要的数据并采取行动吗?

创始工程师可以用少量的产品和设计指导创造出MVP产品。数据科学需要数据,而数据只有通过测量和规模来实现。推荐系统依赖于检测你的产品来跟踪用户行为。优化业务决策依赖于关键活动和输出的细粒度度量。

但收集数据还不够。只有当数据驱动行动时,数据科学才有意义。

数据应该为产品变更提供信息,并推动组织的关键绩效指标(kpi)。

检测要求整个组织承诺确定每个产品需要收集哪些数据,并建立用于收集和维护这些数据的基础设施和流程。为了取得成功,仪器仪表需要数据科学家、工程师和产品经理之间的合作,这反过来又需要执行承诺。

同样,数据驱动的决策需要自上而下的承诺。从CEO到下,组织必须承诺使用数据来做决定,而不是基于薪酬最高的人的意见(或HiPPO)。

3.你的数据中是否有足够的信号来获得有意义的见解?

许多人将大数据等同于数据科学,但规模并不是一切。数据科学就是要把数据中的信号从噪声中分离出来。

可用信号不仅取决于数据量,还取决于信噪比。

例如,一个广告产品可能从数十亿个印象事件中收集数据,但这些数据只在用户与广告互动的极少数情况下携带信号。因此,大量的数据只产生少量的信号。再多的数据科学也无法从一个大数据集中提炼出深刻的见解,除非有一个临界质量的信号。

4.你是否需要将数据科学作为核心竞争力,或者你是否可以将其外包?

组建一个数据科学团队既困难又昂贵。如果你可以把你的数据科学需求外包出去,那么你可能应该这样做。一个选择是明智地使用顾问。更好的方法是为您的领域使用现成的解决方案,该解决方案使用api来摄取数据、构建模型、自动化操作并报告关键分析。也许没有一个解决方案完全适合你的需求,但为了加速你的业务,让你的核心团队专注于可以增加最大价值的领域,妥协通常是值得的。

什么时候需要将数据科学作为核心竞争力?如果数据科学正在解决对你的成功至关重要的问题,那么你就不能把它外包出去。此外,现成的解决方案往往是刚性的。如果你的企业正在采取一种独特的方法来解决问题(例如,收集新的数据类型或以新颖的方式使用结果),那么现成的解决方案不太可能具有足够的灵活性来适应它。

Jeremy Stanley在Instacart旧金山总部报道。

你应该什么时候开始?

数据科学需要数据来科学,而大多数公司在第一天都没有太多的数据。

不要雇佣数据主管或组建团队,除非你有工作让他们做。与此同时,确保尽早收集关键数据,这样一旦你准备好了,团队就可以发挥影响。

如果你还没有数据,那么谁来回答获取什么数据以及何时获取数据的问题?这个人不一定非得是数据科学家。但这个人最好能理解不同数据集的潜力,并能就你的数据投资策略做出艰难的决定。如果你已经知道你将在数据获取上花费大量的金钱和时间,那么可能是时候让你至少在雇佣第一个数据科学家方面进行最低限度的投资了。

你可能马上就需要数据,因为你的业务就是交付数据产品。但更有可能的是,你的最小可行产品(MVP)不是数据驱动的。相反,你会押注于一种直觉,看看市场是否会验证这种直觉。在这种情况下,过早地投资于数据获取和数据科学将花费你宝贵的金钱和时间,而这些时间应该用于将你的MVP推向市场。

一旦你拥有(或快速计划拥有)可供数据科学家使用的数据,并准备投入重要的产品、工程和业务资源来支持你的数据科学工作,你应该迅速开始组建一个团队。

灌输重视数据的文化越早越好。商业决策,从收购到产品发布,都应该基于数据,而不是个人观点。尽早将数据科学引入组织的好处之一是,这样做有助于将数据灌输为一流资产。

但不要仅仅因为数据科学很性感就急于招聘。考虑到这个功能领域的热议,许多人对建立一个数据科学团队有一种紧迫感。拥有千兆级雄心的公司渴望雇佣那些能从所有这些数据中获得洞察力的人。但过早组建团队会让人分心,而且代价高昂,会让你的人才失去动力,还可能对企业文化产生持久的负面影响。

如果我们要提出一个最重要的建议,那就是:在验证了你的MVP之后,是时候考虑投资数据科学了。

一个成功的产品发布应该产生足够的数据来学习,你需要让能够从中提取价值和洞察力的人跟上数据流。

数据科学在您的组织中属于什么位置?

将数据科学引入组织结构的位置非常重要——对团队、其他职能部门以及企业的整体成功都非常重要。有三种常见的方法:独立团队、嵌入式模型和集成团队。每种方法都有利弊,所以让我们来看看几种可能性。

独自一人

在独立模型中,您的数据科学团队充当与工程并行的自治单元。数据科学主管是一个关键的领导者,通常向产品或工程主管报告,甚至直接向首席执行官报告。

独立模式的优势在于自治。这种类型的数据科学团队能够很好地解决他们认为最有价值的任何问题。独立的数据科学团队还有一个象征性的优势:它表明公司将数据视为一流资产,这将帮助他们吸引世界级人才。

独立模型尤其适用于决策科学团队。尽管决策科学家与产品团队密切合作,但他们的独立性有助于他们做出艰难的决定,比如告诉项目经理他们的产品指标不够好,不足以证明发布的合理性。决策科学家也从交叉授粉中受益良多,既能理解不同的产品指标是如何相互依赖的,也能分享更多关于实验和数据分析的一般性知识。

自治的另一面是边缘化的风险。随着公司的发展和产品团队的组建,他们往往更喜欢自给自足。即使他们可以从与数据科学家的合作中受益,产品团队也不希望依赖他们无法控制的资源。相反,他们依靠自己——甚至以“研究工程师”等其他名义雇佣自己的数据科学家——来完成工作。如果产品团队拒绝与独立的数据科学团队合作,那么该团队就会被边缘化,效率低下。同样,这也是优秀人才开始流失的时候。

LinkedIn最初的数据科学团队是一个独立的团队,该团队的自主权使其能够在LinkedIn的产品中做出关键贡献,包括提高“你可能认识的人”的质量,以及检测欺诈账户。但随着LinkedIn的发展,独立团队与产品团队的有效合作变得越来越困难,尤其是当这些团队雇佣了自己拥有相似技能的工程师时。最终,LinkedIn决定不再需要它的独立团队。这是一个很有可能的结果。

嵌入的好处

在嵌入式模型中,数据科学团队引入有才华的人,并将他们分配给公司的其他部门。公司仍有一位数据科学主管,但他或她主要是招聘经理和教练。

嵌入式模型与独立模型截然相反:为了确保实用性,它放弃了自主权。在最好的情况下,数据科学家加入最需要他们服务的产品团队,并在整个组织中解决各种各样的问题。

嵌入式模型的缺点是,并不是所有的数据科学家都乐于放弃自主权(事实上,许多人根本不擅长这一点)。数据科学家的工作描述强调创造力和主动性,嵌入式角色通常要求他们服从所在团队的领导。

有一种风险是,你的数据科学家会觉得自己是嵌入式团队成员中的二等公民——他们的产品主管不会觉得自己对他们的成长和幸福负责,而他们的经理也不会觉得自己直接被赋予了他们的工作。

我们已经看到一些公司嵌入数据科学经理,但这种方法只有在你有一个相当大的数据科学团队时才有效。

在领英,丹尼尔体验了嵌入式模式的利与弊。实际上,那里的决策科学团队长期以来一直在利用其嵌入式模型蓬勃发展。决策科学家确保产品团队根据数据做出决策——尤其是发布决策。同时,一个集中的组织有利于知识共享和职业发展。但是,正如前面提到的,独立的数据产品团队并不像组织规模那样成功。最终,领英决定将产品数据科学纳入工程领域,丹尼尔本人也进入了工程岗位,领导一个负责搜索质量的综合团队,这一领域需要工程师和数据科学家之间的紧密合作。

完全整合

在集成模型中,根本不存在独立的数据科学团队。相反,产品团队雇佣并管理他们自己的数据科学家。

这可以优化组织对齐。通过使数据科学家成为产品团队的一流成员,它解决了独立模型和嵌入式模型的缺点。在某种程度上,数据科学家、软件工程师、设计师和产品经理致力于共同的产品目标,集成模型灌输了对这些目标的集体团队所有权。这是您避免崩溃的方法,当专注于狭隘的功能团队在他们的目标上出现分歧,并最终陷入经常被忽视或延迟的依赖关系中。

集成模型的缺点是它稀释了数据科学的特性。个人数据科学家认同他们相关的产品团队,而不是集中的数据科学团队。您还牺牲了嵌入式模型的灵活性,因为很难根据人们的技能和兴趣来调动他们。最后,综合模型可能会给科学家的职业发展带来挑战,因为综合团队的经理可能并不处于重视或奖励他们成就的最佳位置。

在Instacart,数据科学完全集成到产品团队中。这些团队拥有自己的产品领域——可以是实时订单履行引擎,购物者在挑选杂货时使用的应用程序,或者搜索和推荐服务(有15个这样的团队)。

每个人都是工程师、数据科学家、设计师和产品经理的混合体,工程师和数据科学家都向技术主管报告——技术主管本身可能是工程师或数据科学家。这种结构确保了工程师和数据科学家密切合作——他们被授权做任何需要做的事情来实现他们团队的目标。作为数据科学的副总裁,Jeremy是数据科学家及其团队领导的导师和教练。他将团队聚集在一起,形成一个跨越产品团队的社区。他领导着组织范围内的数据科学计划。

这三种模型都有其优缺点,您必须弄清楚哪一种最适合您的组织——以及您希望它如何发展。做好适应需求变化的准备。有时候,最好的方法不是单一模式,而是混合模式。作为安迪·格罗夫中写道:高产量管理

好的管理是集中化和分权化的调和——是一种将响应能力和影响力最佳结合的平衡行为。

Daniel Tunkelang在他的家庭办公室。

如何建立一种数据科学蓬勃发展的文化

随着您的组织和雄心的不断增长,您将不可避免地想要雇用更多的数据科学家(杰里米写了另一篇很受欢迎的文章,专门讨论这个问题)。尽早建立公司文化,使其成为实践数据科学的好地方,当它们最重要的时候,你将获得红利。

许多组织声称自己是数据驱动的。他们收集大量数据,在数据工程上投资,并经常引用数据丰富的仪表板。但他们做不到。

事实胜于雄辩,只有在基于数据做出决策的组织中,数据科学才会有价值。

企业必须建立起他们所需要的中坚力量和信誉根据数据做出决定,即使这些决定与普遍观点背道而驰,或者导致组织中的重大权力转移。这些都是数据科学可以产生最大影响的机会。

和其他人一样,数据科学家希望他们的工作具有可识别的和著名的影响。要做到这一点,就会形成一个积极的反馈循环,让数据科学家保持解决大问题的积极性,并确保他们的解决方案是可衡量的。

要认识到数据科学家的贡献是很困难的,尤其是当他们处于集成的团队中时。你的数据科学领导者需要保持卓越和影响力的冠军,公司的高级管理人员应该努力理解和欣赏数据科学家定期产生的影响。不只是偶尔。

在许多方面,数据科学需要一个村庄——真空中的数据科学家什么也做不了。

除非他们与产品经理、工程师和设计师密切合作,否则他们不会创造出令人惊叹的产品;除非领导者和经营者重视他们的见解,否则他们的建议可能永远不会影响变革。

当杰里米作为数据主管加入Sailthru在美国,其工程组织对数据科学的看法是中立的。为了提高每个人的认知度,他在头两个月花了30%的时间为工程组织创建和教授统计学习课程。

通过让他的所有示例都使用Sailthru数据,并让工程师参与构建数据驱动产品的过程,该课程迅速加快了转变组织对数据科学认知的过程。这种时间的投资是昂贵的,尤其是在性格形成的几个月。但是,有对数据科学的潜力感到兴奋的工程师作为合作者是非常值得投资的。

尽管它的名字,这门学科既是一门科学,也是一门艺术。并不是所有的东西都可以被测量,我们受到算法、计算资源和创造力的限制。

随着时间的推移,如果你建立了一个有着极其不同的背景、技能和世界观的多元化团队,那么数据科学团队的影响力将会大得多。

这将确保他们尽可能全面地思考自己的领域,并将随着时间的推移鼓励创造力和创新。

最后,尽早招聘能够反映公司理想的数据科学家。为了提高效率,数据科学家必须得到他们的团队、产品用户以及他们影响的决策者的信任。当你建立你的团队时,雇佣和奖励正直的人——他们与你的组织有共同的价值观。他们的影响是巨大的,无论好坏,他们将做出许多决定,这些决定将塑造你公司的未来。