三年前,戈登·里奥斯成为潘多拉的第一位官方数据科学家。从那时起,他见证了团队成长为十几个强大的团队,并对公司的每一个决定都产生了巨大的影响。考虑到潘多拉的服务有多少是数据驱动的——从保持其著名的音乐基因组计划为人们创造更多的方式来发现他们喜欢的音乐——这是数据科学团队快速成长并倾向于做出改变的最好例子之一。
里奥斯敏锐地观察到潘多拉是如何雇佣和组建其科学家团队的,他是一个罕见的消息来源,告诉我们什么可行,什么不可行。而且,随着数据科学在大公司和初创公司中的地位不断上升,弄清楚如何最大限度地提高这一领域的生产力变得越来越重要。
在这次独家采访中,里奥斯谈到了潘多拉数据科学的发展三个关键教训其他人可以学到如何分配资源,确保优秀的管理,保持灵活的沟通来做伟大的科学并使其有价值。
全面整合的科学家
如果你问戈登·里奥斯(Gordon Rios)他对什么充满激情,他首先想到的两件事是科学和音乐。他完全着迷于人们如何决定听什么,为什么,以及他们的品味和习惯是如何变化的。因此,他是潘多拉播放列表创建的核心贡献者之一是有道理的,在那里他与工程师和其他科学家合作,使用机器学习测试和改进播放列表算法。
值得注意的关键是,他是潘多拉所谓的播放列表团队的全职成员。这比他作为数据科学团队成员的身份更重要,因为他——出于所有意图和目的——只致力于使播放列表做到最好。他的团队不仅有工程师,还有产品经理、设计师和其他人,让这一切成为可能。
这并不是数据科学在任何地方都适用的方式。因为它是一个新的领域,它有很多形式。一些公司让所有的数据科学家坐在一起,不管他们在做什么,这样他们就可以密切沟通。有些公司甚至让他们与公司其他部门完全分开工作,解决问题,并将解决方案交给工程师,工程师从那里接过工作。另一些则遵循类似顾问的模式,即科学家临时空降到项目中进行分析或回答一次性问题。
在潘多拉,他们发现将科学家嵌入以特征为中心的团队最有效——基于他的经验,里奥斯同意这一点。
他说:“当一个科学家被分配到一个小组时,我们真的会了解并成为这个小组的一员,这就是你想要的。”“如果你被分配到播放列表团队,你仍然与公司的其他科学家交流,但你要向播放列表团队的管理层报告。你是这个项目的全职成员。”
以在相对零散的员工中完成大事而闻名在美国,潘多拉的核心价值观是让人们在每个领域都致力于用更少的资源做更多的事情。
“我们在播放列表团队的任务是确保音乐能够被优秀的、乐于接受的观众所接受。我们希望艺术家能得到听众,我们希望听众有最好的体验。这两件事都取决于让人们尝试新音乐。”这完全取决于实验、收集数据和设计算法,以正确的速度推动人们走出他们的音乐舒适区。
所以里奥斯和他的团队面临的数据挑战是惊人的:只看行为数据,他们必须确定人们是否对他们所听到的内容感到满意,他们跳过歌曲是否是因为他们不熟悉这首歌还是仅仅是因为他们不喜欢这首歌,以及他们是否对当前的选择感到厌倦。他们如何回答这些问题会在粒度层面上影响每个听众。
里奥斯说:“在这种项目中,你需要运营、工程、产品和科学家从不同方面来解决问题,但对服务有共同的愿景。”“顾问模式永远不会奏效。当我在职业生涯早期第一次开始进行数据挖掘时,我经常担任顾问,以这种方式在大规模问题上取得进展是非常困难的。你必须成为团队的一员,才能了解所有动态的部分。”这就是为什么他建议让科学家永远留在一个团队,除非一个项目被取消,或者有其他令人信服的理由来改变事情。你想让他们完全沉浸其中。
“如果你把你的科学团队分开,他们就不能把工作做到最好。他们会感到无聊,或者无所事事。”
里奥斯说,最好的情况是雇用具有良好工程技能的数据科学家。当科学家可以发货时,你可以节省员工数量,并且拥有将数据转化为有意义产品的技能。这是需要从一开始就开始思考的问题——当你第一次决定数据科学将是你初创公司成功的核心时。之后你可以专攻,这也很重要。
理想的情况是,公司一开始会有一名科学家,就像里奥斯一样,他是一把瑞士军刀——既可以测试假设,也可以编写代码,创建算法并部署它。里奥斯曾在雅虎工作,也曾在本土搜索初创公司Zvents担任首席技术官,他拥有全栈编程能力、大数据经验和机器学习专业知识。他还具备第一位科学家所需要的其他关键技能:自主工作、自我激励和负责任的能力。这个领域的第一批员工很少会受到任何人的密切管理,如果你有合适的人担任这个职位,那也没关系。
里奥斯说,如果你开始组建科学团队,你应该保持这种灵活的态度。不要只把目光放在博士和研究科学家身上,你需要那些对实际应用更感兴趣而不是理论的多面手。如果你雇佣的人只会做实验,看不到未来的产品含义,你只会创造出你的团队能够和应该生产的产品的一小部分。与此同时,雇佣博士也至关重要:他们接受过训练,能够深入自主地解决你需要解决的、具有竞争力的难题。
里奥斯说,最重要的因素是适当的管理。“在大多数情况下,优秀的管理是让人们的技能符合公司的需求,但在数据科学领域,很大程度上取决于让人们既熟练又感兴趣。”
“当你为一个项目配备了技术娴熟、对问题着迷的人,你就会得到金子。”
《数据科学管理的艺术
“当然,有时你必须像个战士一样,处理一个对公司来说不那么有趣但却至关重要的项目,但如果你有非常丰富的人才,将它们与正确的项目仔细匹配必须是科学管理的全部内容里奥斯说。“能够始终如一地做到这一点,将优秀的经理与一般的经理区分开来。”
如今,潘多拉已经任命了一位负责播放列表和增长与留存的研究主管奥斯卡Celma他体现了一个公司应该在数据科学领导者身上寻找的一切。他是一名真正的黑客,也是一名发表过大量论文的博士,也是音乐推荐技术领域的领导者。潘多拉计划在广告科学等其他领域建立这种管理模式。
为了让一个科学家团队的生产力更上一层台阶,管理者应该问以下问题:
怎样才能让公司以最快的速度朝着我们希望的方向发展?
在给出了前两个问题的答案后,我们如何确保人们被安排在具有健康挑战的功能导向型团队中?
谁想要以什么样的方式发展或培养什么样的技能?
“专注于让有才华的人一起工作;当你这样做的时候,你会看到真正鼓舞人心的结果。”
很多好的数据科学管理都是关于导师关系的他说。尽管他建议科学家融入跨职能团队,但科学家之间的伙伴关系——允许他们与他们喜欢共事的人分享最佳实践、想法和解决方案——是让非常有才华的人保持参与和成长的原因。
随着其数据科学家团队的扩大,潘多拉已经建立了几个定期的沟通渠道,他们的愿景是真正的合作。其中包括消息传递工具松弛通过频道向所有科学家和其他感兴趣的人开放。它被用来提问,提供建议,甚至是传播学术论文,这些论文可能与人们内部正在研究的问题有关。
尽管大多数时间他们都是分开坐的,但团队会定期召开会议,经常聚在一起吃午餐,讨论他们正在做的工作,并就想法进行更多非正式的对话。在这些讨论中出现了许多解决方案。稍微正式一点,他们会安排时间向同事展示他们的项目和发现,这样他们就可以提问或回答问题,和/或分享可能对其他实验有帮助的实践。关键是让基础设施以与团队相同的速度发展,永远不要变得过于繁重,同时保持联系,以便鼓励指导,并且工作不会重复。
根据Rios的说法,这种交流应该是关于团队中谁擅长哪种技能,即使大多数人都可以被认为是多面手。“这里有些人是经典数据科学家,有些人是更好的统计学家,有些人是更好的软件开发人员,”他说。知道谁擅长什么,有助于找到合适的人,更快地解决问题。
“成功的数据科学项目是当人们感到快乐,感到挑战和满足,并提供重要的结果。这是他们处于最高表现状态,提供最大价值的时候,”里奥斯说。“有很多理由引进初级或没有经验的科学家——他们适应和学习速度很快——但你最好有真正可靠的管理和导师。”
他说,问题几乎从来不是一个人是否足够聪明,可以胜任一份特定的工作。在他观察到的所有地方,数据科学家的招聘过程都非常严格,聪明与否不是问题。对于数据科学领导者来说更是如此。真正的问题是,他们是否适合正在解决的问题和文化,并帮助已经在那里的科学家茁壮成长。
“你总是可以通过与他一起工作的每个人的效率来判断一个数据科学经理里奥斯说。因此,与数据科学家一起工作的经理的面试过程应该是极具挑战性的,并且是双管齐下的:
1.他们应该有一种知情的尊重其他科学家要想被录用必须知道和做的一切。这包括创建复杂模型和识别给定产品的技术特性的能力。他们必须像他们将要管理的科学家一样思维敏捷,而且他们必须能够以同样快的速度学习新事物。
2.“当他们来面试时,每个人都必须喜欢他们。”里奥斯说。“他们首先要具备文化契合度,然后才是技能契合度。他们必须非常喜欢我们的产品,了解潘多拉以及我们想要解决的数据挑战。要被聘为这些职位很难,而且应该如此。”
“成为一名优秀管理者或合作者的标志是,每个人都希望你参与他们的项目。”
沟通以获得最佳效率
“要成为一名有效的数据科学家,你必须意识到你的工作不仅仅是研究。你必须以对整个公司都有意义的方式量化和限定你所做的事情。”里奥斯说。“如果人们不沟通,就很难获得真正对整体有影响的结果。”
幸运的是,在良好的沟通方面,你的数据科学家有一种超能力。他们可以利用自己量化事物的能力来衡量自己的成功,并具体地向公司的其他人传达他们所做的事情。在这一领域,清晰而持续的沟通尤为重要,因为数据科学的发展如此迅速。你进行一个又一个实验,得到结果,用它们来修改软件,然后重复。在潘多拉,里奥斯和他的同事们不断地假设什么能让更多的听众与更多的艺术家互动。“我们建议做出改变,对实验进行优先级排序,并快速向一小部分听众介绍,以了解它是否真的有所改善。”
像歌曲推荐这样看似即时和无缝的东西,有许多由不同人拥有的活动部分。里奥斯解释说:“我们实际上有一整套推荐策略。“例如,我们可以开始播放更多80年代的音乐,比如辛迪·劳帕或雪儿。根据用户的行为,我们可以判断他们是想要更多的80年代流行音乐还是更近期的音乐,如Lady Gaga或蕾哈娜。“在幕后,有许多不同的东西在起作用。”
可以想象,当多个团队同时运行与同一体验相关的多个实验时,情况会变得复杂。建立和维护一个复杂的a /B测试平台是必须的。了解其他团队在做什么是至关重要的,但真正需要支持多个工作组的是平台。
“我们有成千上万的事情想尝试,但我们必须在我们想要的服务的愿景范围内工作。”
里奥斯说,潘多拉处理数据的方法之所以如此有效,原因之一是对特殊技能的欣赏,以及应该如何应用这些技能。众所周知,哪些人擅长推荐项目、机器学习或用户获取。每次有新员工加入公司时,都要把培养这种透明度作为标准。
里奥斯说:“这就是为什么我们如此专注于招募对科学充满好奇心但又具有创业精神的科学家。”“要想在这个团队中取得成功,你必须在自己专注的领域投入大量精力,并且同样愿意并能够在需要你的才能的地方提供帮助。”