BPPISE数据科学案例框架

来源:技术联盟     时间:2023-09-08 19:59:43

拳拳 大淘宝技术 2023-09-08 16:20 发表于浙江

本专题共10篇内容,包含淘宝APP基础链路过去一年在用户体验数据科学领域(包括商详、物流、性能、消息、客服、旅程等)一些探索和实践经验。

在商详页基于用户动线和VOC挖掘用户决策因子带来浏览体验提升;在物流侧洞察用户求助时间与实际物流停滞时长的关系制订表达策略带来物流产品满意度提升;在性能优化域构建主客观关联模型找到启动时长与负向反馈指标的魔法数字以明确优化目标;构建多源VOC标签体系综合运用用户行为和用户VOC洞察、落地体验优化策略,并总结出一套用户体验分析方法论 。


(资料图片)

本文为此系列第四篇文章,前三篇见——

第一篇:淘宝用户体验分析方法论

第二篇:VOC数据洞察在淘宝详情页的应用与实践

第三篇:物流产品体验诊断与优化

前言

经常有同学会问“如何评价数据科学工作做得好不好呢”,算法同学可以看算法模型准召效果、数据研发可以看数据模型覆盖和利用率,数科考察什么?笔者认为数科需考察案例产出。

主要基于以下几点思考:

成功案例需具备显著业务结果 :数据科学岗定位是为业务提供高质量的数据解决方案让业务成功,成功的案例才是可学习、可参考的,没有显著业务结果的案例较难证明其可行性,参考价值较低。 案例是对过程的详细复盘 :在有显著业务结果的前提下,数科需要证明其在项目中参与度、贡献度,使用到了什么新思路、新方法助力业务达成目标,案例是可推敲、可复盘的材料之一。 案例能体现出作者的能力水平 :数科是一门强调个人能力的学科,案例不仅仅是陈述做了什么,字里行间透出的认知和思考能体现出作者能力水平。特别地,写作是可以有思考缓冲期的,表达欠佳的同学可以通过写作来弥补体现自身能力欠缺。

因此,一篇高质量的数据科学案例是能证明成果的核心依据,笔者基于大量数科案例经验谈谈看法和思考。

BPPISE框架简介

一个好的框架能突出案例描述重点,降低结构化思考成本,聚焦于内容表述。业内常用的数据挖掘标准框架有两种: CRISP-DM SEMMA ,简介如下:

CRISP-DM: 业务理解 (business understanding) 数据理解 (data understanding) 数据准备 (data preparation) 建模 (modeling) 评估 (evaluation) 部署 (deployment) SEMMA: 抽样( S ample ) 探索( E xplore ) 修订( M odify ) 建模( M odel ) 评估( A ssess )

两套框架均是偏针对 确定性的、算法建模类 的问题,而 数据科学是一门针对定义与解决不确定性问题的学科 ,需要拥有一套面向不确定性的、分析洞察类的问题案例框架。基于大量数科案例中思考和总结,形成了一套针对 产品数据科学 的案例框架- BPPISE

BPPISE:

业务理解 ( B usiness understanding) 问题定义( P roblem definition ) 数据准备 (data P reparation) 分析洞察( I nsight) 策略落地( S trategy ) 效果评估( E valuation )

BPPISE CRISP-DM SEMMA 不同点在于:由于尚未形成确定性的数据问题,强调业务问题->数据问题的定义阶段、分析洞察阶段和策略落地阶段;后两者过于侧重对算法模型的建立与评估, BPPISE 侧重数据对业务的机会发现和推进落地。

BPPISE过程描述

该阶段数科同学需从商业角度了解背景,业务需求和具体要解决的问题。理解C端业务的快速有效的方法是做 用户旅程梳理, 站在用户视角梳理某一产品、服务的主要场景及旅程。理解业务的同时,可以做定性的假设和判断,梳理业务环节的痛点和机会点,为后续的问题定义做准备。

阶段核心是阐述业务现状和问题。例如:在详情案例中,一句话描述业务现状和问题:详情关键决策因子的供给核心依靠行业小二经验产出,部分行业依靠用研但范围有限、粒度较粗,无法细化到类目、人群维度进行精细化运营。

该阶段需基于业务存在问题准确地定义出数据可解的问题。数据科学是一门将“现实业务问题”转换为“数据世界中的问题”,再采用数科的理论、技术和工具等将数据转化为知识,为解决业务问题提供直接指导的学科。核心是 数据 本身,我们需要注意几点:

判断数据是否可获取 假设解决业务问题所需的数据根本无法获取,那么数科将无用武之地。 精准地选择目标数据 精准地选择目标数据会让数科在项目中保持方向和专注。例如:项目需要从用户反馈(VOC)中提炼用户标签,而VOC是多源、多模态的,多源意味着VOC发生场景不同(购前、购后),多模态意味着处理难度不同;因此,需要基于业务问题精准地作出选择,案例中需讲解数据选择的Why。

在详情案例中,数据问题定义为:如何基于用户动线及商家客服咨询VOC数据,分析归纳影响用户在详情决策的关键因素,洞察不同行业不同人群决策因子差异以指导详情结构化表达,提升浏览转化效率。

在性能案例中,数据问题定义为:如何找到一个与满意度强相关的客观指标,设定合理的目标,能兼顾技术投入ROI,且有效提升用户主观性能满意度。

该阶段主要是指数据的收集、加工和预处理,是数据科学的重要环节。由于通常是一些ETL的常规手段,很多同学在案例编写时不知道如何下笔。建议在这里突出案例的特别之处。

例如:详情案例中涉及到用户动线数据准备,重点阐述了有别于常规的页面级数据获取,是如何定义页面内模块级埋点规范和数据获取流程的;涉及到VOC文本标签的加工获取,重点阐述了在业务参与度有限的背景下如何通过引入VOC聚类能力提升数据加工效率的。

整体上,围绕通过什么样的思路和方法,确保后续的干净、一致、可靠、可用数据产出,以帮助项目获得更准确的结果。

分析洞察阶段是数科案例的核心,整体框架可细分为:

分析议题

不同的分析分析对象阐述分析议题的方式不同:

分析思路

逻辑树(议题树/假设树)

分析维度

阐述维度选择的思考,如何精准地选择分析维度以提升分析效率,而不是无谓地浪费分析资源做大量多维下钻。

分析指标

阐述指标名称、指标口径、指标代表的业务含义等。

分析结论

分析结论有以下几点注意事项:

论点明确

分析结论要注意具有明确的核心论点,行文过程中要把与论点相关的内容写进来,无关的内容要舍弃掉。建议一个议题只围绕一个核心论点展开,避免“失焦”。

图、表、文字相结合

分析结论要做到有论点、有论据,而数据分析图表是最好的客观事实论据。一般在描述业务整体趋势变化、维度倾向的大小关系、子级与父级间的构成关系等情况时使用 ,而在进行分析结果的详细描述时使用 表。 此外,数科同学还需对图表内容进行文字性总结、推导及解释。

减少不必要的主观推测

分析结论中不可能全部由可客观事实结果构成,其中必然会包含作者的推测、判断等内容。数科同学在撰写分析结论时,应尽量减少不必要的主观推测,做出的主观推断也应尽量从客观事实出发,不要仅凭经验就草率判断。

策略产出

策略产出是对整个分析洞察阶段的收尾,数科应围绕各个分析结论,结合自身对业务的理解给出产品优化建议。特别地,策略的产出应当跟进业务的采纳情况和落地节奏,以便在过程中可进一步深入分析和调整策略。可以通过如下一个表格来进行整理:

策略落地是证明数科案例贡献度的关键阶段,产品的改造是否引用到上述分析结论以及引用程度需阐述清楚,同时介绍下数科是如何基于上述策略让业务有节奏的落地的。

可以通过产品demo图+策略建议方式简洁明了地阐述策略落地手段。

产品优化策略通常是通过AB实验、低响应实验(PSM等)等方式验证效果。以AB实验为例,案例中应尽可能给出实验设计和具体效果数字。包括:实验分层设计、实验放量节奏、实验指标设计及实验对比效果。特别地,当指标对比结果出现异常波动时,需给出实验科学性的验证结果,如AA桶对比、显著性检验等。

团队介绍

我们是大淘宝技术交易履约数据科学团队,负责面向淘宝交易履约链路(下单、支付、购物车、物流、逆向等)海量数据挖掘DAU、DAC及用户体验增长机会。团队致力于围绕用户行为路径、用户VOC洞察用户需求,基于人货场匹配落地交易链路触达、转化、复购和体验策略,提升消费者购物体验。 目前团队招聘中,欢迎拥有消费者、商品、交易、营销等相关领域数据分析/数据科学背景的优秀人才加入,有兴趣可将简历发送至@ 。

关键词:

精彩放送