|
每日批处理将来自许多不同来源的数据合并到最终表中。 “我对 Gainsight 的看法是,它是位于我们数据平台之上的 UI,因为为此类事情构建 UI 并不是对我们或任何人时间的最佳利用。我们看待数据产品的方式是后端数据服务或数据基础设施。实际的最后一英里是网络仪表板或类似的东西。通常我们会使用一个工具来实现这一点。” 该数据产品解决什么业务问题? Gainsight 中提供的数据可帮助客户成功团队优先考虑产品采用率低于标准且位置存在流失风险的客户。 与分散在不同来源和地点的原始源数据相比,新的“Gainsight 公司事实”表在一个地方提供了可靠、有用的信息,例如: “这家公司付给我们多少钱?” “他们最后一次和我们一起活动是什么时候。
他们使用什么功能?” “哪些是他们不使用的?” “我们有几位客户成功经理,每个人都有数百个客户”Arvind 说。“他们可以与客户进行对话,‘好吧,你有 50 个办事处,但是看,这五个办事处实际上存在一 电子邮件营销列表 些问题,也许你应该关注这些问题’。” Arvind 的团队利用产品使用数据帮助使这些对话更加有效。 数据源和技术堆栈是什么? “Gainsight 公司事实”表的数据是每日批处理的结果。该过程清理、转换和组合 Envoy 数据仓库中不同来源的原始数据。 下图显示了构建模型所涉及的图表或“DAG”的摘要。对于每个公司、每一天,输出表都包含各种关键数据点。 为了运行批处理过程,Arvind 的团队构建了一个由五个关键组件组成的平台。
数据源:Envoy 有 20-25 个数据源,跨内部和第三方系统。对于Gainsight来说,相关来源包括Envoy的生产数据库、Segment事件数据、客户支持工具(例如票务量)、计费系统、电子邮件系统和Salesforce。 ETL 工具:为了将原始数据从源获取到仓库,Envoy 在可以与数据源集成的地方使用现成的工具,包括 Amazon Glue、Fivetran 和 Stitch Data。“对于加载数据,我们的总体理念是这是一个已解决的问题,并且我们使用工具。对于自定义摄取,我们使用 Singer(一个由 Stitch Data 赞助的开源 ETL 框架)构建脚本,并通过 Airflow 进行编排。数据加载最多每 30 分钟发生一次。 数据仓库:Envoy 将原始数据加载到具有密集计算节点 (dc2.8xlarge) 的 Amazon Redshift 中。
|
|