大数据时代,每个公司都会遇到一些共性的挑战,比如大数据的采集、整合、存储、计算。Airbnb在大数据平台架构构建的过程中,也收获了很多宝贵的经验。
07年月日-日,由5CTO主办的WOTD全球软件开发技术峰会在深圳中州万豪酒店隆重举行。AirbnbSrSoftwareEngineer王宇在大数据系统架构设计专场与来宾分享了“Airbnb的跨洋大数据架构”主题演讲。
他为大家揭秘了Airbnb是如何解决大数据的存储应用以及跨洋的数据平台的搭建和支持,详析Airbnb大数据挑战和解决方案,分享如何解决大数据高效存储和计算的过程,并了解如何进行大数据平台的跨洋支持。
本次分享分为三大部分:
Airbnb的大数据需求,它是整个数据架构的基础。
Airbnb的大数据架构,包括Superset等部件。
Airbnb大数据架构对中国的支持,虽然公司位于美国加州,但是对于中国市场业务也提供着数据方面的支持。
Airbnb的大数据需求
先介绍一下Airbnb对大数据的需求和数据的驱动。
Airbnb于年8月成立,人们可以通过网站、手机或平板电脑,发布、发掘和预订各地的独特房源。上图所列数据虽不是最新,但是可见数据的体量是非常庞大的。
Airbnb服务对象的多样性决定了:我们必须通过定制化的数据产品,为用户提供最佳的旅行体验。同时我们的平台也会基于各种数据做出正确的决策。
我们对于数据的使用流程分为:
最底层是数据的存储(Storage),一般具有高配置的计算能力和容量。
中间层是基于数据的挖掘与分析,我们根据不同的场景,通过DataMining和Analytics,来实现用户管理、定价和风险控制,从而为运营(Operating)团队提供可参考的模型矩阵(Matrix)。
最上层是我们根据不同的产品结构所开展的基于数据的机器学习、人工智能、决策预判等。
我们在企业中比较推崇DataInformedCulture,我们通过检查各种试验性的假设、和深度挖掘各种商业数据,从而构建出机器学习的模型。
同时,我们通过持续监控与跟踪,将数据作为决策的重要依据,保证平台上的任何推荐都能够严格基于数据的指标。
Airbnb的大数据架构
下面我们从Airbnb大数据架构的构建理念、整体的架构特点和对部分系统的DeepDive来深入探讨。
Airbnb大数据架构理念
虽然经历了几代数据架构的升级,但是我们的理念一直保持如下五个特点:
开源软件的使用,在开源社区里有着非常多的优秀产品可为我们提供帮助。
使用标准的组件和方法,可以提高通用性和重用性。