基于AWS云平台的大数据统计分析系统
基于AWS云平台的大数据统计分析系统
用户:行吟资讯科技(上海)有限公司
小红书是新一代社区电商,它将海外购物分享社区与跨境电商相结合,精准捕捉85后和90后的消费升级需求,迅速发展成为极具影响力的全球购物分享社区。目前小红书的注册用户数量已超过1亿。在电商平台成立的头半年里,其销售额就达到7亿人民币,被国务院总理李克强在参观时称赞为“中国发展最快的创业公司之一”。小红书App也在2015年11月“黑色星期五”期间连续两天占据App Store总榜第一名。
小红书模式成功的关键离不开小红书的技术团队能够通过后台数据,了解用户喜欢什么、在分享什么、点赞最多的是哪些?并通过对这些数据的分析,推测出哪些商品可能是爆款。因此小红书需要处理来自不同的数据源的数据:来自电商的结构化数据;来自社区的图片、评论、表情等机器难以识别的非结构化数据;以及海量的日志数据。所以数据团队需要快速搭建起数据处理系统,对这些数据进行高效的清洗、归整,使之成为适合于数据分析师使用的数据。而AWS云平台提供的Amazon EMR、Amazon RDS、Amazon RedShift等服务构成了完善的数据处理基础架构。尤其Amazon Redshift是一种快速、完全托管的PB级数据仓库解决方案,它使得用现有商业智慧工具对数据进行高效分析变得十分简单而且节省成本。小红书的数据团队充分发挥了Redshift这一特性。最初,小红书利用Amazon S3和Amazon RedShift来同步业务数据库的交易数据,随后开始使用Amazon S3、Amazon EMR和Amazon RedShift进行用户日志的解析和同步;同时Amazon RedShift则作为数据仓库,承担大量后续的BI分析工作。
使用AWS的数据处理服务带来的效率提升是明显的。如果没有AWS,要搭建一个可用的日志分析系统,需要好几位元工程师,花几个月的时间才能完成,而有了AWS的数据服务,小红书的2位元工程师在两周内就搭建起整个系统并且正式用在生产环境中。此外,解决新数据需求的速度也明显提升。相比每次从业务后端数据库写代码拉取数据,从数据仓库进行SQL查询则显著提升了效率,把过去几个小时的工作量缩减为几分钟。最重要的是,AWS的云服务使小红书建立一个“小而美的数据团队”成为现实,从而可以快速尝试新的模型和新的数据处理方式,找到最适合的数据解决方案。而且使用AWS令小红书团队的工作方式发生了很大的改变,成为一个数据驱动的团队,无论是电商、社区,甚至市场团队,如今都是在数据的指导下开展业务,公司的决策,业绩考核也都依赖于数据。