Uber优步今年二月份新推出的Logo设计招来大量嘘声,这个酷似某国有银行标志的新设计让大量设计师、用户,包括笔者本人,都对Uber的设计理念和能力产生了怀疑,但是在“外表”设计已经不再是决胜因素的今天,从“功能即设计”的实用主义产品哲学的角度来看,Uber的的APP能够在全球400个经济、文化、语言、交通、支付环境大相径庭的城市中顺畅游走,本身就是一个伟大的设计杰作加上其他业务,就构成了如此庞大的业务,如果 Uber 的数据平台做不到信息智能化,很难想象如何支撑起这样庞大规模的业务。那么, Uber 是如何做到数据平台智能化的?
建立有效的数据基础设施远不止是建立数据库并向其填充数据那么简单。对于Uber的一些用例,每天每时每刻都有新的数据出现,记录需要不断地更新。而在其他情况下,数据到达的节奏较慢,需要的更新也较少。同样,Uber的一些分析需要实时数据,而另一些分析则依赖于历史数据模式。数据科学家开发的模型考虑了各种因素,如查询的数量和单个表的用户数量、维护成本以及表之间的依赖关系等。
卸载低效用的特定表可以使数据库成本降低 30%,Uber的团队目前正在考虑如何应用人工智能来进一步推进这项工作。这种规模的数据基础设施中,即使是很小的优化也可以带来巨大的收益,在加快查询速度的同时需要更少的资源,并最终使 Uber 的服务运行更加平稳。
Apache Hadoop 数据湖构建了另一个组件:DBEventsDBEvents 在从 MySQL、Apache Cassandra 和 Schemaless 等来源获取数据期间捕捉数据,从而更新Uber的 Hadoop 数据湖。
这个解决方案通过标准化的变更日志来管理拍字节级的数据,确保服务对可用数据有着统一的理解。并且还能够进行高效分析,通过SQL 查询的支持,内部用户能够更容易地进行数据分析,从而作出关键业务决策。同样重要的是,它还能够以低延迟来交付结果,能够快速处理问题。
维护一个可靠支持质量和新鲜度的数据基础设施是 Uber 未来的重要组成部分。对于 Uber的业务尤其重要。各位读者,你们觉得呢?返回搜狐,查看更多
责任编辑: