在线技术支持 - 文档下载 - 如何付款 - 联系方式 - 帮助中心  
服务中心
域名转入59互联全攻略
媒体看59
行业热点面面观
帮助中心
当前位置:首页 - 服务中心 - 服务器学院 - 数据库应用 - 正文
如何设计大型数据库架构?
文章来源:本站原创   文章类型:数据库应用    点击数:1501    更新时间:17-05-09

  我们对Facebook、Amazon、Airbnb、Pinterest和Netflix数据团队所做的事情感到惊讶。他们为软件和企业从数据中获取信息而制定了新标准。由于他们的产品用户量极大,所以这些团队必须不断地定义规模分析的方法。他们已经在数据架构中投入了数百万美元,并且在大多数公司中,数据团队的规模超过了整个工程部门的规模。

  我们建立了Keen IO,是为了以让大多数软件工程团队无需从头架设所有内容,就可以利用最新的大型事件数据技术。但是,如果您对如何成为巨头公司感到好奇,那么请从最好的公司中收集一些架构。

  Facebook:

  拥有超过10亿的活跃用户,Facebook有世界上最大的数据仓库之一,存储超过300PB。该数据被用于广泛的应用:从传统的批处理到图形分析,机器学习和实时交互式分析。为了进行大规模的交互式查询,Facebook的工程师发明了Presto,一种针对点对点分析进行优化的定制分布式的SQL查询引擎。每天有1000多名Facebook员工使用Presto,通过Hive、HBase和Scribe的可插拔后端数据存储,每天执行查询次数超过30000次。

  Pinterest:

  Pinterest每月有超过1亿的用户浏览超过100亿的网页浏览量。截至2015年,他们将数据团队扩展到拥有250多名工程师的规模。他们的基础设施依赖于开源系统ApacheKafka,数据处理框架Storm,系统基础架构Hadoop,开源数据库HBase和GPU渲染器Redshift。
 Pinterest团队不仅需要追踪大量客户相关的数据。像其他社交平台一样,他们还需要向广告商提供详细的分析。黄彤波在《Behindthe Pins:Building Analytics at Pinterest》一文中写道:为了满足这一需求,他们改进了自己的分析堆栈。以下是Pinterest团队如何使用Apache Kafka,AWSS3和HBase的示意图:

总览

 正如我之前提到的,我们构建了Keen数据接口(API),以便任何开发人员都可以使用世界一流的数据架构,而无需拥有一个庞大的团队构建一大堆基础架构。成千上万的工程团队使用Keen的API来捕获、分析、流式传输和嵌入事件数据,包括实时和批处理应用程序。虽然使用Keen的开发人员在发送事件或运行查询时不需要知道幕后发生的情况,但下面是处理其请求的体系结构:

 在输入方面,负载均衡器处理数十亿个传入的帖子请求。事件流来自于应用程序,网站,连接设备,服务器,计费系统等等。事件需要验证、排序和可选择地丰富额外的元数据,如IP-地理查询。这一切都发生在几秒钟内。一旦安全地存储在Apache Cassandra中,事件数据就可以通过RESTAPI进行查询。我们的架构(通过Apache Storm,Dynamo DB,Redis和AWS lambda等技术)支持从原始传入数据实时数据探索,到应用程序和面向客户报告的缓存查询的各种查询需求。Keen每天查询数万个事件属性,并为成千上万的客户构建报告,自动化和数据挖掘界面。


 

 
上一篇文章: 关于香港主机迁移通知
下一篇文章: 59互联COM域名价格下调通知
郑州技术支持:0371 - 88888361   域名直线电话 65651185    备案直线电话 65651189    传真:0371-88888360-777
运营商:郑州易方科贸有限公司 世纪创联  ISP:豫B2-20060062-6 豫ICP证:豫B2-20050016  IDC:b1-20183355
总部地址:河南省郑州市农业路政七街省汇中心A2004  
声明:59互联品牌标志、品牌吉祥物均已注册商标,版权所有,窃用必究。  法律顾问:国基律师事务所代全喜律师
ICP备案:豫ICP备05000583号 营业执照 注册号:4101002210318 中国电子商务诚信单位 网警备案单位 互联网协会成员 ISO9001认证企业 ISP、ICP证书 公司营业执照