当前位置: 主页 > 金融经济 >
-20 Comments

大数据采集、统计分析、挖掘

发布于:2018-05-28  |   作者:http://www.zxjsq.net  |   已聚集:人围观

这里主要说说大数据采集、统计分析、挖掘这三个内容,大数据采集是指采用多种轻型数据库来收集来自客户端的数据,用户可以使用这些数据库进行简单的数据查询和处理工作。其主要特点是并发系数高。主要使用的产品:MySQL、Oracle、HBase , Redis , MongoDB等数据库,这些产品具有各不相同的特点。

数据统计分析是指将来自前端的海量数据快速导入一个集中类型的大型分布式数据库或分布式存储集群,用分布式技术来对集中的海量数据普通查询与分类汇总,满足大多数常见的分析需求。主要特点是导入数据量比较大,查询所涉及的数据量大,查询请求比较多。

主要产品有:InfoBright, YunTahle, Hadoop( Pig和Hive)、 SAP Hana及oracle Exadata,除了Hadoop以离线分析为主,其他均可实时分析。

数据挖掘是指简单数据查询不能满足高级别用户需求,只有通过数据挖掘才能实现数据的价值。其主要特点是算法相对复杂,所涉及的数据量及计算量相当大。主要使用的产品有Hadoop Mahout等。


标签:                   喜欢:收藏