申请专栏作者 参展
投稿发布
您的当前位置:主页 > 数据挖掘 > 正文

如何用10个大数据技术方案解决一个问题

来源: 时间:2019-11-03

数据分析技术一直在不断的发展。旧的关系数据库系统变得越来越不受欢迎。现在,我们必须通过一些新的技术来找到我们的方法,这些技术可以处理大的(和流的)数据,最好是在分布式环境中。

 

 Python现在很流行当然也有很多其他的选择。SQL大行其道,而其他一些老古董仍然存在。

本文试图为一个简单的挑战,提供10种不同技术编写的10个解决方案:

 

 

通过这些技术,使用Grouplens网站提供的两个CSV数据集列出十大最受欢迎的电影。

数据集

 

 

目标

我们将聚合收视率数据(u.data)来计算每个movie_id的平均收视率,并找到平均收视率最高的10部电影。

 

 

1. AWK

 

 

Step 1: Join the Datasets

Step 2: Sort, Cut and TR

 

 

Step 3: AWK

Step 4: Again AWK

Step 5: Sort, Head and TR

2. PERL

 

 

 

 

3. BASH

 

 

4. SQL(PostgreSQL)

 

 

 

 

 

 

5. Python with Pandas

 

 

6. MapReduce With MRJob in Python

 

 

7. Pig Latin

 

 

8. Hive

 

 

 

 

 

 

 

 

9. Spark with Scala

 

 

10. MongoDB

 

 

 

 

 

 

 

 

详细原文:https://dzone.com/articles/one-challenge-with-10-solutions

-->
转发量:

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
数据标注服务

Copyright©2005-2020 Sykv.com 可思数据 版权所有    ICP证:京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系方式   原创投稿   网站地图  

Copyright©2005-2020 Sykv.com 可思数据 版权所有    ICP证:京ICP备14056871号

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭