申请专栏作者 参展
投稿发布
您的当前位置:主页 > 数据挖掘 > 正文

在Python中处理JSON数据

来源: 时间:2019-10-16
请支持本站,点击下面的广告后浏览!

我最近完成了两项工作——基于spark的数据摄取框架和基于spark的数据质量框架;都是元数据驱动的。通常,都是存储在RDBMS中。在数据摄取框架中,我需要存储源(用户名、密码、路径、格式等信息)、目标(用户名、密码、路径、格式等信息)、压缩等参数。在普通模式中,我看到这些参数被建模为表中的列。
 

by Bipin Patwardhan 来源:DZone

作为一名程序员,我决定不使用multiple columns。相反,所有参数将存储在单个column中(作为数据库表中的字符串)。Spark应用程序将负责读取字符串并提取所需的参数。

做出这个(看起来很简单的)决定之后,下一步是定义“参数”字符串的格式。为此,我毫不犹豫地选择了JSON。虽然解析类似于csv的格式很容易,但是JSON提供了很多灵活性——但是要付出一些代价。

在Spark中研究JSON解析的各种选项之后,我使用Scala解析库,开发了一个Scala类来实现这个目的,在编程世界中,完成一项任务的方法不止一种,即使是对于JSON解析,也有许多可用的库,如Json4s、Play JSON、Spray JSON等。

在使用Scala解析JSON之后,我想在Python中尝试一些类似的东西。我发现在Python中JSON解析很简单(本质上就是一个导入和一行代码)。

 

 

由于我们习惯于将简单的事情复杂化,所以我决定将JSON解析逻辑封装在一个名为CustomJSON的类中。

 

-->
转发量:

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
数据标注服务

Copyright©2005-2020 Sykv.com 可思数据 版权所有    ICP证:京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系方式   原创投稿   网站地图  

Copyright©2005-2020 Sykv.com 可思数据 版权所有    ICP证:京ICP备14056871号

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭