首页游戏资讯高频食品价格数据—研究线上商品价格特征

高频食品价格数据—研究线上商品价格特征

misa2 03-05 4次浏览 0条评论

高频食品价格数据—研究线上商品价格特征

“京东商城”作为线上食品数据的来源,通过Python语言搭建网络数据实时摘集系统。

摘集数据来源于中国闻名的网络销售平台——京东商城。

京东是中国的综合网络零售商,是中国电子商务领域受消费者欢迎和最有影响力的电子商务网站之一。京东平台在线销售家电、数码通讯、电脑、家居百货、服装服饰、母婴、图书、食品、在线旅游等12大类数万个品牌百万种优质商品。其中,食品类的商品种类齐备,覆盖广泛,该类别下一共分了10个中子类:新奇水果、蔬菜蛋品、精选肉类、海鲜水产、冷饮速冻、中外名酒、茗茶、进口食品、饮料冲调、粮油调味。在各个中类食品下还有若干个子类食品,例如新奇水果下面包含了苹果、橙子、奇异果/猕猴桃、火龙果、榴莲、芒果、椰子、车厘子、百香果、柚子共计10个子类。在各个中子类下又包含了数以万计的规格品,可以说包含了市场上绝大部分的食品。

利用Python编程语言编写爬虫程序,对京东商城上食品类商品交易价格信息进行爬取,通过一系列处理之后将获取到的大样本数据放在MySQL数据库中。步骤如下:

第一步,统一资源定位符(Uniform Resource Locator,简称URL)模块的设计。通过分析京东商城食品的URL可知,各个食品种类首页的URL都是以特定的域名为头,然后再加上当前页数构成。例如,新奇水果下的苹果的第一页、第二页和第三页URL要害字形式分别为:

第一页:

第二页:

第三页:

可以看出,12218,12221,13554即为苹果的类别编号,其他种类的食品也有相应的编号一一对应。因此,在摘集相应种类食品的不同商品价格前,首先要确定好它的种类编号以及页数,从而以其作为初始URL,构建该种类食品整个URL集。

展开全文

第二步,网页下载模块的设计。编写Python设计一个用于网页下载的代码,可以模拟用户操作直接运行在浏览器中。将所有的京东商城食品类的URL存储在一个字典中,利用程序模拟人工访问相应的URL链接,下载对应的Web页面。运行设计好的相关代码后,该类URL集中所有URL对应的网页都会被自动批量下载下来,存储在一个文件夹中,便于下一步网页解析模块的顺利实现。

第三步,网页解析模块的设计。网页解析主要是为了实现对网页源代码中有效文本节点的抽取,这个过程可以分为网页结构分析和抽取文本节点两个步骤,通过分析HTML网页的结构特性,生成解析规则,以此来获取网页上有意义的文本节点数据。

线上高频食品价格数据的阐明

高频食品价格数据集涵盖天天摘集的来自京东商城的42175种食品规格品的商品名、商品id、商品种类、价格等信息,时间跨度从2019年1月21日到2019年9月28日,共有250天共计303748条数据,例如,一条准则数据为:'176592', '冲饮谷物', '132015851601', '2913882', '西麦 燕麦片 营养早餐食品 牛奶好搭档 即食谷物代餐麦片880g(桶装)', '30.90', '28.9', '2019-03-16 16:08:09'。其中,第1个标识为食品这一个中类的id,第2个标识是食品其中一个子类的名称,第3个标识是该子类的id,第4个标识是规格品的id,第5个标识是具体商品的名称,第6个标识是当期价格,第7个标识是上期价格,第8个标识是价格更新时间。

高频商品价格数据研究文献:

获取数据和代码等资源见公众号:Paper数据分析

字典 下载
SpringBoot版的低代码开发平台,关联无 SQL,性能高10倍! 13个Essay写作工具助你“借东风”
相关内容
发表评论

游客 回复需填写必要信息