加密货币交易所-十大加密货币交易所-数字货币交易平台
您的位置:主页 > 加密货币资讯 > 正文

何如用PYTHON爬到巨潮资讯里几个上市公司的年度申诉

作者 加密货币交易所-十大加密货币交易所-数字货币交易平台 关键词 加密货币资讯 发布时间 2024-04-18 18:32

 

  比来写论文必要统计年报中的环节词词频,什么?闲鱼上别人一经统计好了,只必要0.99就能够买到,好吧,原本也挺不错的,直接拿到文本数据或者别人统计了解好的词频文献(目前最低廉最轻易的方式),可是大一面数据貌似仅仅截止到2021年,最新数据仍然拿不到的。

  摘要:本文合键基于python第三方模块requests开辟搜集爬虫,实在效用蕴涵从巨潮资讯网爬取企业根基讯息实质及年报链接并转化为txt保留当地,用于进一步的词频统计。与以往作品分别,本文逆向了解了该网站给出的最新殽杂AES加密参数Accept-Enckey,而且给出了仰求参数的注意诠释,以便于对代码的进一步开辟。

  为什么要爬这个呢?一方面,由于爬取企业年报必要股票代码参数,实在的股票代码又由于商酌对象的分别而分别,巨潮资讯网给出了接口能够直接爬取企业的根基讯息,而且能够遵循实在的参数对主意企业实行筛选,好比,我只念要截止2023年6月份最新的江苏省上市创设企业名录,就能够直接遵循必要拿到全体的股票代码以进一步操作,另一方面,一面企业根基讯息正在商酌流程中也是对比紧要的,好比上市工夫、证监会行业种别等等都是常用的限定变量。

  该讯息的接口我正在巨潮资讯网数据数据浏览器中找到,如下图1所示,能够看出,咱们能够遵循商酌必要自行获取必要的代码讯息,接下来看下右键搜检,进入浏览器搜集截面查看该页面的ajax仰求,如下图2。

  了解上图可知,合键的反爬参数正在仰求头中,cookie和enckey,cookie很轻易,即是安置了两个个工夫戳,是以只必要拿到这个Accept-Enckey参数即可,通过整体搜罗找到该参数天生身分,呈现来自于indexcode对象的

  直接施行了一段经历殽杂加密后的js代码,代码仍然蛮长的,下面给出了crack后的js代码,这段代码通过移用CryptoJS的AES加密,最终身成了咱们必要的结果,个中加密参数为工夫戳timestample密钥为,偏移量iv为同密钥,加密形式为CBC,该加密能够运用python 第三方模块Crypto.Cipher模仿天生 ,也能够直接运用python第三方模块js2py等移用js源代码模仿,运用js2py模仿时必要补CryptoJS境遇,实在代码正在图下给出。

  拿到必要盘查企业讯息的股票代码,进一步欺骗官方接口盘查该企业的注意讯息,接连抓取接口,仰求头一经模仿好了,如上,合键必要管理仰求载荷,个中column体现必要盘查的实在目标,可遵循商酌必要自行获取,scode参数是一个由众个股票代码用逗号拼接成的字符串,个中包蕴的股票代码20-50之间,是以计划非常的决断逻辑构制,爬取数据后还必要进一步解析,最终爬取企业讯息的代码如下:

  该网站的爬取接口可拜望接口网址,通过右侧通告速查一面盘查数据爬取接口,通过搜罗股票代码000001抓取相

  合仰求实在数据如下,实在而言,仰求网址为nouncement/query,仰求种别为POST,仰求头中合键包蕴cookie(后端并没有验证,是以能够怠忽),仰求参数中包蕴了data参数。何如用PYTHON爬到巨潮资讯里几个上市公司的年度申诉