V2EX 09月26日
探讨夸克网盘数据采集方式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了采集夸克网盘公开分享链接数据的技术方案。作者发现通过分析网络请求可以定位到API接口,但其中stoken参数的获取成为关键难题,即使是公开链接也需要正确的stoken才能访问。作者尝试构造API请求,但缺乏stoken导致失败,并考虑使用Selenium作为备选方案。文章旨在寻求关于如何有效获取stoken或使用其他API接口进行数据采集的解决方案。

🔑 **API接口分析与stoken难题**:通过分析夸克网盘的公开分享链接,研究人员发现了一个可能的API接口(如https://drive-h.quark.cn/1/clouddrive/share/sharepage/detail?)。然而,该接口需要一个名为stoken的参数,即使是公开分享链接也无法绕过此验证。如何获取这个stoken是数据采集的关键障碍,因为直接构造不带有效stoken的链接会导致访问失败,提示非法stoken。

⚙️ **API构造尝试与局限性**:文章中展示了尝试构造API接口请求的过程,例如使用`pwd_id`等参数。尽管找到了部分参数,但核心的stoken参数来源不明,使得API接口的有效调用难以实现。这表明仅凭公开链接信息,直接通过API进行数据提取存在技术瓶颈。

🤖 **Selenium作为备选方案**:鉴于API接口在stoken问题上的受阻,文章提出了使用Selenium进行自动化爬取作为备选方案。Selenium能够模拟浏览器行为,直接访问网页并提取数据,理论上可以克服API接口的限制,但可能会面临反爬机制的挑战,且执行效率可能低于直接API调用。

你们采集夸克网站是用夸克网盘的接口 api 里面的这个 stoken 不知道怎么得到
https://pan.quark.cn/s/30326245d3cd
https://pan.quark.cn/s/4c627704f9bf
https://pan.quark.cn/s/0f742d94b39c

各位大佬好。
你们采集夸克网站是用夸克网盘的接口 api 还是用 Selenium 多些?
我想把一些夸克网盘的数据采集下来放到数据库里。
比如把上面的三个网址放在一个 txt 里
用 scrapy 采集入库。
如果用 api 接口的话
我通过分板找到了其中的一个接口:

https://drive-h.quark.cn/1/clouddrive/share/sharepage/detail?pr=ucpro&fr=pc&uc_param_str=&ver=2&pwd_id=30326245d3cd&stoken=sa5VFxCjF6s3Jwo0qGj8F8BLilNFwtfrFDulkWg8CLg%3D&pdir_fid=0&force=0&_page=1&_size=50&_fetch_banner=1&_fetch_share=1&fetch_relate_conversation=1&_fetch_total=1&_sort=file_type:asc,file_name:asc&__dt=1441&__t=1758809866729

但是我怎么通接这个 api 接口构造出这个网址呢?
这个网址里面别的都好办。就是这个 stoken 不知道怎么得到?
按理说这些公开的链接不需要 stoken 吧?
但是按这个链接构造的不带 stoken 的都提示非法 stoken
不知道各位朋友是怎么处理的?

另外还没试过 Selenium 。实在不行就只能用 Selenium 了。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

夸克网盘 数据采集 API接口 stoken Selenium 爬虫技术 技术探讨
相关文章