探讨夸克网盘数据采集方式

V2EX 09月26日

探讨夸克网盘数据采集方式

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本文探讨了采集夸克网盘公开分享链接数据的技术方案。作者发现通过分析网络请求可以定位到API接口，但其中stoken参数的获取成为关键难题，即使是公开链接也需要正确的stoken才能访问。作者尝试构造API请求，但缺乏stoken导致失败，并考虑使用Selenium作为备选方案。文章旨在寻求关于如何有效获取stoken或使用其他API接口进行数据采集的解决方案。

🔑 **API接口分析与stoken难题**：通过分析夸克网盘的公开分享链接，研究人员发现了一个可能的API接口（如https://drive-h.quark.cn/1/clouddrive/share/sharepage/detail?）。然而，该接口需要一个名为stoken的参数，即使是公开分享链接也无法绕过此验证。如何获取这个stoken是数据采集的关键障碍，因为直接构造不带有效stoken的链接会导致访问失败，提示非法stoken。

⚙️ **API构造尝试与局限性**：文章中展示了尝试构造API接口请求的过程，例如使用`pwd_id`等参数。尽管找到了部分参数，但核心的stoken参数来源不明，使得API接口的有效调用难以实现。这表明仅凭公开链接信息，直接通过API进行数据提取存在技术瓶颈。

🤖 **Selenium作为备选方案**：鉴于API接口在stoken问题上的受阻，文章提出了使用Selenium进行自动化爬取作为备选方案。Selenium能够模拟浏览器行为，直接访问网页并提取数据，理论上可以克服API接口的限制，但可能会面临反爬机制的挑战，且执行效率可能低于直接API调用。

你们采集夸克网站是用夸克网盘的接口 api 里面的这个 stoken 不知道怎么得到
 https://pan.quark.cn/s/30326245d3cd
https://pan.quark.cn/s/4c627704f9bf
https://pan.quark.cn/s/0f742d94b39c

各位大佬好。
你们采集夸克网站是用夸克网盘的接口 api 还是用 Selenium 多些？
我想把一些夸克网盘的数据采集下来放到数据库里。
比如把上面的三个网址放在一个 txt 里
用 scrapy 采集入库。
如果用 api 接口的话
我通过分板找到了其中的一个接口：

https://drive-h.quark.cn/1/clouddrive/share/sharepage/detail?pr=ucpro&fr=pc&uc_param_str=&ver=2&pwd_id=30326245d3cd&stoken=sa5VFxCjF6s3Jwo0qGj8F8BLilNFwtfrFDulkWg8CLg%3D&pdir_fid=0&force=0&_page=1&_size=50&_fetch_banner=1&_fetch_share=1&fetch_relate_conversation=1&_fetch_total=1&_sort=file_type:asc,file_name:asc&__dt=1441&__t=1758809866729

但是我怎么通接这个 api 接口构造出这个网址呢？
这个网址里面别的都好办。就是这个 stoken 不知道怎么得到？
按理说这些公开的链接不需要 stoken 吧？
但是按这个链接构造的不带 stoken 的都提示非法 stoken
不知道各位朋友是怎么处理的？

另外还没试过 Selenium 。实在不行就只能用 Selenium 了。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签