干货 Tips Rules & Tips
1. 遵守中国大陆相关法律法规
2. 本版还在调整当中

从中国共X党思想理论资源数据库爬取资源

查看: 22319|回复: 21
2 1
滑小姬 发表于 2019-6-11 19:19:24
https://github.com/js00070/MarxismCrawler
不用登陆,可以从中国共X党思想理论资源数据库批量下书自动合成pdf,有需要的可以使用
 楼主| 滑小姬 发表于 2021-12-12 02:15:34
国家哲学社会科学文献中心(http://www.ncpssd.org/index.aspx)里的内容也很不错,可以 rssdiy 一下,分享几个现成的:

wudunxu 发表于 2019-6-12 21:23:10
亲测效果很棒,666啊!已经下载了几本想要的书。
sant187 发表于 2019-6-12 09:29:03
正是需要的,但是不知道怎么用?需要Python环境?
独角仙之夜 发表于 2019-6-12 23:05:45
sant187 发表于 2019-6-12 09:29
正是需要的,但是不知道怎么用?
需要Python环境?

github 上好像都要用 python,感觉不学不行了……
独角仙之夜 发表于 2019-7-4 20:35:38
wudunxu 发表于 2019-6-12 21:23
亲测效果很棒,666啊!已经下载了几本想要的书。

求教该如何使用github项目,安装了python/pip  pyinstal/pywin32,然后运行pyinstall总是报错……
wudunxu 发表于 2019-7-4 21:06:31
独角仙之夜 发表于 2019-7-4 20:35
求教该如何使用github项目,安装了python/pip  pyinstal/pywin32,然后运行pyinstall总是报错…… ...

我做了一极简视频,你照着做就可以啦 @独角仙之夜
链接: https://pan.baidu.com/s/1PjsXa_HlCin6RvT5w-tF8Q 提取码: kpax
独角仙之夜 发表于 2019-7-4 21:23:55
wudunxu 发表于 2019-7-4 21:06
我做了一极简视频,你照着做就可以啦 @独角仙之夜
链接: https://pan.baidu.com/s/1PjsXa_HlCin6RvT5w-tF ...


感谢大神,看懂了,应用环境没有安装成功……已经开始下载了
2019-07-04_213016.jpg
卖萌青年 发表于 2019-7-5 08:34:32
收藏,我感觉学好python可以省好多事。。。
独角仙之夜 发表于 2019-7-5 09:26:08

突然开始喜欢学习 python 了哈哈,再次感谢!
独角仙之夜 发表于 2019-7-5 09:26:38
卖萌青年 发表于 2019-7-5 08:34
收藏,我感觉学好python可以省好多事。。。

确实如此,还好有点C语言基础
钻石疙瘩 发表于 2019-7-5 09:53:00
为什么我导出的bookid都是乱码
isbn        bookid        bookname
7-01-000063-8        B_01000063_001        榻愬ゥ濉炴柉搴撻€夐泦锛?984-1986骞达級
就是这种,
但是这个id也可以合成出来书
这乱码我找不到向合成的书困惑啊
独角仙之夜 发表于 2019-7-5 10:46:43
钻石疙瘩 发表于 2019-7-5 09:53
为什么我导出的bookid都是乱码
isbn        bookid        bookname
7-01-000063-8        B_01000063_001        榻愬ゥ濉炴柉搴撻€夐 ...

我看见也是乱码,但是你登陆网站,选择在线阅读后,地址栏会有对应ID,地址是这种:http://data.lilun.cn/Service/?lo ... p;call=readPDF&bookid=B_01020526_001&page=1&html=selectText_NOINC&from=online&searchChar=undefined
whistle 发表于 2019-7-6 11:44:35
这个很不错
wudunxu 发表于 2019-7-6 15:54:41
独角仙之夜 发表于 2019-7-5 10:46
我看见也是乱码,但是你登陆网站,选择在线阅读后,地址栏会有对应ID,地址是这种:http://data.lilun.cn ...

你导出的csv格式,可能是编码的问题。csv先用txt阅读一下,然后再用Excel就可以。或者是新建一个Excel文件,把csv文件导入也可以。
独角仙之夜 发表于 2019-7-8 12:01:02
wudunxu 发表于 2019-7-6 15:54
你导出的csv格式,可能是编码的问题。csv先用txt阅读一下,然后再用Excel就可以。或者是新建一个Excel文 ...

再次感谢,恢复了所有bookid,原来手动的选择下载了一部分,耽误不少时间{:5_133:}
2019-07-08_114745.jpg
2019-07-08_115920.jpg
小刀抠缝 发表于 2019-8-17 20:44:36
高人,向您致敬
JonyColour 发表于 2019-9-10 11:16:52
确实不错呀!
东极无极 发表于 2019-9-10 22:52:12
特意装了python尝试,虽然一开始总是报错,通过检索找到了问题所在,成功get方法!太强大辣,膜拜各位大佬~
毛有盐 发表于 2019-9-11 00:08:00
为什么每下120页左右就不动了,然后我关掉重输一遍指令,再下120页。。
娜诗菲 发表于 2019-9-21 14:02:35
秀啊~~~ 一会试试
减个肥 发表于 2021-12-13 00:27:49
我是共产主义接班人
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则蛙先知 - AI 玩家社区 🚧

Build with for "make search easier" Copyright © 2013-2024. Powered by Discuz! GMT+8, 2024-4-25 15:34

快速回复 返回顶部 返回列表