虫部落

从中国共X党思想理论资源数据库爬取资源

查看: 5689|回复: 20
滑小姬 发表于 2019-6-11 19:19:24 |阅读模式
https://github.com/js00070/MarxismCrawler
不用登陆,可以从中国共X党思想理论资源数据库批量下书自动合成pdf,有需要的可以使用

本帖被以下淘专辑推荐:

  • · 收藏|主题: 4, 订阅: 0
wudunxu 发表于 2019-7-4 22:23:33
独角仙之夜 发表于 2019-7-4 21:23
感谢大神,看懂了,应用环境没有安装成功……已经开始下载了

wudunxu 发表于 2019-6-12 21:23:10
亲测效果很棒,666啊!已经下载了几本想要的书。
sant187 发表于 2019-6-12 09:29:03
正是需要的,但是不知道怎么用?
需要Python环境?
独角仙之夜 发表于 2019-6-12 23:05:45
sant187 发表于 2019-6-12 09:29
正是需要的,但是不知道怎么用?
需要Python环境?

github上好像都要用python,感觉不学不行了……
独角仙之夜 发表于 2019-7-4 20:35:38
wudunxu 发表于 2019-6-12 21:23
亲测效果很棒,666啊!已经下载了几本想要的书。

求教该如何使用github项目,安装了python/pip  pyinstal/pywin32,然后运行pyinstall总是报错……
wudunxu 发表于 2019-7-4 21:06:31
独角仙之夜 发表于 2019-7-4 20:35
求教该如何使用github项目,安装了python/pip  pyinstal/pywin32,然后运行pyinstall总是报错…… ...

我做了一极简视频,你照着做就可以啦 @独角仙之夜
链接: https://pan.baidu.com/s/1PjsXa_HlCin6RvT5w-tF8Q 提取码: kpax
独角仙之夜 发表于 2019-7-4 21:23:55
wudunxu 发表于 2019-7-4 21:06
我做了一极简视频,你照着做就可以啦 @独角仙之夜
链接: https://pan.baidu.com/s/1PjsXa_HlCin6RvT5w-tF ...


感谢大神,看懂了,应用环境没有安装成功……已经开始下载了
2019-07-04_213016.jpg
卖萌青年 发表于 2019-7-5 08:34:32
收藏,我感觉学好python可以省好多事。。。
独角仙之夜 发表于 2019-7-5 09:26:08

突然开始喜欢学习python了哈哈 ,再次感谢!
独角仙之夜 发表于 2019-7-5 09:26:38
卖萌青年 发表于 2019-7-5 08:34
收藏,我感觉学好python可以省好多事。。。

确实如此,还好有点C语言基础
钻石疙瘩 发表于 2019-7-5 09:53:00
为什么我导出的bookid都是乱码
isbn        bookid        bookname
7-01-000063-8        B_01000063_001        榻愬ゥ濉炴柉搴撻€夐泦锛?984-1986骞达級
就是这种,
但是这个id也可以合成出来书
这乱码我找不到向合成的书困惑啊
赞助商作品
虫子 更新于 2019年3月1日 23:33 来自 HUAWEI Mate X
如何高效地使用搜索引擎?

对于同一个问题,不同的人使用相同的搜索引擎可能搜索出不同的内容,经常出现在百度,谷歌上搜不到自己想要的内容的状况,那么究竟怎样搜索才可以准确的找到自己想找的内容?

独角仙之夜 发表于 2019-7-5 10:46:43
钻石疙瘩 发表于 2019-7-5 09:53
为什么我导出的bookid都是乱码
isbn        bookid        bookname
7-01-000063-8        B_01000063_001        榻愬ゥ濉炴柉搴撻€夐 ...

我看见也是乱码,但是你登陆网站,选择在线阅读后,地址栏会有对应ID,地址是这种:http://data.lilun.cn/Service/?lo ... p;call=readPDF&bookid=B_01020526_001&page=1&html=selectText_NOINC&from=online&searchChar=undefined
whistle 发表于 2019-7-6 11:44:35
这个很不错
wudunxu 发表于 2019-7-6 15:54:41
独角仙之夜 发表于 2019-7-5 10:46
我看见也是乱码,但是你登陆网站,选择在线阅读后,地址栏会有对应ID,地址是这种:http://data.lilun.cn ...

你导出的csv格式,可能是编码的问题。csv先用txt阅读一下,然后再用Excel就可以。或者是新建一个Excel文件,把csv文件导入也可以。
独角仙之夜 发表于 2019-7-8 12:01:02
wudunxu 发表于 2019-7-6 15:54
你导出的csv格式,可能是编码的问题。csv先用txt阅读一下,然后再用Excel就可以。或者是新建一个Excel文 ...

再次感谢,恢复了所有bookid,原来手动的选择下载了一部分,耽误不少时间
2019-07-08_114745.jpg
2019-07-08_115920.jpg
小刀抠缝 发表于 2019-8-17 20:44:36
高人,向您致敬
JonyColour 发表于 2019-9-10 11:16:52
确实不错呀
东极无极 发表于 2019-9-10 22:52:12
特意装了python尝试,虽然一开始总是报错,通过检索找到了问题所在,成功get方法!太强大辣,膜拜各位大佬~
毛有盐 发表于 2019-9-11 00:08:00
为什么每下120页左右就不动了,然后我关掉重输一遍指令,再下120页。。
娜诗菲 发表于 2019-9-21 14:02:35
秀啊~~~ 一会试试
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表