干货 软件 Rules & Tips
1. 遵守中国大陆相关法律法规
2. 严禁发布盗版软件
3. 严禁传播破解方法或工具
4. 严禁发布甩链接的下载信息
5. 提倡分享亲测好用的软件
6. 名称、版本、平台是必要信息

[Windows] 如何抓取一个网站的子网页及其标题

查看: 2734|回复: 19
1
z986100078 发表于 2022-10-7 10:20:10
老铁们,求助,,最近在做一个论文,编辑觉得论文深度不够,,所以需要抓取一个网站(子网页内容不是很多)的标题进行分析,求教如何实现,,,非计算机专业,,不会爬虫,有没有什么软件能够实现
yanyaneboy 发表于 2022-10-7 13:34:44
淘宝上找个人帮忙抓一下,花不了多少钱。
小小 发表于 2022-10-7 11:56:58
网页直接保存下来
 楼主| z986100078 发表于 2022-10-7 19:56:21
yanyaneboy 发表于 2022-10-7 13:34
淘宝上找个人帮忙抓一下,花不了多少钱。

哦哦哦,好,确实
 楼主| z986100078 发表于 2022-10-7 19:56:37
小小 发表于 2022-10-7 11:56
网页直接保存下来

嗯嗯,还是网上爬取好了
huntian9 发表于 2022-10-8 14:59:20
非常简单,下载一个影刀,熟悉30分钟,无需编程,鼠标操作,几部就能建立一个标题爬取工作流,不需要购买付费版,个人免费版足够用了
replica 发表于 2022-10-9 11:08:29
huntian9 发表于 2022-10-8 14:59
非常简单,下载一个影刀,熟悉30分钟,无需编程,鼠标操作,几部就能建立一个标题爬取工作流,不需要购买付 ...

这玩意ibook装不了
岛上书店 发表于 2022-10-13 14:13:13
那个网站,要是不麻烦我帮你写个爬虫
喜欢毛绒绒的 发表于 2022-10-13 15:05:37
网站发一下,要是简单的话,我就帮你整个脚本了
 楼主| z986100078 发表于 2022-10-15 09:43:10
岛上书店 发表于 2022-10-13 14:13
那个网站,要是不麻烦我帮你写个爬虫

有四个,,,先发一个,麻烦大佬看看:https://www.nsmc.edu.cn/kejichu
 楼主| z986100078 发表于 2022-10-15 09:44:36
喜欢毛绒绒的 发表于 2022-10-13 15:05
网站发一下,要是简单的话,我就帮你整个脚本了

多谢,,,先等"岛上书店"同志看看不,,避免同时浪费了大家精力
wujiong 发表于 2022-10-15 10:33:30
huntian9 发表于 2022-10-8 14:59
非常简单,下载一个影刀,熟悉30分钟,无需编程,鼠标操作,几部就能建立一个标题爬取工作流,不需要购买付 ...

不错
taozili 发表于 2022-10-15 19:49:18
Offline Explorer 用这个软件可以实现。
喜欢毛绒绒的 发表于 2022-10-15 23:18:01
z986100078 发表于 2022-10-15 09:44
多谢,,,先等"岛上书店"同志看看不,,避免同时浪费了大家精力

我去,我把这个网站抓崩了,完了完了
喜欢毛绒绒的 发表于 2022-10-16 07:56:48
  1. from time import sleep

  2. import requests
  3. from bs4 import BeautifulSoup


  4. def main():
  5.     with open('results.txt','w+') as f:
  6.         for i in range(1, 60000):
  7.             try:
  8.                 url = 'https://www.nsmc.edu.cn/kejichu/' + str(i) + '.html'

  9.                 res = requests.get(url, verify=False)
  10.                 html = BeautifulSoup(res.text, features="lxml")
  11.                 title = html.title.string
  12.                 print(url)
  13.                 if title != "提示信息":
  14.                     resultItem=[url,'\n',title,'\n']
  15.                     f.writelines(resultItem)

  16.                     print(title)
  17.             except Exception as e:
  18.                 print('err:'+url)
  19.                 sleep(2)
  20.                 pass
  21.             # print(title)
  22.             # print(res.text)


  23. if __name__ == '__main__':
  24.     main()
复制代码


结果下载地址:下载地址
(太大了没法放附件)
 楼主| z986100078 发表于 2022-10-16 09:33:43
喜欢毛绒绒的 发表于 2022-10-16 07:56
结果下载地址:下载地址
(太大了没法放附件)

多谢大佬们帮助
 楼主| z986100078 发表于 2022-10-16 09:47:55
已解决,多谢部落各位大佬的支持
喜欢毛绒绒的 发表于 2022-10-16 10:31:09
没法加好友啊hhh,虫部落的好友数满了
 楼主| z986100078 发表于 2022-10-16 15:44:15
喜欢毛绒绒的 发表于 2022-10-16 10:31
没法加好友啊hhh,虫部落的好友数满了

可以留个联系方式么,,我WX:z986100078,,,邮箱:z986100078@outlook.com
Allanan 发表于 2022-12-20 20:20:01
huntian9 发表于 2022-10-8 14:59
非常简单,下载一个影刀,熟悉30分钟,无需编程,鼠标操作,几部就能建立一个标题爬取工作流,不需要购买付 ...

学习使用Python、影刀、uibot等程序来爬取数据,非常的方便高效
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则蛙先知 - AI 玩家社区 🚧

Build with for "make search easier" Copyright © 2013-2024. Powered by Discuz! GMT+8, 2024-5-21 04:47

快速回复 返回顶部 返回列表