干货 Tips Rules & Tips
1. 遵守中国大陆相关法律法规
2. 本版还在调整当中

Python小程序自动爬取站酷网首页的照片

查看: 7131|回复: 13
1
小无奈 发表于 2017-1-16 20:36:10
本帖最后由 撩月 于 2017-1-16 21:40 编辑

大家好,我是小无奈,最近这几天沉迷于做爬虫无法自拔,终于做出来了一个属于自己的爬虫。

对于一个没什么基础的人来说,做一个爬虫 也算是个艰难的过程,从下载 Pycharm  到学习字典 列表,正则表达式,以及一定的网页分析 本宝宝一步一步走过来了。有兴趣的可以玩一下爬虫,爬取一些数据,分析数据是很有用的。接下来就是开始数据分析,高端系统学习 Python 了,加油  共勉。

另外  代码仅供参考  ,如果进行非法行为  ,概不负责。

  1. # coding = utf-8
  2. import urllib
  3. import re
  4. #加载基础模块
  5. url="http://www.zcool.com.cn"

  6. def getHtml(url):'''下载网页‘’‘
  7.     page = urllib.urlopen(url)
  8.     html = page.read()
  9.     return html

  10. html=getHtml(url)’‘’下载照片‘’‘
  11. def getimg(html):
  12.     reg = 'href="(.+?\s.html)"\sst_t="click"'’‘’正则表达式‘’‘
  13.     imgre = re.compile(reg)
  14.     imglist = re.findall(imgre, html)
  15.     url=[]
  16.     imglist=list(set(imglist))’‘’去除重复数组‘’‘
  17.     for k in imglist:
  18.         k1=str(k)
  19.         ki=k1[:41]
  20.         web=".html"
  21.         ki = ki+web
  22.         url.append(ki)’‘’重建新的地址,站酷有意把地址添加一个\n \r 增加获取地址的难度   
  23.     x=0
  24.     for i in url:
  25.         img2=getHtml(i)
  26.         rex='src="(.+?.jpg)" '   ‘’‘正则’‘’
  27.         rax=re.compile(rex)
  28.         getimg3=re.findall(rax,img2)
  29.         for i in getimg3:
  30.             urllib.urlretrieve(i, '%s.jpg' % x)   ‘’‘下载照片’‘’
  31.             x=x+1
  32.     return imglist
  33. imgkk=getimg(html)
复制代码



laweirug 发表于 2017-1-22 21:34:38
用 requests 和 BeautifulSoup库啊啊啊
真的比 urllib re 好用不止一倍。
 楼主| 小无奈 发表于 2017-1-17 12:25:26
liangwan 发表于 2017-1-16 22:48
好厉害,这得学习多久呀?

  认真学习的话 7天时间就够了

liangwan 发表于 2017-1-16 22:48:25
好厉害,这得学习多久呀?
shawn 发表于 2017-1-17 11:38:07
一会我试试
小生我怕怕 发表于 2017-1-22 20:58:29
:D:D:D:D:D:D:D
musicer03 发表于 2017-2-24 13:21:48
7天学成?好厉害呀,
冷雨 发表于 2017-3-2 11:16:44
跪求楼主写一个较为详细的学习过程的帖子。授人以鱼不如授人以渔{:5_132:}
 楼主| 小无奈 发表于 2017-3-2 12:40:21
laweirug 发表于 2017-1-22 21:34
用 requests 和 BeautifulSoup库啊啊啊
真的比 urllib re 好用不止一倍。

确实是的,但是,那个 beautifui 的功能有点复杂,我不能很熟悉的使用,网上的那种教程也不太全

mouxinzi 发表于 2017-3-2 16:49:35
可以试一下
zhaodq 发表于 2021-4-28 17:26:50
真的 cow b
是西西呀 发表于 2022-7-22 19:08:49
太厉害了吧
 楼主| 小无奈 发表于 2022-7-22 21:41:55

一点也不厉害,很简单的
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则蛙先知 - AI 玩家社区 🚧

Build with for "make search easier" Copyright © 2013-2024. Powered by Discuz! GMT+8, 2024-4-20 22:59

快速回复 返回顶部 返回列表