# encoding:utf-8
import re # 使用正则 匹配想要的数据
import requests # 使用requests得到网页源码
import re##爬视频
import urllib,urllib2
# def geturllist():
#   res=urllib2.urlopen('http://www.budejie.com/video/')
#   html=res.read()
#   print html
# geturllist()
def geturllist():

    req = urllib2.Request('http://www.budejie.com/video/');
    req.add_header('User-Agent','Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)'
          ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Mobile '
          'Safari/537.36')
    res=urllib2.urlopen(req)
    html=res.read()
    reg=r'data-mp4="(.*?)">'
    urllist=re.findall(reg,html)
    for url in urllist:
        urllib.urlretrieve(url,'F:\\MP4/%s.mp4'%url.split('/')[-1])

geturllist()

美高梅电子游戏365bet体育澳门新萄京官方网站 ,这个函数是用来得到源码

# 得到主函数传入的链接
def getHtmlText(url):
  try: # 异常处理
    # 得到你传入的URL链接 设置超时时间3秒
    r = requests.get(url, timeout=3)
    # 判断它的http状态码
    r.raise_for_status()
    # 设置它的编码 encoding是设置它的头部编码 apparent_encoding是从返回网页中分析它的编码格式
    r.encoding = r.apparent_encoding
    # 返回源代码
    return r.text
  except: # 发生异常返回空
    return ''

这个函数使用来解析你的源代码 获取你想要的数据

Author

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章