python爬虫(正则表达式的应用)

阅读数:0次 2020-07-15

先上代码:

import requests
import re
url = 'front/search/category'
cut_url = re.match(r'http(.*?)\.cn', url)

def get_data(url , pages):
  headers = {
    'Host': 'www.ccgp-xinjiang.gov.cn',
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:77.0) Gecko/20100101 Firefox/77.0',
    'Content-Type': 'application/json',
   }
    global index
    index = 0
    json_data = {"pageNo": "%d" % index, "pageSize": "15", "categoryCode": "ZcyAnnouncement3001"}
  try:
   for i in range(pages):
     index = i + 1
     res = requests.post(url=url, headers=headers, json=json_data)
     result_str = res.content.decode("utf-8")
     temp_data = re.finditer(u'title(.*?)[\u4e00-\u9fa5](.*?),', result_str)
     text_data = [re.search(r'[\u4e00-\u9fa5]+(.*)[\u4e00-\u9fa5]', j).group() for j in [i.group() for i in temp_data]]
     part_url = [i.group() for i in re.finditer(r'\/[a-zA-Z](.*?)html', result_str)]
     final_url = [cut_url.group() + i for i in part_url]
     for i in range(len(text_data)):
       with open('data.txt', 'a+') as fp:
         fp.write(text_data[i] + ' : ' + final_url[i] + '\n')
 except:
   return print("Someting Wrong!")
 return print("Everythings OK!")

if __name__ == '__main__':
 get_data(url, 3)

结果截图：

分析：

要求是获取到招标信息的前三页内容。观察目标网站

python爬虫2

黄体字后面就是我们所需要的信息，点击下面的页面,如第二页，发现页面的URL并没有发生变化。所以打开调试模式

python爬虫3

点击第二页，发现有两次请求，那么这两个请求里会有一个返回第二页的数据。第二页的数据如下：

python爬虫4

打开返回的json文件发现了第二页的内容

python爬虫5

观察这json，我们所需要的信息都在’title’和’url’里。

问题来了，怎么获得这个json文件

在调试模式里选择编辑重发，发现：

python爬虫6

那么获取json文件就有了个思路。通过request的post请求，添加headers参数与请求主体。代码部分见文章最开始部分。

获取到了json文件，当然可以通过处理json文件的方式获取需要的信息。本文采用的爬虫中常常需要用到的正则(因为应用的更加的广泛)。

观察json文件的格式，title后面就是对应着相关网站的名称，而后面的url则是部分的URL。如图

python爬虫7

那么获取标题和URL，可以使用re.finditer来获得所有的标题和URL，正则部分，自行查阅。

下面就是将获取到的标题列表和URL列表(注意：这里的URL并不是完整的URL，需要进行拼接，操作如上文)格式化的写入到文本中，就大功告成辣~

本文作者： klig0day
版权声明：转载请注明出处！
文章说明： 文章如有不足或者纰漏之处，欢迎留言斧正！

缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是yilia根目录）执行以下命令：
npm i hexo-generator-json-content --save

3、在根目录_config.yml里添加配置：

  jsonContent:
    meta: false
    pages: false
    posts:
      title: true
      date: true
      path: true
      text: false
      raw: false
      content: false
      slug: false
      updated: false
      comments: false
      link: false
      permalink: false
      excerpt: false
      categories: false
      tags: true

为天地立心，为生民立命<br>为往圣继绝学，为万世开太平<br><br/>klig0day的人生追求。<br/>