【Python爬虫实战】知乎热榜数据采集，上班工作摸鱼两不误，知乎热门信息一网打尽-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

【Python爬虫实战】知乎热榜数据采集，上班工作摸鱼两不误，知乎热门信息一网打尽

阅读量：2108 次

发布时间：2019-04-29

本文共 1204 字，大约阅读时间需要 4 分钟。

目录

爬取目标

网址：在这里插入图片描述

工具使用

开发环境：win10、python3.7 开发工具：pycharm、Chrome 工具包：requests，lxml， re

项目思路解析

对目标网址发送网络请求获取到网页数据提取到标题数据在这里插入图片描述

提取图片地址在这里插入图片描述获取详情内容地址详情地址并不在a标签内正则提取详情页面地址详情url需要进行分割替换

简易源码分享

import re   # 正则表达式import requests   # 发送网络请求from lxml import etree  # 转换数据的# 同意资源定位符url = 'https://www.zhihu.com/billboard'headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0',}# 发送网络请求response = requests.get(url, headers=headers)# print(response.text)# 提取数据   xpath方式   提取数据   正则  bs4new_url_list = re.findall('link":{"url":"(.*?)"}', response.text)print(new_url_list)html_object = etree.HTML(response.text)a_list = html_object.xpath('//a[@class="HotList-item"]')# print(a_list)for a, new_url in zip(a_list, new_url_list):    title = a.xpath('.//div[@class="HotList-itemBody"]/div[1]/text()')[0]    url1 = new_url.replace('u002F', '')    img_url = a.xpath('./div[@class="HotList-itemImgContainer"]/img/@src')[0]    f = open('知乎热榜数据.text', "a", encoding='utf-8')    f.write("标题：" + title + '\n')    f.write("文章地址：" + url1 + '\n')    f.write("图片地址：" + img_url + "\n")    f.write("\n")

❀微信扫一扫关注公众号加入学习技术解答小天地+q裙：881744585【欢迎小哥哥。小姐姐】❀

转载地址：http://kxuef.baihongyu.com/

你可能感兴趣的文章

C语言字符、字符串操作偏僻函数总结

Git的Patch功能

分析C语言的声明

TCP为什么是三次握手，为什么不是两次或者四次 && TCP四次挥手

C结构体、C++结构体、C++类的区别

进程和线程的概念、区别和联系

CMake 入门实战

绑定CPU逻辑核心的利器——taskset

Linux下perf性能测试火焰图只显示函数地址不显示函数名的问题

c结构体、c++结构体和c++类的区别以及错误纠正

Linux下查看根目录各文件内存占用情况

A星算法详解(个人认为最详细,最通俗易懂的一个版本)

利用栈实现DFS

逆序对的数量(递归+归并思想)

数的范围(二分查找上下界)

算法导论阅读顺序

Windows程序设计:直线绘制

linux之CentOS下文件解压方式

Django字段的创建并连接MYSQL

div标签布局的使用

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-05-17 12:41:45 当前IP: 18.217.189.213 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我