博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python_爬虫一之爬取糗事百科上的段子
阅读量:4335 次
发布时间:2019-06-07

本文共 1352 字,大约阅读时间需要 4 分钟。

目标

  • 抓取糗事百科上的段子
  • 实现每按一次回车显示一个段子
  • 输入想要看的页数,按 'Q' 或者 'q' 退出

实现思路

  • 目标网址:
  • 使用requests抓取页面  
  • 使用bs4模块解析页面,

代码内容:

1 import requests 2 from bs4 import BeautifulSoup 3  4  5 def get_content(pages):  # get jokes list 6     headers = {
'user_agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) Apple\ 7 WebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.87 Safari/537.36'} # 用户代理 8 content_list = [] 9 for page in range(1, pages+1): # 想看多少页10 url = 'http://www.qiushibaike.com/text/page/' + str(page) + '/?s=4928950'11 response = requests.get(url, headers=headers) # 获取网页内容12 html = response.text13 soup = BeautifulSoup(html, 'html5lib') # 解析网页内容14 jokes = soup.find_all('div', class_='content')15 for each in jokes:16 each_joke = each.get_text()17 joke = each_joke.replace('\n', '') # 将换行符替换18 content_list.append(joke)19 return content_list # 返回段子列表20 21 22 if __name__ == "__main__":23 number = int(input("How many pages do you want to read?\nIf you want to quit, just press 'q'.\n")) # 输入想要看的页数24 print() # 换行,便于阅读25 for paragraph in get_content(number):26 print(paragraph)27 user_input = input()28 if user_input == 'q': # 按'q'退出29 break

 

结果展示:

结果展示

 

参考:

静谧的爬虫教程:

爬取段子参考:

 

转载于:https://www.cnblogs.com/sxhui/p/6013426.html

你可能感兴趣的文章
收藏其他博客园主写的代码,学习加自用。先表示感谢!!!
查看>>
H5 表单标签
查看>>
su 与 su - 区别
查看>>
C语言编程-9_4 字符统计
查看>>
在webconfig中写好连接后,在程序中如何调用?
查看>>
限制用户不能删除SharePoint列表中的条目(项目)
查看>>
feign调用spring clound eureka 注册中心服务
查看>>
ZT:Linux上安装JDK,最准确
查看>>
LimeJS指南3
查看>>
关于C++ const成员的一些细节
查看>>
《代码大全》学习摘要(五)软件构建中的设计(下)
查看>>
C#检测驱动是否安装的问题
查看>>
web-4. 装饰页面的图像
查看>>
微信测试账户
查看>>
Android ListView上拉获取下一页
查看>>
算法练习题
查看>>
学习使用Django一 安装虚拟环境
查看>>
Hibernate视频学习笔记(8)Lazy策略
查看>>
CSS3 结构性伪类选择器(1)
查看>>
IOS 杂笔-14(被人遗忘的owner)
查看>>