博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python网络爬虫
阅读量:5239 次
发布时间:2019-06-14

本文共 1304 字,大约阅读时间需要 4 分钟。

 一、访问网站20次

import requestsfrom bs4 import BeautifulSoup#调用函数r = requests.get("http://www.baidu.com")#输入网站名字r.encoding = "utf-8"soup = BeautifulSoup(r.text)for i in range(20):#控制循环,访问网站20次即可。    print(soup.head)    print("\n")    print(i+1)    print("\n")

通过用for循环,来控制访问次数,效果如下:

 

 二、爬虫

 

 

import requestsfrom bs4 import BeautifulSoupalluniv = []def getHTMLText(url):#访问网站并获取内容    try:        r = requests.get(url,timeout = 30)        r.raise_for_status()        r.encoding = 'utf-8'        return r.text    except:        return "error"def fillunivlist(soup):#获取我们需要的内容    data=soup.find_all('tr')    for tr in data:        ltd =tr.find_all('td')        if len(ltd)==0:            continue        singleuniv=[]        for td in ltd:            singleuniv.append(td.string)        alluniv.append(singleuniv)def printunivlist(num):#建立这个排名表格    print("{:^4}{:^10}{:^5}{:^8}{:^10}".format("排名","学校名字","省份","总分","培养规模"))    for i in range(num):        u=alluniv[i]        print("{:^4}{:^10}{:^5}{:^8}{:^10}".format(u[0],u[1],u[2],u[3],u[6]))def main(num):#输出num个数的大学排名    url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"    html=getHTMLText(url)    soup=BeautifulSoup(html,"html.parser")    fillunivlist(soup)    printunivlist(num)main(100)

 效果如下:

 

转载于:https://www.cnblogs.com/asd516970982/p/10909319.html

你可能感兴趣的文章
基于内容的图片检索CBIR(Content Based Image Retrieval)简介
查看>>
线程androidAndroid ConditionVariable的用法
查看>>
程序电脑VS2008 应用程序配置不正确,未能启动该应用程序。重新安装程序可以修复此问题。解决方法...
查看>>
设置类UIColor使用colorWithRed定义颜色
查看>>
文件语音识别Google语音识别学习札记 - Windows PC机上测试语音识别Strut2教程-java教程...
查看>>
μC/OS-III---I笔记13---中断管理
查看>>
:after,:before,content
查看>>
FTTB FTTC FTTH FTTO FSA
查看>>
OpenAI Gym
查看>>
stap-prep 需要安装那些内核符号
查看>>
网易杭研后台技术中心的博客 -MYSQL :OOM
查看>>
第二章 数据通信的基础知识 计算机网络笔记 学堂在线 2.1 数据传输系统 2.2 信号...
查看>>
TFS安装与管理
查看>>
Javascript for循环指定锚点跳转
查看>>
如何解决click事件的重复触发问题
查看>>
2016寒假自学笔记
查看>>
VC++2012编程演练数据结构《21》二叉排序树
查看>>
[转载]为学Linux,我看了这些书
查看>>
第一章练习
查看>>
向前跑,只为了心中的美好
查看>>