热门关键字:
jquery > jquery教程 > jquery教程 > 爬虫基础——网页及网络请求

爬虫基础——网页及网络请求

264
作者:管理员
发布时间:2021/3/15 14:00:15
评论数:0
转载请自觉注明原文:http://www.jq-school.com/Show.aspx?id=4211
  在网页中右键单击检查会跳出该网页的源代码,我们不需要完全掌握html语言,只需要知道一下几点:


  对于<>标签,后面会有一个</>标签与之对应,如:


  这里的<head 》与</head》对应


  最开头的<html》和<body》也与代码对末尾部分的</html和</body对应,像这种闭合标签有很多,在代码中可以找到很多例子。


  现在我们以百度网页为例,点击源代码左上角的箭头,再点击百度的搜索框,代码会跳转到对应的这一行


  这里的<input 就是一个自闭合标签,没有相应的</>与之对应。 后面的id、type等黄色字体就是这个标签涉及的属性。


  首先,当我们输入的时候,浏览器是看不懂的,于是它把域名传输给我们的运营商(移动、联通、电信),由运营商的DNS域名解析器获得百度这个网站的ip,并告诉我们这个IP,我们再用这个ip去访问百度的服务器(发送请求),最后百度的服务器就把百度的html网页发给我们,于是我们就可以用百度啦!(http请求)


  网络请求主要有八种,这里只介绍两种最常用的GET和POST:


  发送请求从服务器上获取资源,不会对服务器资源产生任何影响的时候使用GET请求,如访问页面、刷新等


  此时右键检查,弹出源代码后,点击最上面的Network,F5刷新一下


  可以看到其中的request method显示为get。


  向服务器发送数据、上传数据等让服务器处理,会对服务器资源产生影响的时候用post请求。


  如登录账户时,需要让服务器验证账户信息是否正确;上传数据是时,服务器的资源会改变等等,此时request method显示为post


  服务器通过这个参数知道请求是从哪个浏览器(google、火狐等)发送出来的


  network拉到最下面,就可以看到user-agent的内容,这里是用谷歌浏览器,不同的浏览器显示不同的参数。


  表明这个网页是从哪个网站跳转过来的


  HTTP协议是无状态的,也就是同一个人在浏览器上发送了两次请求,但是服务器不知道这两个请求是否来自同一个人。因此需要用cookie来做标识。




如果您觉得本文的内容对您的学习有所帮助:支付鼓励



关键字:IE下的有条件注释详细讲解
友荐云推荐