热门关键字:
jquery > jquery教程 > jquery教程 > 最通俗易懂的网页基础教程分享

最通俗易懂的网页基础教程分享

317
作者:管理员
发布时间:2021/1/25 20:02:58
评论数:0
转载请自觉注明原文:http://www.jq-school.com/Show.aspx?id=3457
  1. HTML


  HTML是用来描述网页的一种语言,其全称叫做作Hyper Text Markup Language,翻译过来就是超文本标记语言。HTML是一种标签语言,我们可以通过一个简单的例子来直观感受一个什么是HTML,在桌面上新建一个文本文件,复制以下内容到文件中,并将文件后缀改为”。html“


  用浏览器打开可呈现以下页面:


  这就是最简单的HTML实例,HTML文档要遵守一定的格式规范,如果想了解更多关于HTML的内容可以访问如下链接:HTML教程|菜鸟教程。


  在HTML中,所有标签定义的内容都是节点,它们构成一个HTML DOM树,DOM是W3C(万维网联盟)的标准,英文全称Document Object Model,即文档对象模型。它定义了访问HTML和XML文档的标准。更多关于HTML DOM的内容可以访问如下链接:HTML DOM教程|菜鸟教程。


  通过HTML DOM,树中所有节点都可以通过javaScript访问,所有节点都可以被创建、修改或删除。节点树中的节点彼此拥有层级关系,通常用父(parent)、子(child)和兄弟(sibing)等术语描述这些关系。


  可以看到网页中不同类型的元素通过不同类型的标签来表示,例如title元素内容显示在标题栏中,body元素内容显示在浏览器中,各种标签通过不同的排列嵌套才形成网页框架。


  在Chrome浏览器中打开百度,右击并选择”检查“项打开开发者模式,这时在Elements选项卡中可以看到网页的源代码:这就是HTML,这些标签定义的节点元素相互嵌套组合形成了复杂的层次关系,从而形成了网页的架构。


  2. CSS


  HTML定义了网页的结构,但是只有HTML页面并不美观,可能只是简单的节点元素的排列,为了让网页看起来更加美观,这里借助了CSS。


  CSS英文全称Cascading Style Sheets,即层叠样式表,是一种用来表现HTML或XML(标准通用标记语言的一个子集)等文件样式的计算机语言,可以对网页的文字大小、颜色、元素间距、排列等格式进行样式处理,上图中右侧即为一个CSS,例如:


  就是一个CSS样式,大括号前面是一个CSS选择器,大括号内部是一条条样式规则,例如position指定了这个元素的布局方式为绝对布局,bottom指定元素的下边距为40像素,width指定了宽度为100%占满父元素,height指定元素的高度。也就是说,我们将位置、宽度、高度等样式配置统一写成这样的样式,然后用大括号括起来,接着在大括号前加上CSS选择器,就表示选择器选中的这个元素就会根据这个样式来显示了。


  3. JavaScript


  JavaScript简称js,是一种脚本语言,我们在网页里可能看到一些交互和动画效果,如下载进度条、提示框等,这通常就是JavaScript的功劳。


  JavaScript通常也是以单独的文件形式加载的,后缀为。js,在HTML中通过script便签即可引入,例如:


  如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据,流程如下图:简单来说,爬虫就是获取网页并提取和保存信息的自动化程序,下面来简要介绍一下上图。


  1. 发起请求


  爬虫首先要做的工作就是获取网页,前一章讲了请求和响应的概念,向网站的服务器发起一个请求,首先要构造的就是网站的URL,其次构造请求方式,如果是GET请求,有时需要在URL中添加参数,如果网站设置了反爬措施,我们需要在请求头中伪造User-Agent,让服务器以为这是由浏览器发起的请求,然后就可以获取响应内容。


  2. 获取响应内容


  从服务器返回的数据,有时候可能是网页的源代码、也可能是一串json字符串,但它们都是一个完整的响应,即包括请求头、请求体等内容,如果我们需要从服务器获得我们想要的数据,就需要根据服务器返回的内容制定不同的爬取策略和解析方式。


  3. 解析内容


  获取网页的响应后,接下来就是分析网页源代码,从中获取我们想要的数据。首先,最通用的方法便是通过正则表达式提取,这是一个万能的方法,但是在构造正则表达式时比较复杂且容易出错。


  另外,由于网页的结构有一定的规则,所以还要一些根据网页节点属性、CSS选择器或XPath获取网页信息的库。使用这些库,我们可以高效地从中提取网页信息。


  4. 保存数据


  提取信息后,我们一般会将提取到的数据保存到某处以便后续使用。我们可以简单将数据保存为TXT文本或JSON文本,也可以保存到数据库,如MySOL或MongoDB等。




如果您觉得本文的内容对您的学习有所帮助:支付鼓励



关键字:jquery
友荐云推荐