从截图中(可以直接去网站看下),我们可以看出,该网站相对简单,一共分为四个模块:最新笑话、捧腹段子、趣图、神回复。 然后页面的显示形式有两种,一是单纯的文字(段子),二是单纯的图片(趣图)。其中趣图又分为静态图片和动态图片(gif图),且趣图的显示比段子多了“标签”。
在网页中点击右键,点击弹出菜单中的“查看网页代码”,就可以查看到当前网页的源代码。查看源代码,我们可以看出,每一个笑话,都是一个list-item。我截取部分代码,给大家略作分析。?
我在上图中已经进行了标注,整个捧腹网的数据大体也就这三部分:段子、静态图、动态图。其中,每个list-item中的数据包括:用户头像、用户昵称、笑话的标题、笑话内容(段子内容、静态图、动态图),标签。
最新笑话列表: 其中num为第几页。?
捧腹段子列表: 其中num为第几页。?
趣图列表: 其中num为第几页。?
神回复列表: 其中num为第几页。
Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。?
关于如何使用Jsoup并不是本章重点,它并不难使用,具体可以参考jsoup开发指南相信你浏览一遍就知道它的使用方式了。
下面,我们通过Jsoup解析上图网页中的数据list-item 。?
首先,我们需要首先获取网页源代码,jsoup提供了一个相当简单的方法,可以直接获取网页源代码,并把它转为Document对象。?
Document doc=Jsoup.connect(“
当然,你也可以自己通过httpurlconnection获取到网页的数据流,然后通过 Document doc=Jsoup.parse(result);方法把它转为Document对象。
在实际开发中,我们需要用过异步任务,获取、解析网络数据,所以,在这里,我通过httpurlconnection来获取网页源码。
1.封装HTTP请求工具类
2.查询网页源码,转化为Document对象。
3.通过Jsoup解析网页源码,封装列表数据
如果您觉得本文的内容对您的学习有所帮助:
关键字:
jquery