首页 > 经验记录 > java > htmlunit —— 一个强大的模拟浏览器jar包,可在代码中实现浏览器操作(如填写表单,点击按钮)

htmlunit —— 一个强大的模拟浏览器jar包,可在代码中实现浏览器操作(如填写表单,点击按钮)

今天爬数据真是爬的绝望,下午2点多开始写到下班,还主动加了一小时班,然后回到家又码到10点。终于爬出来了。

 

用java自带的 HttpURLConnection 模拟请求,返回的都是乱码。用Jsoup也是一样的。

用postman测了几下,结果一致。

应该是做了什么验证 ,导致代码伪装他的 ajax 请求是不会返回正确数据的。

 

还好 htmlunit 拯救了我。

htmlunit 简介:
一个Java代码版浏览器,它没有图形界面。它可以允许使用网页的一些高级操作,如填写表单、点击链接。你只需要调用getPage(url)方法,然后找到一个超链接,调用click()方法点击它,你就可以得到点击后返回的页面。包括Javascript、Ajax、cookie等都是自动处理的。浏览器能做什么,它就能做什么。

 

导入jar包后直接用,我今天写的代码就贴在下面了。

 

注释大部分都是一点点敲的,从创建到使用,等待加载、获取节点、设置参数、点击事件等等都写了。应该算是比较详细

 

 


EA PLAYER &

历史记录 [ 注意:部分数据仅限于当前浏览器 ]清空

      00:00/00:00