首页_凯哥Java - java基础;spring boot学习;微服务;Java教程;Java web;kaigejava;凯哥Java

工作小总结&小工具类 Redis Maven mybatis ChatGPT uniapp zookeeper Thymeleaf语法 POI-TL sa-token PowerDesigner16.5 taos数据库 frp echarts Actor模型及Akka thingsboard 大疆无人机对接 CI/CD 教师资格证小任务面试其他职场淘宝客支付宝支付 HBuilder X Flink Java集合类多线程 ES Ribbon eureka Docker java游戏网络通信 Nacos 芋道管理系统 Solr 分布式相关 Dubbo 数据结构 EasyPOI Drools RocketMQ JS 七天深入MySQL实战营书籍 kafka spring Java基础 java web 若依(ruoyi) 分布式事务面试宝典 mysql java8新特性 spring cloud ElasticSearch学习系列 HM_leadnews 即时通讯并发思维&学习 VUE 宝塔面板算法刷题设计模式 RabbitMQ学习系列教程 P3C规范 JVM学习系列反射自定义注解网络美文 PHP源码经验分享资源 git项目 websocket 网赚数据库读写分离测试相关其他随笔 shiro学习系列 fremarker学习系列学习笔录-spring boot 网络文章工作小总结

简介问题描述：在使用jsoup爬取其他网站数据的时候，发现class是带空格的多选择，如果直接使用doc.getElementsByClass(“class的值”),这种方法获取不到想要的数据。爬取网站页面结构如下：请点击输入图片描述请点击此处输入图片描述其中文章列表的div为：

🔔🔔好消息!好消息!🔔🔔

如果您需要注册ChatGPT，想要升级ChatGPT4。凯哥可以代注册ChatGPT账号，代升级ChatGPT4

有需要的朋友👉:微信号 kaigejava2022

问题描述：

在使用jsoup爬取其他网站数据的时候，发现class是带空格的多选择，如果直接使用doc.getElementsByClass(“class的值”),这种方法获取不到想要的数据。

爬取网站页面结构如下：

其中文章列表的div为：<div class="am-cf inner_li inner_li_abtest"></div>

我们可以看到其class的值为：am-cf inner_li inner_li_abtest。带空格的。多值的。

如果我们还是用getElementsByClass()这个方法获取的话，是获取不到的。eclipse中断点如下：

可以看到获取的值的长度size=0。没有获取到数据。

经过各方搜索，发现解决方案：使用的不是getElementsByClass()方法，可以使用其他方法。

先上成功后截图：

我们可以看到数据的长度size=20了。说明获取到数据了。

下面讲解select方法使用：

Elements org.jsoup.nodes.Element.select(String cssQuery)

样式选择器。

查看源码：

我们知道这个可以多个。

在看看我们案例中使用的是：div.am-cf.inner_li.inner_li_abtest。为什么要这么写呢？

查看需要爬取文章的页面结构：