博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
获取html字符串中第一张图片的路径以及获取html字符串中的文字内容(去掉标签)...
阅读量:5153 次
发布时间:2019-06-13

本文共 955 字,大约阅读时间需要 3 分钟。

/**	 * 获取html字符串中第一张图片的路径	 * @param htmlcontent	 * @return	 */	public static String getImgFromHtml(String htmlcontent){		if(htmlcontent!=null){			String regEx_img = "
]*?>"; Pattern p_image = Pattern.compile(regEx_img,Pattern.CASE_INSENSITIVE); Matcher m_image = p_image.matcher(htmlcontent); if(m_image.find()){ String img = m_image.group(0); Matcher m = Pattern.compile("src\\s*=\\s*\"?(.*?)(\"|>|\\s+)").matcher(img); if(m.find()){ if(m.group(0)!=null){ return m.group(0).substring(5, m.group(0).length()-1); } } } } return ""; } /** * 获取html字符串中的文字内容(去掉标签) * @param htmlcontent * @return */ public static String getContentFromHtml(String htmlcontent){ if(htmlcontent!=null){ return htmlcontent.replaceAll("<\\/?.+?>", ""); } return ""; }

 

转载于:https://www.cnblogs.com/xx-ggyy/p/4156942.html

你可能感兴趣的文章
CreateUserWizard控件的详细使用说明(4)
查看>>
养动物
查看>>
批处理/DOS命令删除文件夹下某类型的文件
查看>>
模板 - 数学 - 矩阵快速幂
查看>>
优秀的持久层框架Mybatis,连接数据库快人一步
查看>>
线段树 延迟更新
查看>>
CentOS的IP配置专题
查看>>
基于WCF大型分布式系统的架构设计
查看>>
性能测试 基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据
查看>>
Cisco & H3C 交换机 DHCP 中继
查看>>
人脸识别技术及应用,二次开发了解一下
查看>>
理解CSS中的BFC(块级可视化上下文)[译]
查看>>
身份证号码的合法性校验
查看>>
Python基础--通用序列操作
查看>>
[CERC2017]Intrinsic Interval[scc+线段树优化建图]
查看>>
DevExpress DXperience Universal 11.1.6 下载+源码+编译+汉化流程+升级+替换强名
查看>>
每天一个linux命令(25):linux文件属性详解
查看>>
【XLL API 函数】xlSheetId
查看>>
架构之路(六):把框架拉出来
查看>>
Linux:Apache2.4以上配置默認路徑
查看>>