Python 正则匹配（re）组的应用

zhoujinyi 2021-09-07 原文

昨天刚看完re的一小部分，今天刚好有个任务需要用到正则。

需求是：一张表的text字段存了很多内容。里面包括发给用户的邮件内容，已经用户的邮箱等等。现在需要查找出发送给哪些email以及多少封邮件。需要匹配的
是 <a href=”mailto:AAA@DDD.com“>AAA@DDD.com</a>\’，把 “AAA@DDD.com”取出来。

用下面的脚本：

#!/bin/env python
# -*- encoding: utf-8 -*-
#-------------------------------------------------------------------------------
# Name:        find_email.py
# Purpose:     从文本中正则匹配数据
# Author:      zhoujy
# Created:     2012-10-29
# update:      2012-10-29
#-------------------------------------------------------------------------------
import re
import fileinput
import MySQLdb

conn = MySQLdb.connect(host=\'192.168.1.20\',user=\'zjy\',passwd=\'123456\',db=\'emd\',port=3308)
query = \'\'\'select content from  message e JOIN mesInfo m ON e.id=m.id WHERE m.infoType=1 and date_format(e.sendTime, "%y-%m")="12-09"\'\'\'
cursor= conn.cursor()
cursor.execute(query)
item = cursor.fetchall()

pat = re.compile(r\'<a href="mailto:(.*)"\')
Finddict = {}

#for line in fileinput.input():
for line in item:
    line=str(line)
    m = pat.search(line)
    if m:
#        print m.group(1)
        Finddict[m.group(1)] = Finddict.get(m.group(1),0)+1
List = sorted(Finddict.items(),key=lambda i: -i[1])
for kv in List:
    print kv[0] + \' : \' + str(kv[1])

结果：

123456@qq.com : 11
123456@126.com : 10
123456@139.com : 10
123456@yeah.net : 9
123456@cmc.edu.cn : 7
123456@sina.com : 7
123456@fudan.edu.cn : 6
.....

另一个应用：
用正则表达式将网页代码中所有<img src=”XXX”> 形式中的XXX的字符串提取出

#!/usr/bin/env python
#-*-encoding:utf8-*-
#用正则表达式将所有<img src="XXX"> 形式中的XXX的字符串提取出

import sys
import urllib2
import re

def get_html(url):
    data = urllib2.urlopen(url).read()
    pat  = re.compile(r\'<img src="(\S*)"\') #正常情况只需要写成：r\'<img src="(.*)"\' ,但有些后面会带有一些长宽等属性，所以需要去除空白字符
    imgs = pat.findall(data)
    for i in imgs:
        print i
if __name__ == \'__main__\':
    url = sys.argv[1]
    get_html(url)

效果：

zhoujy@m2:~$ python get_url.py http://www.baidu.com
http://www.baidu.com/img/bdlogo.gif
http://www.baidu.com/cache/global/img/gs.gif

知识点：

re模块，匹配对象和组。— < Python 基础教程（第2版） P191～P200 >

本文链接：https://www.cnblogs.com/zhoujinyi/archive/2012/10/29/2745004.html

Python 正则匹配（re）组的应用的更多相关文章

python 调用 powershell

python3import osfrom glob import globimport subprocess as spclass PowerShell:# from scapydef __init__(self, coding, )...

python 交集并集差集

def diff(listA, listB): # 求交集的两种方式 retA = [i for i in l […]...

Python 图像处理 OpenCV （14）：图像金字塔

前文传送门：「Python 图像处理 OpenCV （1）：入门」「Python 图像处理 OpenCV […]...

Python: 你所不知道的星号 * 用法

以下内容为本人的学习笔记，如需要转载，请声明原文链接微信公众号「englyf」https://mp.weixin.qq.com/s/FHyosiG_tegF5NRUEs7UdA本文大概 1152 个字，阅读需花 6 分钟内容不多，但也...

Hadoop+Python测试wordcount

1、将测试数据上传到HDFS目录下，这里放到根目录下：/test.txt2、在master节点中某个目录下：创建mapper、reducer以及run.shmapper.pyimport sysfor line in sys.stdi...

python脚本简化jar操作命令

本篇和大家分享的是使用python简化对jar包操作命令，封装成简短关键字或词，达到操作简便的目的。最近在回顾 […]...

python 中 pynlpir错误 Cannot Open Configure file pynlpirDataConfigure.xml 解决

在用python做分词、数据处理的时候，想调用pynlpir库，pynlpir.open()时出现错误，更新一 […]...

python

Python提供了很多优秀的第三⽅的框架和库，⽐如全栈WEB框架Django，轻量级WEB框架Flask，异步框架FastApi，以及AsyncioIO等。python设计核心思想：一切皆对象。python是函数式编程语言，同时又是...

随机推荐

算法题丨3Sum

描述 Given an array S of n integers, are there elements a […]...

图解WebGL&Three.js工作原理

WebGL背后的工作原理是什么？Three.js在背后扮演什么样的角色？本文尝试用图解的方式介绍WebGl及T […]...

oj 2026 首字母变大写

题目：输入一个英文句子，将每个单词的第一个字母改成大写字母。 Input 输入数据包含多个测试实例，每个 […]...

mysql国内镜像下载网址

http://mirrors.sohu.com/mysql/ http://mirrors.ustc.edu. […]...

.NET平台系列22：.NET Core/.NET5/.NET6 对比 .NET Framework

系列目录【已更新最新开发文章，点击查看详细】　　在我的博客《.NET平台系列2 .NET Fram […]...

phantomjs使用

PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需 […]...

Git

目录一、什么是版本控制二、版本控制分类 2.1、本地版本控制：RCS 2.2、集中版本控制 SVN CVS […]...

NGS数据的Duplication

NGS数据的Duplication 源自：http://www.biotrainee.com/thread-1 […]...

Python 正则匹配（re）组的应用

Python 正则匹配（re）组的应用的更多相关文章

随机推荐

热门专题

目录导航