关于正则表达式:Python中的电子邮件文本提取

Text extraction from email in Python

我的用户会通过电子邮件向我发送帖子。

我正在使用谷歌应用引擎(GAE)接收和解析电子邮件。GAE返回消息的文本部分。

我需要从邮件的纯文本部分提取邮件。

纯文本可能会被促销标题、页脚、签名等"污染"。

另外,我想删掉"请发这个:"或类似的一些人坦诚地包括。

你将如何做到这一点?

有什么工具(比regex简单)我可以使用吗?

更新

实例:

(在所有这些例子中,帖子是"lorem ipsum sit amet…"

使=

洛雷姆·伊普索姆·多尔坐在阿米特的座位上,他是一位非常优秀的运动员,他是一位非常出色的速度运动员,他在拉伯和多洛尔·马格纳·阿利夸尔的比赛中发挥了重要作用。如果是最小的鹿肉,那么诺斯特鲁德的实验室就不需要支付任何费用。在巴黎的富家大教堂里,有一只可爱的海豚。

维克托维克多[email protected]访问我的博客:www.example.com/victor

使=

你好,我喜欢你的页面。请包括:Lorem Ipsum Dolor Sit Amet,Concettetur Adipiscing Elite,Sed do Eiusmod Tempor Incidudent ut Labore et Dolore Magna Aliqua.如果是最小的鹿肉,那么诺斯特鲁德的实验室就不需要支付任何费用。在巴黎的富家大教堂里,有一只可爱的海豚。

使=

洛雷姆·伊普索姆·多尔坐在阿米特的座位上,他是一位非常优秀的运动员,他是一位非常出色的速度运动员,他在拉伯和多洛尔·马格纳·阿利夸尔的比赛中发挥了重要作用。

如果是最小的鹿肉,那么诺斯特鲁德的实验室就不需要支付任何费用。

在巴黎的富家大教堂里,有一只可爱的海豚。

使=

如果你能找到更多关于电子邮件的例子,请随时将它们加入到帖子中。


我会列出一系列已编译的正则表达式。沿着这条线的东西:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import re

regexes = (
    re.compile("visit my blog at: .*$", re.IGNORECASE),
    re.compile("please post this:", re.IGNORECASE),
    re.compile("please can you include this:", re.IGNORECASE)
    # etc
)

for filePath in files:
    with open(filePath) as file:
        for line in file:
            for regex in regexes:
                print(re.sub(regex,""))