Text extraction from email in Python
我的用户会通过电子邮件向我发送帖子。
我正在使用谷歌应用引擎(GAE)接收和解析电子邮件。GAE返回消息的文本部分。
我需要从邮件的纯文本部分提取邮件。
纯文本可能会被促销标题、页脚、签名等"污染"。
另外,我想删掉"请发这个:"或类似的一些人坦诚地包括。
你将如何做到这一点?
有什么工具(比regex简单)我可以使用吗?
更新
实例:
(在所有这些例子中,帖子是"lorem ipsum sit amet…"
使=
洛雷姆·伊普索姆·多尔坐在阿米特的座位上,他是一位非常优秀的运动员,他是一位非常出色的速度运动员,他在拉伯和多洛尔·马格纳·阿利夸尔的比赛中发挥了重要作用。如果是最小的鹿肉,那么诺斯特鲁德的实验室就不需要支付任何费用。在巴黎的富家大教堂里,有一只可爱的海豚。
维克托维克多[email protected]访问我的博客:www.example.com/victor
使=
你好,我喜欢你的页面。请包括:Lorem Ipsum Dolor Sit Amet,Concettetur Adipiscing Elite,Sed do Eiusmod Tempor Incidudent ut Labore et Dolore Magna Aliqua.如果是最小的鹿肉,那么诺斯特鲁德的实验室就不需要支付任何费用。在巴黎的富家大教堂里,有一只可爱的海豚。
使=
洛雷姆·伊普索姆·多尔坐在阿米特的座位上,他是一位非常优秀的运动员,他是一位非常出色的速度运动员,他在拉伯和多洛尔·马格纳·阿利夸尔的比赛中发挥了重要作用。
如果是最小的鹿肉,那么诺斯特鲁德的实验室就不需要支付任何费用。
在巴黎的富家大教堂里,有一只可爱的海豚。
使=
如果你能找到更多关于电子邮件的例子,请随时将它们加入到帖子中。
我会列出一系列已编译的正则表达式。沿着这条线的东西:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | import re regexes = ( re.compile("visit my blog at: .*$", re.IGNORECASE), re.compile("please post this:", re.IGNORECASE), re.compile("please can you include this:", re.IGNORECASE) # etc ) for filePath in files: with open(filePath) as file: for line in file: for regex in regexes: print(re.sub(regex,"")) |