关于python:如何拆分由项目符号分隔的文件

How to split a file which is delimited by bullet points

我正在尝试拆分一个包含多个段落的大文件,每个段落的长度都是可变的,唯一的分隔符是下一段落的项目符号点…

有没有办法让每个段落都有几个不同的文件?最后一件事是将每个单独的段落写入一个mysql数据库…

实例输入:

  • 洛雷姆·伊普索姆·多尔坐在阿米特的座位上,他是一位敬业的精英,他用自己的节奏煽动着劳勃和多洛尔·马格纳·阿利夸尔。如果是最小的鹿肉,那么诺斯特鲁德的实验室就不需要支付任何费用。

  • 在巴黎的富家大教堂里,有一只可爱的海豚。除了西方国家以外,库皮达特没有胆怯,他是一个很勤劳的人。"

输出:每个段落在数据库中是单独的条目


以下是按项目符号点拆分文件的方法:

1
2
3
4
new_files = open(source_file).read().split(u'\u2022')
for par in new_files:
  open("%s.txt"%new_files.index(par),"w").write("%s"%par)
  LOAD DATA INFILE"%s.txt"%new_files.index(par) INTO TABLE your_DB_name.your_table;


它连接到mysql db,读取文件并在每个项目符号点将其拆分,然后将数据插入mysql db表中。

我的代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
#Server Connection to MySQL:

import MySQLdb
conn = MySQLdb.connect(host="localhost",
              user="root",
              passwd="newpassword",
              db="db")
x = conn.cursor()

try:
    file_data = open("FILE_NAME_WITH_EXTENSION").read().split(u'\u2022')
    for text in file_data:
        print text
        x.execute("""INSERT INTO TABLE_NAME VALUES (%s)""",(text))
        conn.commit()
except:
    conn.rollback()

conn.close()