How to split a file which is delimited by bullet points
我正在尝试拆分一个包含多个段落的大文件,每个段落的长度都是可变的,唯一的分隔符是下一段落的项目符号点…
有没有办法让每个段落都有几个不同的文件?最后一件事是将每个单独的段落写入一个mysql数据库…
实例输入:
洛雷姆·伊普索姆·多尔坐在阿米特的座位上,他是一位敬业的精英,他用自己的节奏煽动着劳勃和多洛尔·马格纳·阿利夸尔。如果是最小的鹿肉,那么诺斯特鲁德的实验室就不需要支付任何费用。
在巴黎的富家大教堂里,有一只可爱的海豚。除了西方国家以外,库皮达特没有胆怯,他是一个很勤劳的人。"
输出:每个段落在数据库中是单独的条目
以下是按项目符号点拆分文件的方法:
1 2 3 4 | new_files = open(source_file).read().split(u'\u2022') for par in new_files: open("%s.txt"%new_files.index(par),"w").write("%s"%par) LOAD DATA INFILE"%s.txt"%new_files.index(par) INTO TABLE your_DB_name.your_table; |
它连接到mysql db,读取文件并在每个项目符号点将其拆分,然后将数据插入mysql db表中。
我的代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | #Server Connection to MySQL: import MySQLdb conn = MySQLdb.connect(host="localhost", user="root", passwd="newpassword", db="db") x = conn.cursor() try: file_data = open("FILE_NAME_WITH_EXTENSION").read().split(u'\u2022') for text in file_data: print text x.execute("""INSERT INTO TABLE_NAME VALUES (%s)""",(text)) conn.commit() except: conn.rollback() conn.close() |