关于javascript：在node.js中一次读取一行文件？

Read a file one line at a time in node.js?

我试图一次读一行大文件。我找到了一个关于Quora的问题，这个问题涉及到了这个问题，但我遗漏了一些联系，以使整个问题协调一致。

1
2
3
4
5
6
7
8
9

var Lazy=require("lazy");
new Lazy(process.stdin)
.lines
.forEach(
function(line) {
console.log(line.toString());
}
);
process.stdin.resume();

我想知道的一点是如何从一个文件而不是本示例中的stdin中一次读取一行。

我试过：

1
2
3
4
5
6

fs.open('./VeryBigFile.csv', 'r', '0666', Process);

function Process(err, fd) {
if (err) throw err;
// DO lazy read
}

但它不起作用。我知道在紧要关头，我可以回到使用PHP之类的东西，但我想弄清楚这一点。

我不认为另一个答案会起作用，因为文件比运行它的服务器有内存大得多。

相关讨论

因为node.js v0.12和node.js v4.0.0，所以有一个稳定的readline核心模块。以下是从文件中读取行的最简单方法，无需任何外部模块：

1
2
3
4
5
6
7

var lineReader = require('readline').createInterface({
input: require('fs').createReadStream('file.in')
});

lineReader.on('line', function (line) {
console.log('Line from file:', line);
});

最后一行被正确读取(从节点v0.12或更高版本开始)，即使没有最终的
。

更新：此示例已添加到节点的API官方文档中。

相关讨论

谢谢你的更新，丹！我没有测试过这个问题，但是交换了正确的答案(手指交叉)，这样来访的人可以选择最新的信息。一个4岁问题的危险！(necro问题？)
在createinterface定义中需要一个terminal:false
谢谢你的评论@glasspill如果你不能自己编辑答案，你能确认你的意思是代码应该是.createInterface({ input: require('fs').createReadStream('file.in'), terminal: false });吗？丹或我会很乐意更新-可能会有一个/*评论*/解释为什么它必须在那里。
@Glasspill：没有terminal: false，代码工作得很好。你能详细解释一下为什么它需要在那里吗？
@在某些情况下，这需要像@glasspill提到的那样使用terminal :false。我自己在运行node.js 0.12.7和node.js 4.0.0文件中的脚本时需要它，否则我会得到关于isTTY未定义的错误。readline包是专门为在终端中运行而设计的，因此在我的代码中，我需要对它进行配置，以便可以从脚本中使用它。
@丹达斯卡莱斯库，原因是一个博内斯布里格德提到的。
如何确定最后一行？通过捕获"关闭"事件：rl.on('close', cb)。
如果我只想读一行，这个方法不好，对吗？
投反对票。此方法无法正常停止处理
readline的用途与gnu readline类似，不是逐行读取文件。使用它读取文件有几个注意事项，这不是最佳实践。
@中餐：有趣。你能用更好的方法写一个答案吗？
我认为github.com/jahewson/node-by line是逐行阅读的最佳实现，但观点可能有所不同。
能同时读5行吗？
在抓取下一行之前，如何限制或至少允许函数回调？
有没有办法弄到电话号码？
@pitiongmongkolkul在顶部使用var count = 0;，在on('line')处理程序的顶部使用count++;，在on('line')处理程序的顶部使用linereader.pause()，并在准备继续时使用linereader.resume()。
@杰克试一试埃多克斯1〔14〕这对你有用吗？我还需要优雅地停止处理…
我认为NPMJS.com/package/line-by-line会做得更好
当我在jasmine测试文件中写入它们，或者当我在jasmine测试文件中包含我的模块(一行一行地读取文件)时，任何读行模块或NPM API似乎都不起作用。
我知道这很古老，但我在尝试使用readline时也问过类似的问题，但我最终还是使用了line-by-line，就在这里。
在接口定义中添加terminal:true实际上会在调用.close()后停止LineReader再读取任何行，否则它将继续读取。
假设我在console.log语句周围放了一个if语句。如果程序进入这种状态，是否有一种逐行读取的方法？

对于这样一个简单的操作，不应该依赖于第三方模块。放松点。

1
2
3
4
5
6
7
8
9
10
11
12

var fs = require('fs'),
readline = require('readline');

var rd = readline.createInterface({
input: fs.createReadStream('/path/to/file'),
output: process.stdout,
console: false
});

rd.on('line', function(line) {
console.log(line);
});

相关讨论

您不必使用open文件，而是必须创建一个ReadStream。

fs.createReadStream

然后把那条河转到Lazy。

相关讨论

有一个非常好的模块可以一行一行地读取文件，它被称为行阅读器。

用它你只需写：

1
2
3
4
5
6
7
8
9

var lineReader = require('line-reader');

lineReader.eachLine('file.txt', function(line, last) {
console.log(line);
// do whatever you want with line...
if(last){
// or check if it's the last one
}
});

如果需要更多的控制，甚至可以用"Java风格"界面重复文件：

1
2
3
4
5
6
7

lineReader.open('file.txt', function(reader) {
if (reader.hasNextLine()) {
reader.nextLine(function(line) {
console.log(line);
});
}
});

相关讨论

1
2
3
4
5

require('fs').readFileSync('file.txt', 'utf-8').split(/
?
/).forEach(function(line){
console.log(line);
})

相关讨论

老话题，但这很管用：

1
2
3
4
5
6
7
8

var rl = readline.createInterface({
input : fs.createReadStream('/path/file.txt'),
output: process.stdout,
terminal: false
})
rl.on('line',function(line){
console.log(line) //or parse line
})

简单。不需要外部模块。

相关讨论

你可以随时滚动你自己的线阅读器。我还没有将此代码段作为基准，但它正确地将传入的块流拆分为行，而不带尾部''

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

我在处理一个在日志解析过程中需要积累数据的快速日志解析脚本时就想到了这一点，我觉得尝试使用JS和node而不是使用perl或bash是很好的。

总之，我确实觉得小nodejs脚本应该是独立的，而不是依赖于第三方模块，所以在阅读完这个问题的所有答案后，每个模块都使用不同的模块来处理行解析，13个sloc本机nodejs解决方案可能会很感兴趣。

相关讨论

对于载体模块：

1
2
3
4
5
6

var carrier = require('carrier');

process.stdin.resume();
carrier.carry(process.stdin, function(line) {
console.log('got one line: ' + line);
});

相关讨论

由于节点工作中的drain/pause/resume方式(请参阅：http://elegantcode.com/2011/04/06/taking-baby-steps-with-node-js-pumping-data-between-streams/(我爱这家伙btw))，我最终在尝试处理这些行并将它们写入另一个流时使用了一行一行的懒惰读取内存泄漏。我还没有仔细观察lazy来理解原因，但是我不能暂停我的阅读流以允许在没有lazy退出的情况下进行消耗。

我编写了将大量的csv文件处理成xml文档的代码，您可以在这里看到代码：https://github.com/j03m/node-csv2xml

如果使用惰性行运行以前的修订，则会泄漏。最新的版本根本不会泄漏，您可能可以将其用作读卡器/处理器的基础。虽然我有一些定制的东西在里面。

编辑：我想我也应该注意，我的代码使用lazy很好地工作，直到我发现自己写了足够大的XML片段，这会耗尽/暂停/恢复，因为这是必要的。对于较小的块，它是好的。

相关讨论

编辑：

使用转换流。

使用BufferedReader，您可以读取行。

1
2
3
4
5
6
7
8
9
10
11

new BufferedReader ("lorem ipsum", { encoding:"utf8" })
.on ("error", function (error){
console.log ("error:" + error);
})
.on ("line", function (line){
console.log ("line:" + line);
})
.on ("end", function (){
console.log ("EOF");
})
.read ();

相关讨论

由于没有一个全面的解决方案，我很沮丧，所以我把自己的尝试(git/npm)放在一起。复制粘贴的功能列表：

交互式行处理(基于回调，不将整个文件加载到RAM中)
或者，返回数组中的所有行(详细或原始模式)
以交互方式中断流式处理，或执行类似映射/筛选器的处理
检测任何换行约定(PC/Mac/Linux)
正确的EOF/最后一行处理
多字节UTF-8字符的正确处理
按行检索字节偏移量和字节长度信息
随机访问，使用基于行或基于字节的偏移量
自动映射线偏移信息，加快随机访问速度
零依赖项
测验

美国国立卫生研究院？你决定：

自从发布了我的原始答案后，我发现split是一个非常容易使用的节点模块，用于读取文件中的行；它还接受可选参数。

1
2
3
4
5
6

var split = require('split');
fs.createReadStream(file)
.pipe(split())
.on('data', function (line) {
//each chunk now is a seperate line!
});

没有在很大的文件上测试过。如果有，请通知我们。

在大多数情况下，这应该足够：

1
2
3
4
5
6
7
8
9

const fs = require("fs")

fs.readFile('./file', 'utf-8', (err, file) => {
const lines = file.split('
')

for (let line of lines)
console.log(line)
});

相关讨论

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44

相关讨论

我想解决同样的问题，基本上Perl中的问题是：

1
2
3

while (<>) {
process_line($_);
}

我的用例只是一个独立的脚本，而不是服务器，所以同步是可以的。这是我的标准：

可以在许多项目中重用的最小同步代码。
文件大小或行数没有限制。
线条长度没有限制。
能够处理UTF-8格式的完整Unicode，包括BMP以外的字符。
能够处理*nix和windows行尾(我不需要旧式的mac)。
要包含在行中的行尾字符。
能够处理最后一行，有或没有行尾字符。
不要使用node.js发行版中未包含的任何外部库。

这是一个让我了解node.js中低级脚本类型代码并决定它作为其他脚本语言(如perl)的替代品有多可行的项目。

经过令人惊讶的努力和几个错误的启动后，这就是我想到的代码。它非常快，但比我想象的要小：(在Github上分叉)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69

它可能会被进一步清理，这是试验和错误的结果。

基于发电机的线路阅读器：https://github.com/neurosnap/gen-readlines

1
2
3
4
5
6
7
8
9
10
11
12
13
14

如果要逐行读取文件并将其写入另一个文件：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

相关讨论

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37

我也有同样的问题，并提出了上述解决方案在其他人看来是模拟的，但是是异步的，可以很快地读取大文件。

希望这有帮助

另一种解决方案是通过顺序执行器nsynjs运行逻辑。它使用node readline模块逐行读取文件，并且不使用承诺或递归，因此不会在大型文件上失败。以下是代码的外观：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

以上代码基于此示例：https://github.com/amaksr/nsynjs/blob/master/examples/node-readline/index.js

我有一个小模块，它做得很好，并被许多其他项目使用NPM readline注意到，在节点v10中有一个本地readline模块，所以我将我的模块重新发布为linebyline https://www.npmjs.com/package/linebyline

如果不想使用模块，功能非常简单：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47

我将日常生产线处理的整个逻辑包装为一个NPM模块：生产线套件。https://www.npmjs.com/package/line-kit网站

1
2
3
4
5

// example
var count = 0
require('line-kit')(require('fs').createReadStream('/etc/issue'),
(line) => { count++; },
() => {console.log(`seen ${count} lines`)})

我用这个：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

在流上使用此函数并侦听将发出的行事件。

GR-

正如上面的答案所建议的，虽然您可能应该使用readline模块，但readline似乎是面向命令行接口，而不是面向行读取。在缓冲方面也有点不透明。(任何需要面向流媒体的阅读器的人都可能希望调整缓冲区大小)。readline模块是~1000行，而这个包含统计和测试的模块是34行。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34

这里有一个更短的版本，没有统计数据，有19行：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

class LineReader extends require('events').EventEmitter{
constructor(f, delim='
'){
super();
this.leftover = '';
f.on('data', (chunk)=>{
let lines = chunk.split(delim);
if (lines.length === 1){
this.leftover += chunk;
return;
}
lines[0] = this.leftover + lines[0];
this.leftover = lines[lines.length-1];
if (this.leftover)
lines.pop();
for (let l of lines)
this.emit('line', l);
});
}
}

1
2
3
4
5
6
7
8
9
10
11
12

const fs = require("fs")

fs.readFile('./file', 'utf-8', (err, data) => {
var innerContent;
console.log("Asynchronous read:" + data.toString());
const lines = data.toString().split('
')
for (let line of lines)
innerContent += line + '';

});

相关讨论

我用下面的代码对读取行进行验证，确认它不是一个目录，它不包含在文件列表中，不需要检查。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41

我已经看了以上所有的答案，所有的答案都是使用第三方库来解决的。它在节点的API中有一个简单的解决方案。例如

1
2
3
4
5
6
7

const fs= require('fs')

let stream = fs.createReadStream('<filename>', { autoClose: true })

stream.on('data', chunk => {
let row = chunk.toString('ascii')
}))