程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> JAVA編程 >> JAVA綜合教程 >> Java高效讀取大文件,Java讀取文件

Java高效讀取大文件,Java讀取文件

編輯:JAVA綜合教程

Java高效讀取大文件,Java讀取文件


1、概述

本教程將演示如何用Java高效地讀取大文件。這篇文章是Baeldung ( http://www.baeldung.com/ ) 上“Java——回歸基礎” 系列教程的一部分。

2、在內存中讀取

讀取文件行的標准方式是在內存中讀取,Guava 和Apache Commons IO都提供了如下所示快速讀取文件行的方法:

Files.readLines(new File(path), Charsets.UTF_8);

FileUtils.readLines(new File(path));

這種方法帶來的問題是文件的所有行都被存放在內存中,當文件足夠大時很快就會導致程序拋出OutOfMemoryError 異常。

例如:讀取一個大約1G的文件:

@Test
public void givenUsingGuava_whenIteratingAFile_thenWorks() throws IOException {
    String path = ...
    Files.readLines(new File(path), Charsets.UTF_8);
}

這種方式開始時只占用很少的內存: (大約消耗了 0Mb內存 )

[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Total Memory: 128 Mb
[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Free Memory: 116 Mb

然而, 當文件全部讀到內存中後 ,我們最後可以看到 (大約消耗了2GB內存) :

[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Total Memory: 2666 Mb
[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Free Memory: 490 Mb

這意味這一過程大約耗費了2.1GB的內存——原因很簡單:現在文件的所有行都被存儲在內存中下載地址】   。

把文件所有的內容都放在內存中很快會耗盡可用內存——不論實際可用內存有多大,這點是顯而易見的。

此外, 我們通常不需要把文件的所有行一次性地放入內存中 ——相反,我們只需要遍歷文件的每一行,然後做相應的處理,處理完之後把它扔掉。所以,這正是我們將要做的——通過行迭代,而不是把所有行都放在內存中。

3、文件流

現在讓我們看下這種解決方案——我們將使用java.util.Scanner類掃描文件的內容,一行一行連續地讀取:

FileInputStream inputStream = null;
Scanner sc = null;
try {
  inputStream = new FileInputStream(path);
  sc = new Scanner(inputStream, "UTF-8");
  while (sc.hasNextLine()) {
    String line = sc.nextLine();
    // System.out.println(line);
  }
  // note that Scanner suppresses exceptions
  if (sc.ioException() != null) {
    throw sc.ioException();
  }
} finally {
  if (inputStream != null) {
    inputStream.close();
  }
  if (sc != null) {
    sc.close();
  }
}

這種方案將會遍歷文件中的所有行——允許對每一行進行處理,而不保持對它的引用。總之 沒有把它們存放在內存中 : (大約消耗了150MB內存)

[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Total Memory: 763 Mb
[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Free Memory: 605 Mb

4、Apache Commons IO流

同樣也可以使用Commons IO庫實現,利用該庫提供的自定義LineIterator下載地址 :

LineIterator it = FileUtils.lineIterator(theFile, "UTF-8");
try {
    while (it.hasNext()) {
        String line = it.nextLine();
        // do something with line
    }
} finally {
    LineIterator.closeQuietly(it);
}

由於整個文件不是全部存放在內存中,這也就導致相當保守的內存消耗: (大約消耗了 150MB 內存)

[main] INFO  o.b.java.CoreJavaIoIntegrationTest - Total Memory: 752 Mb
[main] INFO  o.b.java.CoreJavaIoIntegrationTest - Free Memory: 564 Mb

5、結論

這篇短文介紹了如何 在不重復讀取與不耗盡內存的情況下處理大文件 ——這為大文件的處理提供了一個有用的解決辦法。

所有這些例子的實現和代碼片段都可以在我的 github項目 上獲取到——這是一個基於 Eclipse 的項目,所以它應該很容易被導入和運行。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved