使用Java 8的Stream API列出ZIP檔案中的條目

ImportNew - xiafei發表於2015-03-25

Java 8中的java.util.zip.ZipFile包中提供了stream方法,能夠非常容易的獲取ZIP壓縮包中的條目。在這篇文章中,我會通過一系列的示例來展示我們可以非常快速的遍歷ZIP檔案中的條目。

注意:為了在這篇部落格中做演示,我從GitHub上以ZIP檔案的形式下載了我的一個專案,放在了c:/tmp目錄下。

Java7之前的做法

在Java7之前,讀取一個ZIP檔案中的條目的做法,恩……需要一點點小技巧。當你看到下面的程式碼的時候,大概就會開始有點討厭Java了。

public class Zipper {
    public void printEntries(PrintStream stream, String zip)  {
        ZipFile zipFile = null;
        try {
            zipFile = new ZipFile(zip);
            Enumeration<? extends ZipEntry> entries = zipFile.entries();
            while (entries.hasMoreElements()) {
                ZipEntry zipEntry = entries.nextElement();
                stream.println(zipEntry.getName());
            }
        } catch (IOException e) {
            // error while opening a ZIP file
        } finally {
            if (zipFile != null) {
                try {
                    zipFile.close();
                } catch (IOException e) {
                    // do something
                }
            }
        }
    }
}

Java 7的做法

多謝有了try-with-resources這樣新的try程式碼塊的寫法,在Java 7中的程式碼變得稍微好了一些,但我們還是被“強迫”來使用Enumeration來遍歷ZIP壓縮包中的條目:

public class Zipper {
    public void printEntries(PrintStream stream, String zip) {
        try (ZipFile zipFile = new ZipFile(zip)) {
            Enumeration<? extends ZipEntry> entries = zipFile.entries();
            while (entries.hasMoreElements()) {
                ZipEntry zipEntry = entries.nextElement();
                stream.println(zipEntry.getName());
            }
        } catch (IOException e) {
            // error while opening a ZIP file
        }
    }
}

使用Strean API

真正有意思的是從Java 8開始,Java 8提供在java.util.zip.ZipFile包中提供新的stream方法,能夠返回ZIP壓縮包中的條目的有序的流,使得Java在處理ZIP壓縮包時有了更多的選擇。前文提到的讀取壓縮包的條目的程式碼可以改寫成如下簡單的形式:

public class Zipper {
    public void printEntries(PrintStream stream, String zip) {
        try (ZipFile zipFile = new ZipFile(zip)) {
            zipFile.stream()
                    .forEach(stream::println);
        } catch (IOException e) {
            // error while opening a ZIP file
        }
    }
}

如下文所示,有了Stream API,我們有了更多更有趣的方式來處理ZIP檔案。

對ZIP壓縮包的內容進行過濾和排序

public void printEntries(PrintStream stream, String zip) {
    try (ZipFile zipFile = new ZipFile(zip)) {
        Predicate<ZipEntry> isFile = ze -> !ze.isDirectory();
        Predicate<ZipEntry> isJava = ze -> ze.getName().matches(".*java");
        Comparator<ZipEntry> bySize = 
                (ze1, ze2) -> Long.valueOf(ze2.getSize() - ze1.getSize()).intValue();
        zipFile.stream()
                .filter(isFile.and(isJava))
                .sorted(bySize)
                .forEach(ze -> print(stream, ze));
    } catch (IOException e) {
        // error while opening a ZIP file
    }
}

private void print(PrintStream stream, ZipEntry zipEntry) {
    stream.println(zipEntry.getName() + ", size = " + zipEntry.getSize());
}

在迭代ZIP壓縮包的條目時,我檢查了這個條目是否是一個檔案並且是否匹配一個給定的欄位(為了簡單,直接把匹配欄位硬編碼在程式碼中了),然後利用一個給定的比較器,對這些條目按照大小進行了排序。

為ZIP壓縮包建立檔案索引

在這個例子中,我把ZIP壓縮包中的條目按照檔名的首字母分組,建立形如Map<String, List<ZipEntry>>的索引,預想的結果應該看起來像這樣簡單:

a = [someFile/starting/with/an/A]
u = [someFile/starting/with/an/U, someOtherFile/starting/with/an/U]

同樣,使用Stream API來實現這個功能非常簡單:

public void printEntries(PrintStream stream, String zip) {
    try (ZipFile zipFile = new ZipFile(zip)) {
        Predicate<ZipEntry> isFile = ze -> !ze.isDirectory();
        Predicate<ZipEntry> isJava = ze -> ze.getName().matches(".*java");
        Comparator<ZipEntry> bySize =
            (ze1, ze2) -> Long.valueOf(ze2.getSize()).compareTo(Long.valueOf(ze1.getSize()));

        Map<String, List<ZipEntry>> result = zipFile.stream()
                .filter(isFile.and(isJava))
                .sorted(bySize)
                .collect(groupingBy(this::fileIndex));

        result.entrySet().stream().forEach(stream::println);

    } catch (IOException e) {
        // error while opening a ZIP file
    }
}

private String fileIndex(ZipEntry zipEntry) {
    Path path = Paths.get(zipEntry.getName());
    Path fileName = path.getFileName();
    return fileName.toString().substring(0, 1).toLowerCase();
}

在ZIP壓縮包的檔案中查詢欄位

在這最後一個例子中,我在壓縮包中的查詢所有以.java結尾的且包含@Test欄位的檔案,這次,我將利用BufferedReader類的lines方法來實現,這個lines方法按行返回檔案流。

public void printEntries(PrintStream stream, String zip) {

    try (ZipFile zipFile = new ZipFile(zip)) {
        Predicate<ZipEntry> isFile = ze -> !ze.isDirectory();
        Predicate<ZipEntry> isJava = ze -> ze.getName().matches(".*java");

        List<ZipEntry> result = zipFile.stream()
                .filter(isFile.and(isJava))
                .filter(ze -> containsText(zipFile, ze, "@Test"))
                .collect(Collectors.toList());

        result.forEach(stream::println);

    } catch (IOException e) {
        // error while opening a ZIP file
    }
}

private boolean containsText(ZipFile zipFile, ZipEntry zipEntry, String needle) {
    try (InputStream inputStream = zipFile.getInputStream(zipEntry);
         BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream))) {

        Optional<String> found = reader.lines()
                .filter(l -> l.contains(needle))
                .findFirst();

        return found.isPresent();

    } catch (IOException e) {
        return false;
    }
}

總結

在我看來,Stream API提供了一個強大的並且相對更容易的方案來解決遍歷ZIP壓縮包中的條目的問題。

本文中出現的例子只是用來演示說明Stream API的用法的,都是相對容易的,但我希望你能夠喜歡這些例子,並且覺得他對你有用。

相關文章