程式師世界 >> 編程語言 >> JAVA編程 >> 關於JAVA >> StreamTokenizer

StreamTokenizer

編輯：關於JAVA

盡管StreamTokenizer並不是從InputStream或OutputStream衍生的，但它只隨同InputStream工作，所以十分恰當地包括在庫的IO部分中。
StreamTokenizer類用於將任何InputStream分割為一系列“記號”（Token）。這些記號實際是一些斷續的文本塊，中間用我們選擇的任何東西分隔。例如，我們的記號可以是單詞，中間用空白（空格）以及標點符號分隔。
下面是一個簡單的程序，用於計算各個單詞在文本文件中重復出現的次數：

//: SortedWordCount.java
// Counts words in a file, outputs
// results in sorted form.
import java.io.*;
import java.util.*;
import c08.*; // Contains StrSortVector

class Counter {
  private int i = 1;
  int read() { return i; }
  void increment() { i++; }
}

public class SortedWordCount {
  private FileInputStream file;
  private StreamTokenizer st;
  private Hashtable counts = new Hashtable();
  SortedWordCount(String filename)
    throws FileNotFoundException {
    try {
      file = new FileInputStream(filename);
      st = new StreamTokenizer(file);
      st.ordinaryChar('.');
      st.ordinaryChar('-');
    } catch(FileNotFoundException e) {
      System.out.println(
        "Could not open " + filename);
      throw e;
    }
  }
  void cleanup() {
    try {
      file.close();
    } catch(IOException e) {
      System.out.println(
        "file.close() unsuccessful");
    }
  }
  void countWords() {
    try {
      while(st.nextToken() !=
        StreamTokenizer.TT_EOF) {
        String s;
        switch(st.ttype) {
          case StreamTokenizer.TT_EOL:
            s = new String("EOL");
            break;
          case StreamTokenizer.TT_NUMBER:
            s = Double.toString(st.nval);
            break;
          case StreamTokenizer.TT_WORD:
            s = st.sval; // Already a String
            break;
          default: // single character in ttype
            s = String.valueOf((char)st.ttype);
        }
        if(counts.containsKey(s))
          ((Counter)counts.get(s)).increment();
        else
          counts.put(s, new Counter());
      }
    } catch(IOException e) {
      System.out.println(
        "st.nextToken() unsuccessful");
    }
  }
  Enumeration values() {
    return counts.elements();
  }
  Enumeration keys() { return counts.keys(); }
  Counter getCounter(String s) {
    return (Counter)counts.get(s);
  }
  Enumeration sortedKeys() {
    Enumeration e = counts.keys();
    StrSortVector sv = new StrSortVector();
    while(e.hasMoreElements())
      sv.addElement((String)e.nextElement());
    // This call forces a sort:
    return sv.elements();
  }
  public static void main(String[] args) {
    try {
      SortedWordCount wc =
        new SortedWordCount(args[0]);
      wc.countWords();
      Enumeration keys = wc.sortedKeys();
      while(keys.hasMoreElements()) {
        String key = (String)keys.nextElement();
        System.out.println(key + ": "
                 + wc.getCounter(key).read());
      }
      wc.cleanup();
    } catch(Exception e) {
      e.printStackTrace();
    }
  }
} ///:~

最好將結果按排序格式輸出，但由於Java 1.0和Java 1.1都沒有提供任何排序方法，所以必須由自己動手。這個目標可用一個StrSortVector方便地達成（創建於第8章，屬於那一章創建的軟件包的一部分。記住本書所有子目錄的起始目錄都必須位於類路徑中，否則程序將不能正確地編譯）。
為打開文件，使用了一個FileInputStream。而且為了將文件轉換成單詞，從FileInputStream中創建了一個StreamTokenizer。在StreamTokenizer中，存在一個默認的分隔符列表，我們可用一系列方法加入更多的分隔符。在這裡，我們用ordinaryChar()指出“該字符沒有特別重要的意義”，所以解析器不會把它當作自己創建的任何單詞的一部分。例如，st.ordinaryChar('.')表示小數點不會成為解析出來的單詞的一部分。在與Java配套提供的聯機文檔中，可以找到更多的相關信息。
在countWords()中，每次從數據流中取出一個記號，而ttype信息的作用是判斷對每個記號采取什麼操作——因為記號可能代表一個行尾、一個數字、一個字串或者一個字符。
找到一個記號後，會查詢Hashtable counts，核實其中是否已經以“鍵”（Key）的形式包含了一個記號。若答案是肯定的，對應的Counter（計數器）對象就會增值，指出已找到該單詞的另一個實例。若答案為否，則新建一個Counter——因為Counter構建器會將它的值初始化為1，正是我們計算單詞數量時的要求。
SortedWordCount並不屬於Hashtable（散列表）的一種類型，所以它不會繼承。它執行的一種特定類型的操作，所以盡管keys()和values()方法都必須重新揭示出來，但仍不表示應使用那個繼承，因為大量Hashtable方法在這裡都是不適當的。除此以外，對於另一些方法來說（比如getCounter()——用於獲得一個特定字串的計數器；又如sortedKeys()——用於產生一個枚舉），它們最終都改變了SortedWordCount接口的形式。
在main()內，我們用SortedWordCount打開和計算文件中的單詞數量——總共只用了兩行代碼。隨後，我們為一個排好序的鍵（單詞）列表提取出一個枚舉。並用它獲得每個鍵以及相關的Count（計數）。注意必須調用cleanup()，否則文件不能正常關閉。
采用了StreamTokenizer的第二個例子將在第17章提供。