程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 更多編程語言 >> 編程綜合問答 >> java-JAVA網頁數據爬取,保存為xml

java-JAVA網頁數據爬取,保存為xml

編輯:編程綜合問答
JAVA網頁數據爬取,保存為xml

各位好,我想爬取網頁上的數據用作繪圖,但是現在只能將網頁代碼下載下來不知道該怎麼提取?用JAVA寫的。希望可以知道如何從網站上爬取數據,並保存為xml
的格式。在此謝謝圖片說明圖片說明

最佳回答:


你可以了解一下JSOUP,用這個進行網頁抓取和數據提取比較簡單的,能提取各種元素和對應的數據。
你百度一下,內容很多的。發個小例子:

 /**
     * 抓取url網址頁面鏈接上滿足後邊正則的url鏈接
     */
    public static Set<String> getHrefList(String url, String regular){

        Set<String> urlSet = new HashSet<String>();

        Document doc = null;
        try {
            doc = Jsoup.connect(url).userAgent("Mozilla").timeout(20000).get();

            Elements links = doc.getElementsByTag("a");

            String linkHref = "";
//          String linkText = "";

//          Pattern pattern = Pattern.compile("^http://blog\\.csdn\\.net/[^\\s]*/article/details/[0-9]+$");
            Pattern pattern = Pattern.compile(regular);
            Matcher matcher = null;

            for (Element link : links) {
                linkHref = link.attr("href");
//              linkText = link.text();

                matcher = pattern.matcher(linkHref);

                if(matcher.find()){
                    urlSet.add(linkHref);
                }
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
        return urlSet;
    }
  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved