程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> JSP編程 >> 關於JSP >> Java 獲取URL的內容

Java 獲取URL的內容

編輯:關於JSP
Java獲取URL內容的,我這裡只給出GET方式的,POST和其它方式的都是比較類似的。其技術要點就一下三點。
第一:創建HttpURLConnection
第二:打開URL,創建一個InputStream
第三:逐行(逐字節)讀取,如果需要,轉換編碼,放入字符串。
好,一下就開始代碼吧:
復制代碼 代碼如下:
public String getUrlContent(String path){
String rtn = "";
int c;
try{
java.net.URL l_url = new java.net.URL(path);
java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
l_connection.setRequestProperty("User-agent","Mozilla/4.0");
l_connection.connect();
InputStream l_urlStream = l_connection.getInputStream();
while (( ( c= l_urlStream.read() )!=-1)){
int all=l_urlStream.available();
byte[] b =new byte[all];
l_urlStream.read(b);
rtn+= new String(b, "UTF-8");
}
//Thread.sleep(2000);
l_urlStream.close();
}catch(Exception e){
e.printStackTrace();
}
return rtn;
}

其中
l_connection.setRequestProperty("User-agent","Mozilla/4.0");
這句是必須的,很多服務器對於沒有User-agent頭的請求直接403了就。
然後采用InputStream.available()來一次性讀取,返回此輸入流方法的下一個調用方可以不受阻塞地從此輸入流讀取(或跳過)的字節數,如果需要的話,可以在後面稍微Sleep一下線程:
Thread.sleep(2000);
其中的
復制代碼 代碼如下:
while (( ( c= l_urlStream.read() )!=-1)){
int all=l_urlStream.available();
byte[] b =new byte[all];
l_urlStream.read(b);
rtn+= new String(b, "UTF-8");
}

是個很重要的讀取過程,c表示讀取流的標注,當結束的時候是-1,然後all是本次循環可用的最大字節數目,然後讀取全部可用字節到byte[] b中,然後轉換成UTF-8類型的字符串,注意,這裡可以自己寫方式,如果讀取GB2312,就要寫GB2312,至於有沒有萬能的,可以獲取Meta,匹配下。自己想辦法吧。
  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved