程式師世界 >> 編程語言 >> JAVA編程 >> 關於JAVA >> Java爬蟲抓取視頻網站下載鏈接

Java爬蟲抓取視頻網站下載鏈接

編輯：關於JAVA

Java爬蟲抓取視頻網站下載鏈接。本站提示廣大學習愛好者：（Java爬蟲抓取視頻網站下載鏈接）文章只能為提供參考，不一定能成為您想要的結果。以下是Java爬蟲抓取視頻網站下載鏈接正文

本篇文章抓取目的網站的鏈接的基本上，進一步進步難度，抓取目的頁面上我們所須要的內容並保留在數據庫中。這裡的測試案例選用了一個我經常使用的片子下載網站（http://www.80s.la/）。原來是想抓取網站上的一切片子的下載鏈接，後來感到須要的時光太長，是以改成了抓取2015年片子的下載鏈接。

一道理簡介

其實道理都跟第一篇文章差不多，分歧的是鑒於這個網站的分類列表其實太多，假如纰謬這些標簽加以棄取的話，須要消費的時光不可思議。

分類鏈接和標簽鏈接都不要，欠亨過這些鏈接去爬取其他頁面，只經由過程頁底的一切類型片子的分頁去獲得其他頁面的片子列表便可。同時，關於片子概況頁面，僅僅只是抓取個中的片子題目和迅雷下載鏈接，其實不停止深條理的匍匐，概況頁面的一些推舉片子等鏈接統統不要。

最初就是將一切獲得到的片子的下載鏈接保留在videoLinkMap這個聚集中，經由過程遍歷這個聚集將數據保留到MySQL裡

二代碼完成

完成道理曾經在下面說了，而且代碼中有具體正文，是以這裡就不多說了，代碼以下：

package action;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.util.LinkedHashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
 
public class VideoLinkGrab {
 
  public static void main(String[] args) {
    VideoLinkGrab videoLinkGrab = new VideoLinkGrab();
    videoLinkGrab.saveData("http://www.80s.la/movie/list/-2015----p");
  }
 
  /**
   * 將獲得到的數據保留在數據庫中
   * 
   * @param baseUrl
   *      爬蟲終點
   * @return null
   * */
  public void saveData(String baseUrl) {
    Map<String, Boolean> oldMap = new LinkedHashMap<String, Boolean>(); // 存儲鏈接-能否被遍歷
 
    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 視頻下載鏈接
    String oldLinkHost = ""; // host
 
    Pattern p = Pattern.compile("(https?://)?[^/\\s]*"); // 好比：http://www.zifangsky.cn
    Matcher m = p.matcher(baseUrl);
    if (m.find()) {
      oldLinkHost = m.group();
    }
 
    oldMap.put(baseUrl, false);
    videoLinkMap = crawlLinks(oldLinkHost, oldMap);
    // 遍歷，然後將數據保留在數據庫中
    try {
      Connection connection = JDBCDemo.getConnection();
      for (Map.Entry<String, String> mapping : videoLinkMap.entrySet()) {
        PreparedStatement pStatement = connection
            .prepareStatement("insert into movie(MovieName,MovieLink) values(?,?)");
        pStatement.setString(1, mapping.getKey());
        pStatement.setString(2, mapping.getValue());
        pStatement.executeUpdate();
        pStatement.close();
//       System.out.println(mapping.getKey() + " : " + mapping.getValue());
      }
      connection.close();
    } catch (SQLException e) {
      e.printStackTrace();
    }
  }
 
  /**
   * 抓取一個網站一切可以抓取的網頁鏈接，在思緒上應用了廣度優先算法 對未遍歷過的新鏈接赓續提議GET要求， 一向到遍歷完全個聚集都沒能發明新的鏈接
   * 則表現不克不及發明新的鏈接了，義務停止
   * 
   * 對一個鏈接提議要求時，對該網頁用正則查找我們所須要的視頻鏈接，找到後存入聚集videoLinkMap
   * 
   * @param oldLinkHost
   *      域名，如：http://www.zifangsky.cn
   * @param oldMap
   *      待遍歷的鏈接聚集
   * 
   * @return 前往一切抓取到的視頻下載鏈接聚集
   * */
  private Map<String, String> crawlLinks(String oldLinkHost,
      Map<String, Boolean> oldMap) {
    Map<String, Boolean> newMap = new LinkedHashMap<String, Boolean>(); // 每次輪回獲得到的新鏈接
    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 視頻下載鏈接
    String oldLink = "";
 
    for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) {
      // System.out.println("link:" + mapping.getKey() + "--------check:"
      // + mapping.getValue());
      // 假如沒有被遍歷過
      if (!mapping.getValue()) {
        oldLink = mapping.getKey();
        // 提議GET要求
        try {
          URL url = new URL(oldLink);
          HttpURLConnection connection = (HttpURLConnection) url
              .openConnection();
          connection.setRequestMethod("GET");
          connection.setConnectTimeout(2500);
          connection.setReadTimeout(2500);
 
          if (connection.getResponseCode() == 200) {
            InputStream inputStream = connection.getInputStream();
            BufferedReader reader = new BufferedReader(
                new InputStreamReader(inputStream, "UTF-8"));
            String line = "";
            Pattern pattern = null;
            Matcher matcher = null;
            //片子概況頁面，掏出個中的視頻下載鏈接，不持續深刻抓取其他頁面
            if(isMoviePage(oldLink)){
              boolean checkTitle = false;
              String title = "";
              while ((line = reader.readLine()) != null) {
                //掏出頁面中的視頻題目
                if(!checkTitle){
                  pattern = Pattern.compile("([^\\s]+).*?</title>");
                  matcher = pattern.matcher(line);
                  if(matcher.find()){
                    title = matcher.group(1);
                    checkTitle = true;
                    continue;
                  }
                }
                // 掏出頁面中的視頻下載鏈接
                pattern = Pattern
                    .compile("(thunder:[^\"]+).*thunder[rR]es[tT]itle=\"[^\"]*\"");
                matcher = pattern.matcher(line);
                if (matcher.find()) {
                  videoLinkMap.put(title,matcher.group(1));
                  System.out.println("視頻稱號： "
                      + title + " ------ 視頻鏈接："
                      + matcher.group(1));
                  break; //以後頁面曾經檢測終了
                }
              } 
            }
            //片子列表頁面
            else if(checkUrl(oldLink)){
              while ((line = reader.readLine()) != null) {
 
                pattern = Pattern
                    .compile("<a href=\"([^\"\\s]*)\"");
                matcher = pattern.matcher(line);
                while (matcher.find()) {
                  String newLink = matcher.group(1).trim(); // 鏈接
                  // 斷定獲得到的鏈接能否以http開首
                  if (!newLink.startsWith("http")) {
                    if (newLink.startsWith("/"))
                      newLink = oldLinkHost + newLink;
                    else
                      newLink = oldLinkHost + "/" + newLink;
                  }
                  // 去除鏈接末尾的 /
                  if (newLink.endsWith("/"))
                    newLink = newLink.substring(0,
                        newLink.length() - 1);
                  // 去重，而且拋棄其他網站的鏈接
                  if (!oldMap.containsKey(newLink)
                      && !newMap.containsKey(newLink)
                      && (checkUrl(newLink) || isMoviePage(newLink))) {
                    System.out.println("temp: " + newLink);
                    newMap.put(newLink, false);
                  }
                }
              }
            }
 
            reader.close();
            inputStream.close();
          }
          connection.disconnect();
        } catch (MalformedURLException e) {
          e.printStackTrace();
        } catch (IOException e) {
          e.printStackTrace();
        }
 
        try {
          Thread.sleep(1000);
        } catch (InterruptedException e) {
          e.printStackTrace();
        }
        oldMap.replace(oldLink, false, true);
      }
    }
    // 有新鏈接，持續遍歷
    if (!newMap.isEmpty()) {
      oldMap.putAll(newMap);
      videoLinkMap.putAll(crawlLinks(oldLinkHost, oldMap)); // 因為Map的特征，不會招致湧現反復的鍵值對
    }
    return videoLinkMap;
  }
   
  /**
   * 斷定能否是2015年的片子列表頁面
   * @param url 待檢討URL
   * @return 狀況
   * */
  public boolean checkUrl(String url){
    Pattern pattern = Pattern.compile("http://www.80s.la/movie/list/-2015----p\\d*");
    Matcher matcher = pattern.matcher(url);
    if(matcher.find())
      return true; //2015年的列表
    else
      return false;
  }
   
  /**
   * 斷定頁面能否是片子概況頁面
   * @param url 頁面鏈接
   * @return 狀況
   * */
  public boolean isMoviePage(String url){
    Pattern pattern = Pattern.compile("http://www.80s.la/movie/\\d+");
    Matcher matcher = pattern.matcher(url);
    if(matcher.find())
      return true; //片子頁面
    else 
      return false;
  }
   
}

注：假如想要完成抓取其他網站的一些指定內容的話，須要將個中的一些正則表達式依據現實情形停止公道修正

三測試後果

以上就是本文的全體內容，願望對年夜家的進修有所贊助，也願望年夜家多多支撐。