程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> MYSQL數據庫 >> MySQL綜合教程 >> MySQL筆記之體系信息函數詳解

MySQL筆記之體系信息函數詳解

編輯:MySQL綜合教程

MySQL筆記之體系信息函數詳解。本站提示廣大學習愛好者:(MySQL筆記之體系信息函數詳解)文章只能為提供參考,不一定能成為您想要的結果。以下是MySQL筆記之體系信息函數詳解正文


1、收集爬蟲的界說

收集爬蟲,即Web Spider,是一個很抽象的名字。
把互聯網比方成一個蜘蛛網,那末Spider就是在網上爬來爬去的蜘蛛。
收集蜘蛛是經由過程網頁的鏈接地址來尋覓網頁的。
從網站某一個頁面(平日是首頁)開端,讀取網頁的內容,找到在網頁中的其它鏈接地址,
然後經由過程這些鏈接地址尋覓下一個網頁,如許一向輪回下去,直到把這個網站一切的網頁都抓取完為止。
假如把全部互聯網當做一個網站,那末收集蜘蛛便可以用這個道理把互聯網上一切的網頁都抓取上去。
如許看來,收集爬蟲就是一個匍匐法式,一個抓取網頁的法式。
收集爬蟲的根本操作是抓取網頁。
那末若何能力為所欲為地取得本身想要的頁面?
我們先從URL開端。

2、閱讀網頁的進程

抓取網頁的進程其實和讀者日常平凡應用IE閱讀器閱讀網頁的事理是一樣的。
好比說你在閱讀器的地址欄中輸出    www.百度.com    這個地址。
翻開網頁的進程其實就是閱讀器作為一個閱讀的“客戶端”,向辦事器端發送了 一次要求,把辦事器真個文件“抓”到當地,再停止說明、展示。
HTML是一種標志說話,用標簽標志內容並加以解析和辨別。
閱讀器的功效是將獲得到的HTML代碼停止解析,然後將原始的代碼改變成我們直接看到的網站頁面。

3、URI和URL的概念和舉例

簡略的來說,URL就是在閱讀器端輸出的    http://www.百度.com    這個字符串。
在懂得URL之前,起首要懂得URI的概念。
甚麼是URI?
Web上每種可用的資本,如 HTML文檔、圖象、視頻片斷、法式等都由一個通用資本標記符(Universal Resource Identifier, URI)停止定位。
URI平日由三部門構成:
①拜訪資本的定名機制;
②寄存資本的主機名;
③資本本身 的稱號,由途徑表現。
以下面的URI:
http://www.why.com.cn/myhtml/html1223/
我們可以如許說明它:
①這是一個可以經由過程HTTP協定拜訪的資本,
②位於主機 www.webmonkey.com.cn上,
③經由過程途徑“/html/html40”拜訪。

4、URL的懂得和舉例

URL是URI的一個子集。它是Uniform Resource Locator的縮寫,譯為“同一資本定位 符”。
淺顯地說,URL是Internet上描寫信息資本的字符串,重要用在各類WWW客戶法式和辦事器法式上。
采取URL可以用一種同一的格局來描寫各類信息資本,包含文件、辦事器的地址和目次等。
URL的普通格局為(帶方括號[]的為可選項):
protocol :// hostname[:port] / path / [;parameters][?query]#fragment

URL的格局由三部門構成:
①第一部門是協定(或稱為辦事方法)。
②第二部門是存有該資本的主機IP地址(有時也包含端標語)。
③第三部門是主機資本的詳細地址,如目次和文件名等。
第一部門和第二部門用“://”符號離隔,
第二部門和第三部門用“/”符號離隔。
第一部門和第二部門是弗成缺乏的,第三部門有時可以省略。

5、URL和URI簡略比擬

URI屬於URL更低條理的籠統,一種字符串文本尺度。
換句話說,URI屬於父類,而URL屬於URI的子類。URL是URI的一個子集。
URI的界說是:同一資本標識符;
URL的界說是:同一資本定位符。
兩者的差別在於,URI表現要求辦事器的途徑,界說這麼一個資本。
而URL同時解釋要若何拜訪這個資本(http://)。

上面來看看兩個URL的小例子。

1.HTTP協定的URL示例:
應用超等文本傳輸協定HTTP,供給超等文本信息辦事的資本。
例:http://www.peopledaily.com.cn/channel/welcome.htm
其盤算機域名為www.peopledaily.com.cn。
超等文本文件(文件類型為.html)是在目次 /channel下的welcome.htm。
這是中國國民日報的一台盤算機。
例:http://www.rol.cn.net/talk/talk1.htm
其盤算機域名為www.rol.cn.net。
超等文本文件(文件類型為.html)是在目次/talk下的talk1.htm。
這是瑞得聊天室的地址,可由此進入瑞得聊天室的第1室。

2.文件的URL
用URL表現文件時,辦事器方法用file表現,前面要有主機IP地址、文件的存取路 徑(即目次)和文件名等信息。
有時可以省略目次和文件名,但“/”符號不克不及省略。
例:file://ftp.yoyodyne.com/pub/files/foobar.txt
下面這個URL代表寄存在主機ftp.yoyodyne.com上的pub/files/目次下的一個文件,文件名是foobar.txt。
例:file://ftp.yoyodyne.com/pub
代表主機ftp.yoyodyne.com上的目次/pub。
例:file://ftp.yoyodyne.com/
代表主機ftp.yoyodyne.com的根目次。

爬蟲最重要的處置對象就是URL,它依據URL地址獲得所須要的文件內容,然後對它 停止進一步的處置。
是以,精確地輿解URL對懂得收集爬蟲相當主要。

好了,基本常識就先引見到這裡,接上去我們來停止點現實的爬蟲操作

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved