程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> ASP編程 >> 關於ASP編程 >> Tsys OkHtm.com修改版數據采集方法

Tsys OkHtm.com修改版數據采集方法

編輯:關於ASP編程
采集功能

[1]分類管理

a 添加一個頻道

upload/200511/14_201951_1.jpg

b 頻道(點擊進入欄目管理)

upload/200511/14_202156_2.jpg

c 添加新欄目

upload/200511/14_202258_3.jpg


[2] 項目管理

a 添加新項目

upload/200511/14_202519_4.jpg

項目名稱: 填寫采集的項目名稱,便於自己以後管理
所屬頻道: 請選擇采集的頻道
所屬欄目: 請選擇所屬於的欄目
所屬專題: 不屬於任何專題
網站名稱: 自己用來采集的對象網站名稱
網站網址: 自己用來采集的對象的地址
網站登錄: 不需要登錄 設置參數
登錄參數: 需要登錄才能訪問的請設置登錄參數(不支持驗證碼登錄)
提交地址:點擊 登錄 按鈕後用來驗證用戶名、密碼的文件網址,如動力3.62的
是 http://www.****.com/Admin_ChkLogin.asp。
用戶(密碼)參數:查看登錄表單源碼,找到形如下面之類的代碼
用戶名:<input type="text" name="UserName" value="">
密碼:<input type="password" name="Password" value="">
用戶參數就是--第一行的name=後面的UserName
密碼參數就是--第二行的name=後面的Password
失敗信息: 用戶名或者密碼不正確時,登錄後的失敗提示信息,用於判斷登錄是否成功的一個標志,請一定要填寫,否則不能采集,比如:您輸入的用戶名或密碼不正確,請重新輸入!
項目備注:該項目的其它要記錄的信息,以後每天都要采集

b 列 表 設 置

upload/200511/14_203032_4.jpg

Quote 列表就像一本書的目錄,目錄可以有一頁,也可以有很多頁,列表也一樣。

列表索引頁面:

你要開始采集的列表頁。

列表開始/結束標記:

平面上的兩點確定一條直線,學過幾何吧?用在這裡是一樣的道理,開始/結束標記可以確定你要采集的新聞,有的這裡沒有設置好結果采集到其它新聞去了。
比如這是某一列表頁面的主要部分代碼:
<table width="98%" border="0" cellspacing="0" cellpadding="3">
<tr>
<td align="left" valign="top"><br>
<a href="News.asp?id=1" target=_blank>新聞標題</a><br>
<a href="News.asp?id=2" target=_blank>新聞標題</a><br>
....省略
<a href="News.asp?id=50" target=_blank>新聞標題</a>
</td>
</tr>
</table>
    紅色部分就是我們要的列表開始標記和結束標記,是不是把你想要的新聞夾在中間了?按照這樣的取法可以選擇好多對開始標記和結束標記,也就是說它們並不是唯一的。但是它們又是相對唯一的,這裡的唯一是指,開始標記在第一條新聞以上的代碼中唯一,結束標記在開始標記到結束標記之間的是唯一的。

列表索引分頁:

   (1)設置標簽
列表索引頁的部分代碼如下:
<td height="24" align="center" bgcolor="#F6f7f8"> 1 <A HREF="index_2.html">2</A> <A HREF="index_3.html">3</A> <A HREF="index_4.html">3</A><a href="index_2.html">下一頁</a>
<a href="index_4.html">尾頁</a> </td>
紅色部分為分頁開始/結束標記,只要這兩個代碼確定,不是不就可以確定“下一頁”了?,剩下的交給程序來處理,有的填寫:<A HREF="和">2</A>,這就錯了,怎麼錯了自己想想。

   索引分頁重定向:參考鏈接設置

(2)批量生成
   如有些列表是這種形式:
   第一頁http://www.it.com.cn/news/cyxw/yejie/index_1.html
   第二頁http://www.it.com.cn/news/cyxw/yejie/index_2.html
   第三頁http://www.it.com.cn/news/cyxw/yejie/index_3.html

   那麼可以這設置:{$ID}是必須的

   原字符串:http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html

   生成范圍:1--3

   結果程序會生成:http://www.it.com.cn/news/cyxw/yejie/index_1.html

   http://www.it.com.cn/news/cyxw/yejie/index_2.html

   http://www.it.com.cn/news/cyxw/yejie/index_3.html

   這樣的幾個列表頁面

   (3)手動添加

   輸入一頁網址後按回車再輸入另一頁,如此反復可以輸入多個網址。

(3)鏈接設置

   鏈接開始/結束標記:

   這裡沒設置好采集過程中可能會路途停止

   部分代碼

<table width="98%" border="0" cellspacing="0" cellpadding="3">
<tr>
<td align="left" valign="top"><br>
<a href="List.asp?type=IT新聞">[IT新聞]</a><a href="New.asp?id=1" target=_blank>新聞標題</a>
<a href="List.asp?type=Pc新聞">[Pc新聞]</a><a href="New.asp?id=2" target=_blank>新聞標題</a>
....省略
<a href="List.asp?type=IT新聞">[IT新聞]</a><a href="New.asp?id=50" target=_blank>新聞標題</a>
</td>
</tr>
</table>
   紅色部分為鏈接開始/結束標記,注意:如果新聞標題的前面有欄目鏈接(包括其它的鏈接,就像上面這個有IT新聞、Pc新聞一樣)的,開始標記必須往前延伸,我以前做的3.62版的錄像中開始標記是href=,這個只能用於新聞標題前面沒有欄目鏈接的情況。

   鏈接的重新定位:

   如果新聞的鏈接特殊,可使用本功能對新聞網址重新定位,比如有些代碼可能是這樣:

<a href="Javascript:window.open('1')" target=_blank>新聞標題</a><br>
<a href="Javascript:window.open('5')" target=_blank>新聞標題</a><br>
....省略
<a href="Javascript:window.open('50')" target=_blank>新聞標題</a>

   把開始/結束標記設置為紅色部分,點擊一條新聞看它的真實網頁地址,比如第一條新聞的地址是這樣,http://www.scuta.net/news.asp?id=1,那麼絕對鏈接就設置為http://www.scuta.net/news.asp?id={$ID}就成了。c 列 表 截 取 測 試

upload/200511/14_203230_4.jpg

upload/200511/14_203338_4.jpg

d 列 表 新 聞 鏈 接 測 試

upload/200511/14_203430_4.jpg

e 正 文 設 置

upload/200511/14_203509_4.jpg

f 采 樣 測 試

upload/200511/14_203605_4.jpg

g 屬 性 設 置

upload/200511/14_203651_4.jpg

設置一些采集的選項,注意

采集選項: 立即發布 保存圖片 倒序采集 外部鏈接 中 保存圖片不要勾選.

h 點"完成".采集設置完畢

[3] 數據采集

在這裡可以看到自己剛設置好的項目, 采集模式:快速模式 穩定模式 篩選模式 采集測試 正文預覽這幾種自己琢磨了,不多描述 .結果都差不多.

然後開始漫長的采集過程.服務器速度和網速有關系.

[4] 數據審核

數據審核中,有"全選" "部分選擇" "全部" 這幾種模式,點標題可以查看采集的文章(帶圖片) .也可以刪除數據

[5] 數據導出

是把數據從采集庫中導入到cms數據表中,默認的是審核完的文章才可以導出,如果導出過的話會顯示"已導出"反之亦然.

數據導出時有幾個選項需要注意:

upload/200511/14_204400_4.jpg

有三種導出模式: 部分選擇,全部選擇,整個欄目導出.但是不管那種模式都要選擇 ·請輸出的[資源類別]方向 或者[資源特性],這些是與系統中你建立的資源分類相掛勾的,選擇導出到哪個分類.

導出完畢.

資源管理-->常規資源 中可以看到你剛才采集到的文章,默認為已經審核過.

然後可以選擇生成或者編輯.
  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved