通常在新的網站做好後,會需要新增一些前期資料,不然會顯得網站就是空空的,即使有客戶訪問了也沒什麼東西可以看。除了一些業務簡介的頁面外,我們還需要新增一些比較有參考價值的文章內容。

對於使用 WordPress 建立的網站也是如此,但想要快速和批量的新增資料無非就兩種方式,要麼人工一篇文章一篇文章的釋出,要麼就使用工具進行批量的釋出內容。

人工手動的釋出資訊是比較原始和低效率的方式,但也是最簡單的,適合已經有了初始資料(內容較少)只需要複製貼上的工作型別。

但通常我們是希望文章資料越多越好,而且要能高質量可以正常閱讀,做為原創的文章資料最佳。這裡我們只討論技術和實際操作,對於採集資料是否合乎道德、版權以及偽原創什麼的性質不進行評價。

想要獲取資料通常需要以下幾個步驟:

1 、資料收集

收集資料是指的你需要為自己站點新增什麼資訊、哪些型別或哪種文章,比如你的網站是賣某個品牌的衣服,那麼你要找的就是包含此品牌資訊的一些文字和網站,並且將這些內容的連結和網址整理到一起以便下面使用。

2 、資料分類

有了第一步收集的資料後,我們就相當於有了一個小型的 “資料庫”,現在必須要對這些內容進行一下分類,比如那些只是行業或者品牌的新聞,那些有閱讀和參考價值。

分清楚這些是很重要的,因為這牽涉到我們後面處理資料的難易程度。對於一些看一眼就過了的文章可以隨便些,但高質量的內容能幫我們減輕很多實際工作中的麻煩,比如客戶售後、常見問題等。

3 、開始採集

在採集資料時要確保你已經有了至少一款常用和熟悉的採集軟體(工具),對於 WordPress 的採集工具薇曉朵會抽空整理一篇文章專門講到。採集工具的好壞會直接導致你獲取的資料質量如何。

對於獲取到的這些資料,我們稱之為原始資料,也就是未經過加工的,這些資料可能包含一些原站點(採集目標站)的廣告、關鍵詞、外鏈等。如果直接匯入這些資料到我們的新站中,毫無意義,純粹就是垃圾資料而已(當然,如果你本身就是想要做垃圾站的也無所謂)。

4 、資料處理

資料處理其實簡單點說無非就是對文字、圖片、連結、內容關鍵詞的修改和替換,刪除廣告內容和無用的文章,還有就是比如語言的轉換,簡體轉繁體,英文轉中文等等,更進一步的可以做偽原創的操作。

資料能處理到什麼程度完全取決於你個人喜好和願意花費的時間。這些都是可以通過批量處理來實現,一般來說如果原始資料有 1000 篇文章,處理完成後能有個 700~800 篇內容都還是很好的。

5 、資料匯入

匯入資料得看你究竟是什麼樣的網站程式,還是以我們使用的 WordPress 為例,我們可以通過將資料匯出為 CVS 表格或者 .XML 檔案的方式,很輕鬆的匯入到 WordPress 網站中。

如果你的採集工具本身就支援 WordPress 的話,那麼也輕鬆很多,會省下很多麻煩,比如資料格式的轉換、調整檔案字元編碼等等。

 完整的資料採集及處理流程:

光說不做並不是薇曉朵的風格,下面是我們給出的工作室去年所使用的站點資料填充採集流程。

我們在此進行公開,方便給需要的朋友一些靈感和建議。現在網際網路已經進入了大資料時代,這也是普通網站獲取大量資料的方法之一。

因為薇曉朵是使用的 WordPress 進行資料採集和後期匯入,所以這張圖很使用 WordPress 使用者,對於其他 CMS 的朋友也是具有參考價值的。

如果在具體操作過程中有什麼問題,也可以在部落格或者薇曉朵技術論壇給我們留言或提問告知。