CSS 初探

Python SELF TW
等級 30 , 課堂 0
開放

1. 網頁爬蟲的 CSS 基本概念

想要成功進行網頁爬蟲,理解網頁中 HTML 與 CSS class 的結構是個關鍵點。 理解頁面元素如何通過 CSS 被設計和結構化,可以幫助更準確地選取所需的數據並提取出來。我們來看看如何將 CSS 連結至 HTML 使用選擇器,以及 styleclassidname 屬性在爬蟲中是如何幫助處理網頁結構的。

CSS 負責網頁的樣式設計,但對於網頁爬蟲,我們可以將 CSS 視為理解結構及選取元素的工具。以下是網頁爬蟲中一些重要的 CSS 概念:

  • 選擇器 —— 指向特定 HTML 元素的規則。使用選擇器可以更精確地識別所需數據。
  • 屬性 class, id, 和 name —— 它們是用於區分及辨別元素的唯一標識。對於爬蟲來說,它們特別有用,能幫助我們 isolating 特定元素,從而簡化數據提取。

2. 將 CSS 連結到 HTML 文件

CSS 可以用多種方式連結到 HTML。理解這些方法有助於解析元素、確認它們的樣式以及 class,這會幫助我們 isolating 目標數據。

外部文件

CSS 通常作為外部文件連結到 HTML,可以在 HTML 文件的 <head> 部分通過 <link> 標籤看到。外部 CSS 文件定義了整個頁面的樣式,包括 ID 和 class,這能幫助爬蟲更好地導航。

HTML

<head>
    <link rel="stylesheet" href="styles.css">
</head>
    

內部樣式

有時樣式可在頁面內部定義,通過 <style> 標籤。內部樣式可以在頁面的 <head> 部分找到,並用於理解 class 和 ID,這些可以幫助選取目標元素。

HTML

<head>
<style>
  .price {
    color: red;
  }
</style>
</head>

內嵌樣式(屬性 style

內嵌樣式直接位於 HTML 標籤中,僅影響當前元素。屬性 style 也經常包含一些獨特屬性,這在識別目標數據時非常有用。

HTML

<p style="color: red; font-size: 18px;">內嵌樣式文本</p>
HTML

<p style="color: red; font-size: 18px;">內嵌樣式文本</p>

3. CSS 的選擇器

CSS 內的選擇器是對元素應用樣式的工具,但對於網頁爬蟲來說,它的主要用途是 精確選取包含所需數據的元素。以下是幾種常見的選擇器類型,適用於網頁爬蟲。

基本選擇器類型

標籤選擇器: 此選擇器選取所有指定標籤名稱的元素(例如 <p><div>)。在網頁爬蟲中,標籤選擇器可用於提取具有文本、圖片等信息的標籤內容。

CSS

p {
  color: blue;
}
    

class 選擇器: 此選擇器用於選取具有特定 class 屬性值的元素。class 是以點號 (.) 作為前綴。在網頁爬蟲中,class 特別有用,有助於識別具有相同樣式的元素,例如商品列表。

CSS
      
        .price {
            color: red;
          }
      
    
CSS
      
        .price {
            color: red;
          }
      
    
HTML
      
        <p class="price">價格: $99</p>
      
    

ID 選擇器: 此選擇器選取擁有唯一 id 屬性的元素,以井號符號 # 為前綴。在網頁爬蟲中,id 很有用於選取唯一元素,例如頁面上的標題或按鈕。

... (其餘部分保持類似格式和結構進行翻譯) ...
留言
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION