万能爬虫-爬取哔哩哔哩数据

码农世界 2024-05-18 后端 64 次浏览 0个评论

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service  
from time import sleep 
service = Service('./chromedriver.exe')
browser = webdriver.Chrome(service=service)
#变量browser是浏览器
#框架（固定格式）
'''
关键词：黑客，python，c++ 的视频名称和点赞数等信息
'''
url='https://search.bilibili.com/all?keyword=c%2B%2B&from_source=webtop_search&spm_id_from=333.1007&search_source=5'
browser.get(url) #browser.get(url) 用浏览器打开链接
browser.find_element(By.XPATH,'/html/body/div[3]/div/div[2]/div[1]/div[2]/div/nav/ul/li[2]/span/span[1]').click()
#代表查找结点
sleep(2) #暂停2s
for ix in range(1,3):
    for i in range(1,4):
        sleep(2)
        xpath=f'/html/body/div[3]/div/div[2]/div[2]/div/div/div[1]/div[{i}]/div/div[2]/div/div/a/h3'
        title=browser.find_element(By.XPATH,xpath).text
        print(title)
        browser.find_element(By.XPATH,xpath).click()
        browser.switch_to.window(
            browser.window_handles[1]
            )
        res=browser.find_element(By.XPATH,'/html/body/div[2]/div[2]/div[1]/div[3]/div[1]/div[1]/div[1]/div/span').text
        print(res)
        browser.close() #关闭当前选项卡
        browser.switch_to.window(
            browser.window_handles[0]
            )
    browser.find_element(By.XPATH,f'/html/body/div[3]/div/div[2]/div[2]/div/div/div[2]/div/div/button[{ix}]')
#/html/body/div[3]/div/div[2]/div[2]/div/div/div[2]/div/div/button[2]
#/html/body/div[3]/div/div[2]/div[2]/div/div/div[2]/div/div/button[8]
#browser.get('链接') #https://search.bilibili.com/video?keyword=c%2B%2B&from_source=webtop_search&spm_id_from=333.1007&search_source=5
    '''
    选项卡：0
    程序选项卡还在0
    切换选项卡到1
        browser.current_window_handle 当前选项卡
        browser.window_handles 所有选项卡
        browser.switch_to.window()切换选项卡
        
    '''
browser.quit() #关闭浏览器

转载请注明来自码农世界，本文标题：《万能爬虫-爬取哔哩哔哩数据》