from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By from selenium.webdriver.chrome.service import Service from time import sleep service = Service('./chromedriver.exe') browser = webdriver.Chrome(service=service) #变量browser是浏览器 #框架(固定格式) ''' 关键词:黑客,python,c++ 的视频名称和点赞数等信息 ''' url='https://search.bilibili.com/all?keyword=c%2B%2B&from_source=webtop_search&spm_id_from=333.1007&search_source=5' browser.get(url) #browser.get(url) 用浏览器打开链接 browser.find_element(By.XPATH,'/html/body/div[3]/div/div[2]/div[1]/div[2]/div/nav/ul/li[2]/span/span[1]').click() #代表查找结点 sleep(2) #暂停2s for ix in range(1,3): for i in range(1,4): sleep(2) xpath=f'/html/body/div[3]/div/div[2]/div[2]/div/div/div[1]/div[{i}]/div/div[2]/div/div/a/h3' title=browser.find_element(By.XPATH,xpath).text print(title) browser.find_element(By.XPATH,xpath).click() browser.switch_to.window( browser.window_handles[1] ) res=browser.find_element(By.XPATH,'/html/body/div[2]/div[2]/div[1]/div[3]/div[1]/div[1]/div[1]/div/span').text print(res) browser.close() #关闭当前选项卡 browser.switch_to.window( browser.window_handles[0] ) browser.find_element(By.XPATH,f'/html/body/div[3]/div/div[2]/div[2]/div/div/div[2]/div/div/button[{ix}]') #/html/body/div[3]/div/div[2]/div[2]/div/div/div[2]/div/div/button[2] #/html/body/div[3]/div/div[2]/div[2]/div/div/div[2]/div/div/button[8] #browser.get('链接') #https://search.bilibili.com/video?keyword=c%2B%2B&from_source=webtop_search&spm_id_from=333.1007&search_source=5 ''' 选项卡:0 程序选项卡还在0 切换选项卡到1 browser.current_window_handle 当前选项卡 browser.window_handles 所有选项卡 browser.switch_to.window()切换选项卡 ''' browser.quit() #关闭浏览器
转载请注明来自码农世界,本文标题:《万能爬虫-爬取哔哩哔哩数据》
百度分享代码,如果开启HTTPS请参考李洋个人博客
还没有评论,来说两句吧...