配置Scraping Browser
如何配置 Scraping Browser?
在使用Scraping Browser之前,需要進行一些配置。
本文將指導您在頁面操作控制臺設置憑證配置Scraping Browser、運行示例腳本和即時流覽器會話。請按照我們的詳細說明進行操作,以確保有效使用 Scraping Browser 進行網頁刮擦。
在開始使用 Scraping Browser 之前,請獲取您的憑據--您將用於網路自動化工具的用戶名和密碼。我們假定您已獲得有效憑證。如果沒有,請從 ABCproxy 獲取。
示例代碼
我們提供了一些抓取示例,幫助您更高效地開始使用我們的Scraping Browser。您只需替換您的憑據和目標 URL,然後根據您的業務場景自定義腳本即可。
要在本地環境中運行腳本,可以參考以下示例。確保已在本地安裝了所需的依賴項,不要忘記配置憑據,並執行腳本以獲取所需數據。
如果您訪問的網頁可能會遇到驗證碼或驗證難題,不用擔心,我們會為您無縫處理。
掃描流覽器初始導航和工作流程管理 Scraping Browser會話架構允許每個會話只執行一次初始導航。該初始導航是指加載目標網站的第一次實例,該網站將用於以下子網站
import asyncio
from playwright.async_api import async_playwright
const AUTH = 'PROXY-FULL-ACCOUNT:PASSWORD';
const SBR_WS_SERVER = `wss://${AUTH}@upg-scbr.abcproxy.com`;
async def run(pw):
print('Connecting to Scraping Browser...')
browser = await pw.chromium.connect_over_cdp(SBR_WS_SERVER)
try:
print('Connected! Navigating to Target...')
page = await browser.new_page()
await page.goto('https://example.com', timeout= 2 * 60 * 1000)
# Screenshot
print('To Screenshot from page')
await page.screenshot(path='./remote_screenshot_page.png')
# html content
print('Scraping page content...')
html = await page.content()
print(html)
finally:
# In order to better use the Scraping browser, be sure to close the browser
await browser.close()
async def main():
async with async_playwright() as playwright:
await run(playwright)
if _name_ == '_main_':
asyncio.run(main())
Scraping Browser初始導航和工作管理
掃描流覽器會話架構允許每個會話只執行一次初始導航。
初始導航是指加載目標網站的第一個實例,將用於後續的數據提取。初始階段結束後,用戶可以在同一會話中通過點擊、滾動和其他交互操作自由流覽網站。不過,要從初始導航階段開始新的搜索任務,無論是針對同一網站還是不同網站,都必須創建新的會話。
會話的時間限制
1.無論您採用哪種操作方法,都要注意會話超時限制。如果沒有在腳本中明確關閉流覽器會話,系統將在最長 60 分鐘後自動終止會話。
2.通過網路控制臺使用掃描流覽器時,系統會嚴格執行每個帳戶只有一個活動會話的規則。為確保最佳性能和體驗,請務必在腳本中明確關閉流覽器會話。
最后更新于