要获取页面的HTML源代码,可以使用Page.content()
方法。
const puppeteer = require('puppeteer');
const fs = require('fs');
(async () => {
const browser = await puppeteer.launch({
headless: false
});
const page = await browser.newPage();
await page.goto('https://www.baidu.com');
// 等待,直到“title”元素呈现
await page.waitForSelector('title');
const html = await page.content();
// 将html保存到一个文件中
fs.writeFile('page.html', html, _ => console.log('HTML saved'));
//... 做一些事
await browser.close();
})();
上面示例中,打开百度首页,获取页面源代码,保存到文件中。