从网页提取链接
Bun 的 HTMLRewriter API 可用于高效地从 HTML 内容提取链接。它通过链接 CSS 选择器来匹配你想要处理的元素、文本和属性。这是一个如何从网页提取链接的简单示例。你可以将 Response、Blob 或 string 传递给 .transform。
ts
async function extractLinks(url: string) {
const links = new Set<string>();
const response = await fetch(url);
const rewriter = new HTMLRewriter().on("a[href]", {
element(el) {
const href = el.getAttribute("href");
if (href) {
links.add(href);
}
},
});
// 等待响应被处理
await rewriter.transform(response).blob();
console.log([...links]); // ["https://bun.com", "/docs", ...]
}
// 从 Bun 网站提取所有链接
await extractLinks("https://bun.com");将相对 URL 转换为绝对 URL
在抓取网站时,你经常需要将相对 URL(如 /docs)转换为绝对 URL。以下是如何处理 URL 解析:
ts
async function extractLinksFromURL(url: string) {
const response = await fetch(url);
const links = new Set<string>();
const rewriter = new HTMLRewriter().on("a[href]", {
element(el) {
const href = el.getAttribute("href");
if (href) {
// 将相对 URL 转换为绝对 URL
try {
const absoluteURL = new URL(href, url).href;
links.add(absoluteURL);
} catch {
links.add(href);
}
}
},
});
// 等待响应被处理
await rewriter.transform(response).blob();
return [...links];
}
const websiteLinks = await extractLinksFromURL("https://example.com");有关使用 Bun 进行 HTML 转换的完整文档,请参阅 文档 > API > HTMLRewriter。