Spaces:

TUM
/

SmartPagerankSearch

Runtime error

App Files Files Community

SmartPagerankSearch / BUG_FIX_LINK_EXTRACTION.md

GitHub Action

Sync from GitHub Actions (Clean Commit)

7f22d3c 6 months ago

preview code

raw

history blame contribute delete

6.27 kB

Bug 修复：链接提取中的语义标签遗漏问题

🐛 Bug 描述

Bug 1: 语义标签被遗漏

位置: crawler.py:832-836 - extract_content_smart() 方法中的链接提取逻辑

问题: soup.find_all() 调用使用了 class_= 参数，这会将正则表达式过滤器应用到所有标签，包括语义标签如 article、main 等。这导致：

即使这些标签没有匹配的类名，也应该被找到的内容元素被遗漏
例如：一个没有特定 class 的 <article> 标签不会被找到，尽管它很可能是一个内容容器
虽然代码在 862 行有回退提取逻辑，但主要提取过程过于严格

问题代码:

link_sources = [
    ('content', soup.find_all(['article', 'main', 'section', 'div'], class_=re.compile(r'content|main|article|body', re.I))),
    ('nav', soup.find_all(['nav', 'header'], class_=re.compile(r'nav|menu|header', re.I))),
    ('sidebar', soup.find_all(['aside', 'div'], class_=re.compile(r'sidebar|aside', re.I))),
    ('footer', soup.find_all(['footer'], class_=re.compile(r'footer', re.I))),
]

问题分析: 当使用 soup.find_all(['article', 'main', 'section', 'div'], class_=regex) 时，BeautifulSoup 要求所有列出的标签都必须有匹配的 class 属性。这意味着：

一个没有匹配 class 的 <article> 标签不会被找到
语义 HTML5 标签（article, main, section, nav, header, aside, footer）本身就有语义含义，应该被无条件查找
只有 div 标签应该要求匹配 class，因为它们本身没有语义

✅ 修复方案

修复后的代码

将链接提取逻辑分为两个步骤：

语义标签无条件查找：article、main、section、nav、header、aside、footer 等语义标签本身就有明确的语义，应该被无条件查找
div 标签要求匹配 class：div 标签本身没有语义，所以需要匹配特定的 class 来识别区域

修复后的代码:

def find_content_containers():
    """查找内容容器：语义标签无条件查找，div标签要求匹配class"""
    containers = []
    # 语义标签：无条件查找（这些标签本身就表示内容区域）
    semantic_tags = soup.find_all(['article', 'main', 'section'])
    containers.extend(semantic_tags)
    # div标签：要求匹配class
    div_with_class = soup.find_all('div', class_=re.compile(r'content|main|article|body', re.I))
    containers.extend(div_with_class)
    return containers

def find_nav_containers():
    """查找导航容器：nav和header标签无条件查找，div标签要求匹配class"""
    containers = []
    # 语义标签：无条件查找
    semantic_tags = soup.find_all(['nav', 'header'])
    containers.extend(semantic_tags)
    # div标签：要求匹配class
    div_with_class = soup.find_all('div', class_=re.compile(r'nav|menu|header', re.I))
    containers.extend(div_with_class)
    return containers

def find_sidebar_containers():
    """查找侧边栏容器：aside标签无条件查找，div标签要求匹配class"""
    containers = []
    # 语义标签：无条件查找
    semantic_tags = soup.find_all('aside')
    containers.extend(semantic_tags)
    # div标签：要求匹配class
    div_with_class = soup.find_all('div', class_=re.compile(r'sidebar|aside', re.I))
    containers.extend(div_with_class)
    return containers

def find_footer_containers():
    """查找页脚容器：footer标签无条件查找"""
    # footer是语义标签，无条件查找
    return soup.find_all('footer')

link_sources = [
    ('content', find_content_containers()),
    ('nav', find_nav_containers()),
    ('sidebar', find_sidebar_containers()),
    ('footer', find_footer_containers()),
]

📊 修复效果

修复前

❌ 没有匹配 class 的 <article> 标签被遗漏
❌ 没有匹配 class 的 <main> 标签被遗漏
❌ 语义标签需要依赖 class 才能被发现

修复后

✅ 所有语义标签（article, main, section, nav, header, aside, footer）无条件查找
✅ div 标签仍然要求匹配 class（因为它们没有语义）
✅ 提高了链接发现的覆盖率，特别是对于使用语义 HTML5 标签的现代网站

🔍 示例

修复前的问题

<!-- 这个 article 标签会被遗漏（如果没有匹配的 class） -->
<article>
    <h1>Important Content</h1>
    <a href="/page1">Link 1</a>
    <a href="/page2">Link 2</a>
</article>

<!-- 这个会被找到（因为有匹配的 class） -->
<div class="content-area">
    <a href="/page3">Link 3</a>
</div>

修复后

<!-- 现在这个 article 标签会被找到（无论是否有 class） -->
<article>
    <h1>Important Content</h1>
    <a href="/page1">Link 1</a>
    <a href="/page2">Link 2</a>
</article>

<!-- 这个仍然会被找到 -->
<div class="content-area">
    <a href="/page3">Link 3</a>
</div>

✅ 验证

修复后，链接提取逻辑应该能够：

✅ 找到所有语义 HTML5 标签中的链接（无论是否有 class）
✅ 找到所有匹配 class 的 div 标签中的链接
✅ 提高链接发现率，特别是对于现代网站
✅ 保持向后兼容性（仍然支持带 class 的 div 标签）

📝 技术细节

语义 HTML5 标签列表

article - 表示独立的文章或内容块
main - 表示页面主要内容
section - 表示文档中的节
nav - 表示导航链接
header - 表示页面或节的头部
aside - 表示侧边栏内容
footer - 表示页脚

这些标签本身就有明确的语义含义，在 HTML5 中用于结构化内容，应该被无条件识别。

div 标签的处理

div 标签本身没有语义，所以需要通过 class 或 id 属性来识别其用途。因此，对于 div 标签，我们仍然要求匹配特定的 class 模式。

🎯 影响范围

这个修复影响：

✅ 链接提取的覆盖率提升
✅ 深度爬取的链接发现能力增强
✅ 对现代使用语义 HTML5 标签的网站支持更好
✅ 不影响现有功能，保持向后兼容

✅ 修复状态

Bug 已识别
修复方案已实现
代码已通过语法检查
修复文档已创建