跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt

Use this file to discover all available pages before exploring further.

正在构建 AI 初创公司?

您可能符合我们的初创计划资格。获得本文所介绍基础设施的全额资助访问权限(最高价值 $20,000)。

LLM 基础化与评估

构建 AI 系统来事实核查模型输出、验证训练数据并将语言模型基础化在真实世界信息中。 创建评估工作流,针对实时网络数据测试模型准确性、通过多源验证来验证声明,并通过持续的真实世界基础化来维持模型可靠性。

学习事实核查

了解事实核查工作流

开始使用

开始验证模型输出

解决的挑战

处理规模化 AI 评估的独特挑战:
  • 实时事实验证 - 需要快速网络访问进行即时验证
  • 综合测试 - 需要广泛的来源覆盖进行彻底的评估
  • 历史验证 - 需要存档访问权限来事实核查历史声明
  • 持续评估 - 需要永不宕机的可靠基础设施
从简单的事实核查到综合的模型评估框架,基础化系统需要既能提供速度又能提供可靠性的基础设施。

快速网络访问

实时事实验证,响应时间不足一秒

广泛源覆盖

跨多个来源的综合测试

历史验证

访问历史数据来事实核查过去的声明

可靠基础设施

99.99% 正常运行时间确保持续评估永不停止

目标

为评估模式而构建,通过严格的真实世界验证来维持模型准确性和用户信任。

事实核查工作流

针对真实世界数据验证声明:
1

从模型输出中提取声明

从需要验证的模型输出中提取事实声明。
{
  "claims": [
    {
      "text": "该公司成立于 2020 年",
      "entity": "company_name",
      "type": "factual"
    }
  ]
}
2

搜索验证

跨多个来源搜索验证:
  • 实时搜索结果 (SERP API)
  • 历史数据 (网络存档)
  • 结构化数据 (Deep Lookup)
async function verifyClaim(claim) {
  const searches = await Promise.all([
    searchSERP(claim.text),
    searchArchive(claim.entity, '2020-01-01'),
    searchDeepLookup(claim.entity)
  ]);
  
  return searches;
}
3

针对来源验证

针对多个来源验证声明并确定置信度。
使用跨源验证来提高事实核查结果的置信度。
4

报告验证结果

报告带有来源归属和置信度分数的验证结果。
已验证的声明用置信度分数和来源参考进行标记。

模型输出验证

实时验证模型输出:
async function validateModelOutput(output, claims) {
  const validationPromises = claims.map(claim => 
    verifyClaim(claim)
  );
  
  const validationResults = await Promise.all(validationPromises);
  
  const validatedOutput = {
    original: output,
    claims: validationResults.map((result, index) => ({
      claim: claims[index],
      verified: result.confidence > 0.8,
      confidence: result.confidence,
      sources: result.sources
    }))
  };
  
  return validatedOutput;
}

训练数据验证

针对真实世界来源验证训练数据:
async function verifyTrainingData(dataset) {
  const verificationResults = await Promise.all(
    dataset.map(item => verifyDataItem(item))
  );
  
  const verified = verificationResults.filter(r => r.verified);
  const unverified = verificationResults.filter(r => !r.verified);
  
  return {
    total: dataset.length,
    verified: verified.length,
    unverified: unverified.length,
    accuracy: verified.length / dataset.length,
    issues: unverified
  };
}

使用存档进行历史事实验证

使用网络存档验证历史声明:
async function validateHistoricalFact(claim, date) {
  // 搜索存档中的历史数据
  const archiveResults = await searchArchive(claim.entity, date);
  
  // 与声明进行比较
  const matches = archiveResults.filter(result => 
    result.text.includes(claim.text)
  );
  
  return {
    claim,
    date,
    verified: matches.length > 0,
    confidence: matches.length / archiveResults.length,
    sources: matches
  };
}

多源交叉引用

跨多个来源交叉引用事实:
async function crossReferenceFact(fact) {
  const sources = await Promise.all([
    searchSERP(fact.query),
    searchDeepLookup(fact.entity),
    searchArchive(fact.entity, fact.date),
    searchSite(fact.url)
  ]);
  
  // 查找来源间的共同发现
  const commonFindings = findCommonFindings(sources);
  
  return {
    fact,
    sources: sources.length,
    commonFindings,
    confidence: commonFindings.length / sources.length,
    validated: commonFindings.length >= sources.length * 0.7
  };
}

持续评估系统

构建用于持续模型验证的持续评估系统:

实时监控

实时监控模型输出进行持续验证

自动化测试

自动化事实核查工作流进行持续评估

警报系统

为未验证的声明或低置信度分数设置警报

性能跟踪

跟踪评估性能和模型准确性随时间的变化

模板

使用预构建的通用基础化工作流模板:

事实核查模板

实时事实核查工作流模板

模型评估模板

综合模型评估模板

训练数据验证

验证训练数据集的模板

历史验证

历史事实验证模板

后续步骤

SERP API 快速开始

开始使用实时搜索结果进行事实核查

Deep Lookup 快速开始

使用 Deep Lookup 进行综合事实验证

网络存档

访问历史数据进行事实核查

浏览示例

探索基础化和评估示例
需要帮助? 查看我们的 评估示例��系支持