正在构建 AI 初创公司？

您可能符合我们的初创计划资格。获得本文所介绍基础设施的全额资助访问权限（最高价值 $20,000）。

LLM 基础化与评估

构建 AI 系统来事实核查模型输出、验证训练数据并将语言模型基础化在真实世界信息中。创建评估工作流，针对实时网络数据测试模型准确性、通过多源验证来验证声明，并通过持续的真实世界基础化来维持模型可靠性。

学习事实核查

了解事实核查工作流

开始使用

开始验证模型输出

解决的挑战

处理规模化 AI 评估的独特挑战：

实时事实验证 - 需要快速网络访问进行即时验证
综合测试 - 需要广泛的来源覆盖进行彻底的评估
历史验证 - 需要存档访问权限来事实核查历史声明
持续评估 - 需要永不宕机的可靠基础设施

从简单的事实核查到综合的模型评估框架，基础化系统需要既能提供速度又能提供可靠性的基础设施。

快速网络访问

实时事实验证，响应时间不足一秒

广泛源覆盖

跨多个来源的综合测试

历史验证

访问历史数据来事实核查过去的声明

可靠基础设施

99.99% 正常运行时间确保持续评估永不停止

目标

为评估模式而构建，通过严格的真实世界验证来维持模型准确性和用户信任。

事实核查工作流

针对真实世界数据验证声明：

从模型输出中提取声明

从需要验证的模型输出中提取事实声明。

{
  "claims": [
    {
      "text": "该公司成立于 2020 年",
      "entity": "company_name",
      "type": "factual"
    }
  ]
}

搜索验证

跨多个来源搜索验证：

实时搜索结果 (SERP API)
历史数据 (网络存档)
结构化数据 (Deep Lookup)

async function verifyClaim(claim) {
  const searches = await Promise.all([
    searchSERP(claim.text),
    searchArchive(claim.entity, '2020-01-01'),
    searchDeepLookup(claim.entity)
  ]);
  
  return searches;
}

针对来源验证

针对多个来源验证声明并确定置信度。

使用跨源验证来提高事实核查结果的置信度。

报告验证结果

报告带有来源归属和置信度分数的验证结果。

已验证的声明用置信度分数和来源参考进行标记。

模型输出验证

实时验证模型输出：

async function validateModelOutput(output, claims) {
  const validationPromises = claims.map(claim => 
    verifyClaim(claim)
  );
  
  const validationResults = await Promise.all(validationPromises);
  
  const validatedOutput = {
    original: output,
    claims: validationResults.map((result, index) => ({
      claim: claims[index],
      verified: result.confidence > 0.8,
      confidence: result.confidence,
      sources: result.sources
    }))
  };
  
  return validatedOutput;
}

训练数据验证

针对真实世界来源验证训练数据：

async function verifyTrainingData(dataset) {
  const verificationResults = await Promise.all(
    dataset.map(item => verifyDataItem(item))
  );
  
  const verified = verificationResults.filter(r => r.verified);
  const unverified = verificationResults.filter(r => !r.verified);
  
  return {
    total: dataset.length,
    verified: verified.length,
    unverified: unverified.length,
    accuracy: verified.length / dataset.length,
    issues: unverified
  };
}

使用存档进行历史事实验证

使用网络存档验证历史声明：

async function validateHistoricalFact(claim, date) {
  // 搜索存档中的历史数据
  const archiveResults = await searchArchive(claim.entity, date);
  
  // 与声明进行比较
  const matches = archiveResults.filter(result => 
    result.text.includes(claim.text)
  );
  
  return {
    claim,
    date,
    verified: matches.length > 0,
    confidence: matches.length / archiveResults.length,
    sources: matches
  };
}

多源交叉引用

跨多个来源交叉引用事实：

async function crossReferenceFact(fact) {
  const sources = await Promise.all([
    searchSERP(fact.query),
    searchDeepLookup(fact.entity),
    searchArchive(fact.entity, fact.date),
    searchSite(fact.url)
  ]);
  
  // 查找来源间的共同发现
  const commonFindings = findCommonFindings(sources);
  
  return {
    fact,
    sources: sources.length,
    commonFindings,
    confidence: commonFindings.length / sources.length,
    validated: commonFindings.length >= sources.length * 0.7
  };
}

持续评估系统

构建用于持续模型验证的持续评估系统：

实时监控

实时监控模型输出进行持续验证

自动化测试

自动化事实核查工作流进行持续评估

警报系统

为未验证的声明或低置信度分数设置警报

性能跟踪

跟踪评估性能和模型准确性随时间的变化

模板

使用预构建的通用基础化工作流模板：

事实核查模板

实时事实核查工作流模板

模型评估模板

综合模型评估模板

训练数据验证

验证训练数据集的模板

历史验证

历史事实验证模板

后续步骤

SERP API 快速开始

开始使用实时搜索结果进行事实核查

Deep Lookup 快速开始

使用 Deep Lookup 进行综合事实验证

网络存档

访问历史数据进行事实核查

浏览示例

探索基础化和评估示例

需要帮助？ 查看我们的评估示例或 ��系支持。

介绍

快速开始

面向 AI 代理

用例

集成

LLM 基础化与评估

正在构建 AI 初创公司？

LLM 基础化与评估

学习事实核查

开始使用

解决的挑战

快速网络访问

广泛源覆盖

历史验证

可靠基础设施

目标

事实核查工作流

模型输出验证

训练数据验证

使用存档进行历史事实验证

多源交叉引用

持续评估系统

实时监控

自动化测试

警报系统

性能跟踪

模板

事实核查模板

模型评估模板

训练数据验证

历史验证

后续步骤

SERP API 快速开始

Deep Lookup 快速开始

网络存档

浏览示例

介绍

快速开始

面向 AI 代理

用例

集成

Documentation Index

正在构建 AI 初创公司？

​LLM 基础化与评估

学习事实核查

开始使用

​解决的挑战

快速网络访问

广泛源覆盖

历史验证

可靠基础设施

​目标

​事实核查工作流

​模型输出验证

​训练数据验证

​使用存档进行历史事实验证

​多源交叉引用

​持续评估系统

实时监控

自动化测试

警报系统

性能跟踪

​模板

事实核查模板

模型评估模板

训练数据验证

历史验证

​后续步骤

SERP API 快速开始

Deep Lookup 快速开始

网络存档

浏览示例

LLM 基础化与评估

解决的挑战

目标

事实核查工作流

模型输出验证

训练数据验证

使用存档进行历史事实验证

多源交叉引用

持续评估系统

模板

后续步骤