AI EngineeringSeptember 10, 202513 min read
    SC
    Sarah Chen

    AI 生成的文本有什么问题?神经写作的常见缺陷

    AI 生成的文本有什么问题?神经写作的常见缺陷

    AI 生成文本有什么问题?神经写作的常见缺陷

    在出版前,对 AI 生成的文本与可信来源进行验证,并从人类编辑那里获得独立确认。 这一步骤减少了幻觉并保护读者免受虚假信息的影响。检查后,记录哪些事实来自来源,哪些是由模型生成的,以便读者可以追踪事实。创建一个简洁的提示,指示模型引用来源并限制没有证据的断言。还注明哪些词来自来源,哪些是由模型生成的,以清晰。

    作家针对下一个词进行优化,而不是针对真相,因此一个句子读起来流畅的概率可能超过其正确的几率。有些段落重复通用短语并省略引用,这会削弱可信度。寻找信号,如缺失来源、回避语言以及各节之间不一致的数据。为了降低风险,要求在断言旁边添加来源标签,并实施事实检查工作流程,以标记不可验证的陈述。还限制生成段落的长度,以减少漂移并确保与提示的对齐。

    幻觉–看起来可信但缺乏证据的断言。有些主题在训练数据中代表不足,导致误解或偏见。在一些专家的意见中,模型用听起来合理的细节填补空白,这些细节从未在现实中发生。为了检测幻觉,将文本与主要来源比较,并使用独立数据库或官方记录验证引文、数字和日期。实施检索增强生成,以将输出锚定到真实文档。

    实际步骤包括检索增强工作流程,其中系统首先拉取可信来源,然后生成引用它们的文本。设计提示以要求每个事实断言的明确来源,并指示模型按标题和作者引用来源。构建检查列表:事实已验证、来源已引用、日期正确,以及数字与来源定义一致。运行人工参与审查,并维护变更的版本记录以确保问责。跟踪指标,如引用率和不可验证陈述率,以指导持续改进。

    AI 生成文本有什么问题?实用提示和质量检查

    AI 生成文本有什么问题?实用提示和质量检查

    从一个具体目标开始:定义任务、所需格式以及您将用于判断质量的指标。这种方法减少模糊性,并有助于从 gpt-3 通过 openai 获取更可靠的信息。当开始任务时,指定您是否需要简洁摘要、逐步指南或代码片段,并列出约束以及您为一个任务所需的信息。该过程依赖于明确提示来指导任务通过其组件;我们的方法强调对提示的注意以及履行任务。模型在广泛的信息库上训练,并可能重复常见模式,这塑造了字母和措辞。因此,强制记录来源并要求可验证的信息,以避免模糊结论。此框架限制不想要的创作(创作)并减少平淡的陈词滥调和模板,这些会渗入输出。它还使用一个使任务清晰的评分表,该评分表可由读者检查。

    您可以应用的品质检查

    您可以应用的品质检查很简单:有步骤要遵循。第 1 步:针对可信来源验证事实准确性;第 2 步:检查重复或通用措辞;第 3 步:检查拼写和字母以确保可读性;第 4 步:确保信息与任务一致且不偏离;第 5 步:验证支持断言的来源记录。每项检查都需要对提示和导致文本的提示的注意。当您开始时,在扩展之前对小样本运行快速测试,以获得稳定性。这种方法在使用 gpt-3 和 openai 时有效,并为评估输出与真实信息提供清晰基础。

    引出可靠输出的提示

    为了引出可靠输出,制作设置上下文、指定何时开始并要求紧凑结构的提示。提示应包括每个输出的一个任务、所需格式(项目符号、标题、长度)以及记录证据的要求。当您搜索信息时,要求超过一行以上的信息,并在可行时请求引用。一个实际示例:“您是一个总结关于 X 的文档的助手。提供关键点的单一段落摘要,后跟带有来源记录的事实项目符号列表。使用 gpt-3 和 openai 获取信息,但限制幻觉。”这种指示有助于过程专注于任务并减少漂移,尤其当我们的团队处理大量来源时。

    在 AI 文本中发现幻觉、水分和冗余措辞

    推荐:针对可靠材料验证每个事实断言;如果无法确认,将其标记为可疑并请求来源。使用要求引用的提示;通常使用的提示变体告诉模型引用来源并提供确认。保持令牌限制以防止冗长、水分段落。如果您发现杂散术语,如陈词滥调或不相关词,从输出中修剪它们。只使用简洁、直接的语言;从可靠来源提取信息并避免不添加价值的额外插入。

    常见标志和快速检查

    幻觉表现为虚构的日期、名称或数字,这些无法追溯到材料;水分表现为带有填充词的长回避句子;冗余措辞以略微不同的形式重复相同想法。对于每个可疑断言,针对至少两个独立来源运行快速检查,并寻找这些来源的清晰确认。如果存在差异,标记它并附加您使用的来源。确保输出使用准确的字母并避免可能表示提示中空白或文本错误的乱码文本,尤其是在处理能力有限的设备(设备)上。

    您现在可以应用的实际步骤

    按顺序应用这些步骤:首先,通过将句子长度限制为每个段落一个主要想法来禁用水分风格;其次,强制执行双来源规则,并在提示中要求直接引文或带有引用的确切数字;第三,设置严格的令牌限制,以便模型无法漂移到填充内容。当断言无法确认时,以警告回应并建议材料进行检查。使用我们通常使用的提示变体:“引用来源、提供确认,并保持陈述紧密基于事实。”如果断言取决于细微差别,提供简短上下文,但不要过度加载文本。对于质量控制,运行后处理检查:寻找重复、不必要的形容词以及对核心论点没有新意的短语。如果一个句子依赖于一个模糊的泛化,重写它以包括具体示例或数字。保持语言简洁,如果您不确定,最好改写而不是冒着传播错误的风险。

    思维树 (ToT):用于更好推理的逐步提示例程

    从逐步提示开始,向请求链式思维发送请求,包括在最终确定答案之前的每个阶段的明确检查。这保持推理的构建透明,并使最终裁决更容易审计。

    在我们的文章和材料中,这种提示被描述为实际例程:计划和步骤记录、带有每个检查点的推理,以及最终综合。这种方法有助于确保主要里程碑得到解决,涉及哪些任务,以及如何判断结论的概率。该过程依赖于提示来指导下一步行动,并保持每个步骤的记录以进行审计,以及如果需要,发送结果。

    1. 任务框架和标准 – 清楚陈述问题,您期望的主要结果,以及您将如何检查正确性。包括定义成功的指标,并注明推理背后的假设。如果缺少上下文,包括关于支持断言的来源地址的简短指示。此步骤为准确创作设置舞台并防止漂移;否则,结论可能偏离原始目标。

    2. 分解为子任务 – 将目标分解为子任务,如数据收集、假设生成和证据评估。指定达到每个子任务所需的步骤,并指示其他因素可能如何影响结果。这有助于读者看到答案构建如何展开以及哪些假设正在被测试。

    3. 计划和记录 – 构建带有里程碑和决策日志记录的紧凑计划。包括关键来源的地址,并注明将用于支持每个断言的数据。从此阶段开始,您为未来的提示和协作创建可重用的支架。

    4. 逐步推理 – 以清晰标记的步骤生成推理,并为下一步行动提供简洁提示。将每个步骤限制为少数句子以控制令牌使用,并使序列易于审查。此阶段是模型形成可稍后检查的假设的地方。

    5. 验证和检查点 – 对于每个断言,从可用证据提供确认,或透明注明它是暂定的。如果比率显示差距,说明不确定性并转向替代假设(其他)。始终检查链是否逻辑上连接到初始任务和标准。

    6. 迭代和调整 – 如果检查失败,转向修改计划、调整假设或重新框架子任务。迭代直到正确结论的概率上升且整体构建保持连贯。此步骤使过程对早期失误具有弹性。

    7. 最终化和文档 – 编译最终答案并带有简洁的理由轨迹。包括步骤日志、使用的令牌以及关键来源的地址。如果需要分享结果,向用户发送简洁摘要,并提供读者可以在我们的文章材料和相关主要文章中找到更深入分析的指针。

    基于事实和验证的提示:使用引用和来源检查减少幻觉

    通过将事实与可验证来源绑定来基于每个答案,并在呈现它们之前针对原始文档验证引用。对于每个事实断言,使用一个可信来源,并附加关于来源类型(主要文章、数据集、标准文档或机构报告)的简短说明。

    设计明确分离断言、材料和来源的提示模板。包括带有指定从哪里拉取证据的提示的提示块,并在提示中添加来源列表。使用这种格式来指导语言模型通过可检查步骤,并为 gpt-3 和更新迭代保持紧凑的工作流程。

    要求所有非琐碎陈述的明确引用,并优先使用主要来源。列出带有访问日期和出版商的 URL,并在存在时包括 DOI。对于基于 gpt-3 的提示,强制模型在专用来源部分返回来源列表,并避免伪造标识符。如果缺少来源,清楚标明并提出替代方案(使用其他来源),以便用户可以针对材料检查。

    采用将生成与验证分离的验证工作流程。在产生响应后,针对列出的来源执行单独查找,将断言与来源文本比较,并标记任何不匹配。使用探测提示(shot),要求模型用自己的话总结来源,然后在可能的情况下直接引用或引用匹配。包括针对不同来源的矛盾检查,并突出哪些断言依赖于不确定证据。如果存在差距,使用其他材料集重试并细化任务以专注于主要问题和具体任务。

    在您的提示装置(设备)中实施基于组件的方法以阻止幻觉。构建检索模块、引用生成器和验证器作为单独块,并保持每个块可审计。设置从记忆中抽取内容的数量限制,并要求类似检查列表的提示在每个步骤触发检查。当使用不同复杂度的模型(模型)时,根据其优势定制提示:对于较小模型的简洁来源提取,以及对于较大模型的更丰富的跨来源分析。使用这种构建来将输出与真实来源对齐,并避免过度依赖记忆,尤其是在 gpt-3 中,如果提示省略来源约束,幻觉更可能发生。尝试主要材料和同行评审评论的混合以平衡广度和深度。

    步骤行动输出示例
    1提示框架断言:“X 发生。” 来源:[URL 或 DOI]。验证:“来源确认。”
    2来源选择每个断言仅一个来源;列出用于验证的材料(材料)。
    3引用细节作者、年份、标题、场所、URL、访问日期;如果可用,DOI。
    4验证 shot简短段落总结来源如何支持断言(shot)。
    5交叉检查针对替代来源(不同);注明任何冲突(幻觉)。
    6披露标明任何部分仍未验证以及下一步要检查什么(检查)。

    编辑卫生:拼写、标点以及避免模板短语和重复

    从两步检查开始:快速拼写和标点通过,然后针对主要信息进行人类事实检查。当文本由模型产生时,特别是 openai,此第二审查捕捉幻觉并将输出与我们的过程和事实对齐。文本变得准备好出版并准备好给读者。

    将模板保持在主身体之外;一些模板潜入草稿中,重复会增长。维护活术语表和重写例程,以用新鲜措辞替换样板。应用风格指南用于拼写、标点和词选择,以便声音在模式和复杂主题中保持一致。始终使用可信信息来源验证事实,并避免字面翻译短语;相反,用我们自己的话总结以避免误解。使用来自可靠来源的信息并解释每个断言如何被证明(解释)以透明。

    两个实际步骤

    步骤 1:停止模板漂移 将样板集中到存储库中,并为每个部分改述。当使用一个模型时,将段落与原始来源比较以确保您不回收短语。对于 openai 输出,验证事实并避免字面翻译短语;重写成适合我们风格的新鲜措辞。保持重复限制:目标是在 600 字文本中不超过 2% 的句子共享相同措辞。

    步骤 2:加强编辑工作流程 强制执行两遍工作流程:机械检查(拼写、标点)和内容检查(事实、清晰度)。在翻译或适应后,大声朗读以测试节奏并确保信息保持准确。在邮件或 openai 日志中使用注释来捕捉建议并向贡献者解释变更(建议);这建立信任并有助于未来的编辑。

    测量编辑卫生

    指标锚定过程:每 1000 字拼写错误率低于 0.5%、标点准确率高于 95%,以及句子重复率低于 2%。通过邮件、票务和编辑笔记收集反馈;出版后,记录哪些事实变更(事实)以及原因。当处理复杂主题时,附加简短术语表;确保文本保持真实和有用,而不是被幻觉扭曲。使用模型的系统应定期审计以从错误中学习并改进过程。

    检查列表:邮件、更多、新的、一些、模式、复杂、当、后、这种、系统、哪个、幻觉、使用、模型、一个、信息、限制、文本、准备好、模型、真实的、哪个、我们的、过程、事实、翻译、openai、建议、词、解释。

    开始使用 ChatGPT:注册和首次内容生成

    使用真实电子邮件注册、验证账户并启用双因素认证以保护访问。入职流程指导您选择计划并设置语言偏好,这有助于将输出与您的文本和其他内容对齐。此设置保持您的神经网络工作在主题和材料中一致。

    注册基础

    使用可信设备、确认您的电子邮件并审查隐私控制。跟踪每个提示使用的令牌,以便您可以估计时间和成本。保持记录如何意见影响未来会话中的选择。

    当您再次登录时,保存您首选的语言、语气和格式选项。如果您与团队合作,以基于角色的访问邀请合作者来管理内容。

    首次内容生成提示

    为您的第一个任务定义清晰简报:一个五句短语,带有单一、专注的信息。概述一个从主题句开始、跟随两个支持并以结论结束的结构。选择您想要产生的内容变体并指定目标受众和时间框架。

    生成草稿后,审查清晰度、调整想法并移除多余想法。验证输出使用可读字母并适合预期的内容。比较几个变体并选择最佳反映您想要传达的意见的一个。

    相关文章

    Ready to leverage AI for your business?

    Book a free strategy call — no strings attached.

    Get a Free Consultation