是内容营销人员在评估提交内

whatsapp lead sale category
Post Reply
hasanthouhid0
Posts: 44
Joined: Sat Dec 28, 2024 3:25 am

是内容营销人员在评估提交内

Post by hasanthouhid0 »

AI 内容生成对比
阅读时间:19分钟
虽然人工智能内容不会很快占领互联网,但我想亲身体验使用人工智能创建内容的感觉。具体来说,我想看看这四种自然语言生成模型的输出质量如何:

GPT-2
格罗弗
MarketMuse NLG 技术
XLNet
因此,我开始使用这些 NLG 模型来创建有关以下主题的内容:

胰高血糖素作为一种非侵入性糖尿病治疗方法
手机成瘾
如何种植辣椒
讲故事的力量
如何成为一名药物滥用社会工作者
然后我根据以下标准评估了每个结果:

MarketMuse 内容分数(确定内容的全面性)
MarketMuse 字数统计(MarketMuse 分析 香港电话数据 所有竞争内容,以确定专家如何处理特定主题)
Grammarly 总体评分(了解发布内容所需的编辑量)
独特词汇(衡量词汇多样性)
生僻词(衡量词汇深度)
单词和句子的长度(评估复杂程度)
Flesch 阅读难易度(确定可读性是否与目标受众相匹配)
请注意,这些并不是数据科学家所依赖的语言建模基准。相反,它们容(无论是否是人类)时会考虑的真实指标。

结果摘要
以下是通过四种自然语言生成模型运行五个主题的结果,以及一些评论。

电子表格显示了自然语言生成模型比较的结果。
MarketMuse 内容分数
MarketMuse NLG 技术是唯一能够始终达到或超过目标内容分数的模型。我们的模型旨在生成主题丰富、全面且切题的输出。

其他模型呢?显然不是这样。有一次,GPT-2 完全切换到了另一个主题,之后我终止了输出。

你有没有遇到过一个喜欢多说话但很少说实质内容的人?内容评分就是衡量这一点的一种方法。GROVER、GPT-2 和 XLNet 就是这种人的 AI 对应物!

字数统计
MarketMuse NLG 技术是唯一能够持续生成长度超过 1,000 字的内容的 NLG 模型。其他模型很难生成超过几百字的内容。

虽然 GROVER 总是会生成至少 500 多个单词的完整输出,但 GPT-2 和 XLNet 有所不同。有时 XLNet 甚至无法生成 100 个单词。当主题发生剧烈变化或重复过多时,GPT-2 和 XLNet 的输出会终止。对于重复的情况,我应用了“三振出局”规则。

Grammarly 总体评分
Grammarly 的总体评分可以快速确定将草稿变成适合发表的精美文章所需的编辑水平。MarketMuse NLG Technology 和 GROVER 都取得了不错的总体评分,这意味着写作水平相当高,只需进行一些基本的编辑。GPT-2 和 XLNet 的表现并不好,尤其是考虑到它们的字数较少。这些模型的输出需要大量的编辑工作才能呈现。
Post Reply