这是一项革命性的技术,因为它经过训练可以理解人们提出问题时的意思。
许多用户钦佩其提供人类质量响应的能力,并认为它最终会破坏人机交互并改变信息检索。
什么是聊天 GPT?
ChatGPT是OpenAI基于GPT-3.5开发的大型语言模型聊天机器人。他有一种不可思议的能力,能够以对话的方式进行交流,并给出令人惊讶的人类反应。
大型语言模型的任务是预测单词序列中的下一个单词。
带有人类反馈的强化学习 (RLHF) 是一个额外的训练层,它使用人类反馈来帮助 ChatGPT 遵循指令并生成人类满意的响应的能力。
谁构建了 ChatGPT?
ChatGPT 由位于旧金山的人工智能公司 OpenAI 创建。 OpenAI Inc. 是营利性 OpenAI LP 的非营利性母公司。
OpenAI 因其 DALL·E 而闻名,这是一种深度学习模型,可根据文本指令(称为提示)生成图像。
首席执行官是 Sam Altman,Y Combinator 前总裁。
微软是价值 10 亿美元的合作伙伴和投资者。他们共同开发了 Azure AI 平台。
大规模语言模型
ChatGPT 是一个大规模语言模型(LLM)。大型语言模型 (LLM) 使用大量数据进行训练,以准确预测句子中的下一个单词。
人们发现,增加数据量可以提高语言模型做更多事情的能力。
根据斯坦福大学的说法:
“GPT-3 拥有 1750 亿个参数,并接受了 570 GB 文本的训练。相比之下,其前身 GPT-2 拥有 15 亿个参数,比其大不到 100 倍。
规模的增加极大地改变了模型的行为——GPT-3 可以执行未经专门训练的任务,例如将句子从英语翻译成法语,但实际示例很少。
这种行为在 GPT-2 中几乎不存在。此外,对于某些任务,GPT-3 的性能优于专门为这些任务训练的模型,尽管它在其他任务中落后。”
LLM 预测句子中单词序列中的下一个单词和下一个句子 – 有点像自动完成,但规模令人惊叹。
这种能力使他们能够编写段落和整页内容。
然而,法学硕士的局限性在于他们并不总是能够准确理解人类的需求。
这就是 ChatGPT 通过前面提到的人类反馈强化学习 (RLHF) 训练改进现有技术的地方。
ChatGPT 是如何训练的?
GPT-3.5 基于来自互联网的大量代码和信息数据(包括 Reddit 对话等来源)进行训练,以帮助 ChatGPT 学习对话并获得类似人类的响应。
ChatGPT 还使用人类反馈(一种称为人类反馈强化学习的技术)进行训练,以便 AI 学习人们提出问题时的期望。以这种方式训练法学硕士是革命性的,因为它不仅仅可以预测单词。
2022 年 3 月题为“训练语言模型以遵循人类反馈的指示”的研究论文解释了为什么这是一种突破性的方法:
“工作动机我们的目标是通过教学来增加大型语言模型的积极影响他们去做人们希望他们做的事情。
默认情况下,语言模型会为了预测下一个单词而进行优化,这只是我们想要从这些模型中得到什么的代理。
我们的结果表明,我们的技术有望使语言模型变得更加有用、现实和无害。
增大语言模型本身并不能改善用户意图跟踪。例如,大型语言模型可能会导致输出不切实际、有毒或对用户无用。
也就是说,这些型号与用户不兼容。
原创文章,作者:sinama,如若转载,请注明出处:https://www.52foreigntrade.com/2023106363.html