如何使用伯特?

A widely recognized collection for machine learning tasks.
Post Reply
arafatenzo
Posts: 9
Joined: Sun Dec 22, 2024 9:08 am

如何使用伯特?

Post by arafatenzo »

使用 BERT 来完成特定任务相对简单:

BERT 可用于广泛的语言任务,仅在主模型上添加一小层。情感分析等分类任务的执行方式与下一个句子分类类似,通过在 [CLS] 标记的转换器输出顶部添加分类层。
在问答任务中(例如SQuAD v1.1),软件收到有关文本 土耳其电话格式 序列的问题,并需要在序列中标记答案。使用 BERT,可以通过学习两个标记答案开始和结束的额外向量来对齐问答模型。
在命名实体识别 (NER)中,软件接收标记文本中出现的各种实体类型(人员、组织、日期等)所需的文本序列。使用 BERT,可以通过将每个标记的输出向量输入到预测 NER 标签的分类层来训练 NER 模型。
谷歌如何采用它?
BERT 中语言模型的对齐是通过预测输入中随机选择的 15% 的标记来实现的。这些 token 的预处理如下:80% 被替换为“[MASK] token”,10% 被替换为随机单词,10% 使用原始单词。

导致作者选择这种方法的直觉如下:

Image


如果我们100% 的时间都使用 [MASK],则模型不一定会为未屏蔽的单词生成良好的标记表示。未屏蔽的标记仍用于上下文,但模型经过优化以预测屏蔽的单词。
如果我们90% 的时间使用 [MASK],10% 的时间使用随机单词,这将告诉模型观察到的单词永远不会正确。
如果我们 90% 的时间使用[MASK],并在 10% 的时间保持单词相同,则模型可以轻松复制非上下文嵌入。
Google 对 Bert 有何评价?
“这些变化旨在提高语言理解,特别是对于更多语言/会话查询,因为 BERT 能够帮助搜索更好地理解搜索中单词的细微差别和上下文,并更好地将这些查询与有用的结果相匹配,特别是对于更长、更具会话性的结果。当“for”和“as”等介词对含义很重要的查询或搜索时,BERT 将能够理解查询中单词的上下文,所有这些都使搜索更加自然。
Post Reply