解码为人工智能绘制文本的含义:初学者指南

为 AI 映射文本的意义

想象一下,你的任务是教一位来自遥远星系的访客什么是 "苹果"。这个外星人非常聪明,但他们一句英语都不会说,也不会说任何人类语言。不过,它们有一种超能力:它们绝对是数字方面的天才。他们可以在脑子里飞快地计算出复杂的轨迹,但 "红 "或 "甜 "对他们来说毫无意义。

为了解释一个苹果,你决定使用坐标系。你告诉外星人:"在甜度轴上,这个物体是 7;在脆度轴上,它是 8;在色谱上,它位于坐标 650(红色)"。

突然,外星人 "明白 "了。他们不知道苹果这个词,但他们理解了苹果相对于 "柠檬 "或 "石头 "的数学位置。这就是为人工智能绘制文本的本质意义。它是将我们杂乱无章、情绪化和复杂的人类语言,翻译成计算机可以计算的数字(向量)"映射 "的过程。

简单来说,"绘制文本 "是什么意思?

当我们谈论为人工智能绘制文本地图的意义时,我们是在描述将语言转化为空间 "地图 "的过程。

在我们人类的大脑中,"猫 "这个词会引发毛发、胡须的图像,或许还有关于宠物的记忆。在人工智能的 "大脑 "中,没有图像,只有多维空间。可以把它想象成一个巨大的三维(甚至万维)房间。在这个房间里,存在的每一个单词都有一个特定的位置。

这张地图的关键在于邻近性。在一个地图完善的人工智能系统中

  • 猫 "和 "狗 "相邻而坐,因为它们都是宠物和动物。
  • "猫 "和 "小猫 "几乎在同一个座位上。
  • 猫 "和 "智能手机 "站在房间的两边,因为它们几乎没有共同点。

人类理解与人工智能绘图

尺寸 人类的理解(文本) 人工智能绘图(向量/数学)
基本单元 单词、短语和情感 数字列表(例如 [0.12、-0.5、0.8)
逻辑 "苹果是一种水果"。 "苹果 "和 "水果 "的数学相似度很高
加工 阅读、移情和语境 矩阵乘法和概率
目标 交流或感受 预测下一个逻辑坐标

文本地图 "是由什么构成的?(常见制图形式)

"映射 "不只是一个单一的动作,而是一个工具包。根据人工智能需要做的事情,"映射 "可能看起来有所不同。以下是人工智能绘制文本的五种最常见方式:

① 标记化(文本分割)

这就是 "乐高 "stage。在人工智能绘制句子之前,它会将句子分割成更小的片段,称为 "标记"。

示例:"我爱阳光 "变为["我"、"爱"、"阳光"]。

② 嵌入(文本到数字)

这是最著名的映射形式。它为每个标记分配一组坐标,这些坐标就在我们说过的那个巨大的 "房间 "里。

示例:国王 "这个词可能被映射到空间中的一个点上。如果从 "King "减去 "Man "坐标,再加上 "Woman "坐标,人工智能的地图就会真正指向 "Queen "坐标。

标签(文本到标签)

在这里,人工智能将单词映射到它们的语法或结构作用上。

示例:在句子 "苹果公司正在招聘 "中,人工智能将 "苹果 "映射到标签[组织]而不是[水果]。

信息提取(从文本到结构)

这可以将凌乱的段落映射成整齐的表格。

示例:将航班确认电子邮件映射为结构化地图:日期: 10 月 10 日10 月 10 日,目的地:纽约市,登机口:B2:纽约市,登机口:B2。

⑤ 特征映射(从文本到模式)

人工智能将文字映射到特定的 "氛围 "或风格上。

示例:示例:它将一封长电子邮件映射为 "正式 "模式或 "讽刺 "模式。

这幅 "地图 "究竟是如何绘制的?步骤

创建文本地图就像为人类思维建立 GPS 系统。它分为三个复杂的步骤:

步骤 1:标记化(部件清单)

人工智能首先会解构你的句子。它不仅会看单词,还会看前缀和后缀。例如,"unhappy "可能会被拆分成 un 和 happy。这有助于人工智能理解,无论 "un "在地图上出现在哪里,它通常都表示 "相反"。

步骤 2:嵌入(初始坐标)

人工智能会在其 "字典 "中查找每个标记。但这不是一本普通的字典,而是一张巨大的数字表。每个词都有一个初始位置。不过,这些位置都是静态的,它们还不知道谁是它们的邻居。

步骤 3:情境关联("注意 "机制)

这就是 ChatGPT 等现代人工智能的 "魔力 "所在。它使用一种名为 "注意力 "的东西。把它想象成实时更新的 GPS。

  • 如果课文说:"我到岸边去钓鱼",那么 "钓鱼 "一词就向 "岸边 "发出了信号。
  • 然后,人工智能将 "银行 "的坐标从 "钱 "转移到 "河"。
  • 这种动态映射可确保人工智能 "理解 "特定句子中单词的特定含义。
创建文本地图

一个简单的例子:逐步映射文本

让我们看看人工智能是如何映射这个句子的"球棒飞过球场"

1️⃣ 令牌化:[蝙蝠飞过田野]

2️⃣ 初始映射:"蝙蝠 "可以是棒球棒,也可以是一种动物。其坐标目前位于 "中间"。

3️⃣ 情境映射:

  • 人工智能看到了 "飞 "字。
  • "Flew "是 "翅膀"、"天空 "和 "鸟儿 "的近义词。
  • 人工智能应用了 "注意":它将 "蝙蝠 "的坐标拉近到地图的 "动物/哺乳动物 "区域,而远离 "运动器材 "区域。

4️⃣最终结果:人工智能现在有了一张数学地图,在这张地图上,"蝙蝠 "位于 "夜行生物 "附近。

我们为什么要绘制文本地图?

映射听起来像是很多数学上的繁重工作。为什么不让人工智能像我们一样读词呢?因为映射可以让人工智能创造 "奇迹",而简单的关键字匹配是做不到的:

  • 语义搜索:如果您搜索 "婴儿服装",映射的人工智能就会显示 "婴儿服装"。尽管单词不同,但它们在 "地图 "上的位置几乎完全相同。
  • 情感分析:人工智能可以描绘评论的 "语气"。它可以看出顾客是真心高兴,还是使用 "讽刺坐标 "来抱怨产品。
  • 通用翻译:这是最漂亮的用法。在人工智能的概念图中,"苹果"(英文)和 "平果"(中文)的坐标完全相同。对人工智能来说,这是同一个点,只是在人类语言中有着两个不同的名称。

绘制这些地图需要什么?

要绘制整个人类语言的地图,人工智能需要 "阅读 "几乎所有的文字--数以亿计的网页、书籍和文章。这就是所谓的 "训练数据"。

然而,收集这些数据并非易事。许多研究人员和开发人员都面临着巨大的障碍: 数据访问.

为了使人工智能 "地图 "完整无误,研究人员必须收集世界各地的文本。然而,许多网站都有限制或区域封锁,无法轻松访问这些数据。这就是像 OkeyProxy 就会发挥作用。通过使用 住宅代理这样,人工智能开发人员就可以访问多样化的全球文本数据,而不会受到服务器的阻挡,从而确保他们的人工智能 "地图 "尽可能准确和具有包容性。

常见误解:人工智能 "理解 "我吗?

我们很容易被冲昏头脑,以为人工智能真的会 "思考"。我们必须坦率地说:人工智能并不 "知道 "母爱是什么感觉,也不知道草莓是什么味道。它只知道这些词与其他词之间有特定的数学关系。

  • 制图≠翻译:它是实现翻译的过程。
  • 映射≠标记:标签只是地图的一种小类型。
  • 绘图≠意识:人工智能不是在 "思考",而是在计算海量数据云中两点之间的最短距离。
  • 映射 = 数学表达:它是人类诗歌与计算机逻辑之间的桥梁。

绘制文本与训练人工智能一样吗?

这是一个经常引起混淆的问题。可以这样想:训练是建造 "地图室 "并教会人工智能如何摆放所有家具的漫长而昂贵的过程。绘图则是人工智能在你每次输入提示框时都要做的事情。

特点 训练人工智能 映射文本
何时发生? 人工智能发布前几个月 每次按 "回车键 "时
它会改变人工智能吗? 是的,它创建了人工智能的 "大脑"。 不,它只是使用现有的 "大脑"
资源成本 数百万美元的电费和芯片费 分的分数
目标 学习单词之间的关系 在地图上放置特定句子

结论:绘图是人工智能的基础

如果没有文本映射,人工智能将是一台盲目的机器,只能看到杂乱无章的字母和符号。映射赋予了人工智能 "视觉"。它将我们的故事、我们的问题和我们的数据转换成一个逻辑图景,让计算机最终能在其中与我们相遇。

💡 附录:人工智能文本映射外行术语表

如果您还不太了解技术术语,这里有一份快速 "小抄",帮助您掌握对话技巧:

学期 简单定义 想想看
制图 将人类文本转化为数学格式的整个过程。 绘制一张地图,每个单词都有自己的 GPS 坐标。
令牌化 将句子分割成小块(单词、前缀或字符)。 将乐高城堡拆成一块块独立的砖块。
嵌入 将单词表示为数字列表(向量)的一种特定方式。 为一个描述其个性的词赋予一个 "社会 ID 号"。
矢量 表示单词的数字列表的数学名称。 人工智能地图上某个单词的确切经纬度。
请注意 这种机制可帮助人工智能关注句子中哪些词之间最相关。 当聚光灯看到 "银行 "一词时,就会照亮 "河流 "一词。
NLP 自然语言处理--以人类语言为研究对象的人工智能领域。 人工智能世界的 "英语系"。
语义学 与单词的意义而不仅仅是拼写有关。 理解 "家 "和 "房子 "是一回事,即使它们看起来不同。

评论

还没有评论。为什么不开始讨论?

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注