|
|

楼主 |
发表于 2021-5-29 18:49:56
|
显示全部楼层
2. 请指出通过图灵测试来测试机器是否有“智能”的不足之处。, Z/ s. A7 ^: M! ? M
答:图灵测试到底能不能作为真正意义上的智能的评判标准?( w, h' `0 y& W$ L( O/ \: F
图灵测试(The Turing test)由艾伦·麦席森·图灵发明,指测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。 进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。 ; Q( j, _* M' u
先抛答案:关于智能标准问题,图灵测试是极为重要的,也是最为人所熟知的,但却不是唯一的。除 图灵测试(Turing Test,称为TT)之外,哈纳德的总体图灵测试(Total Turing Test,称为TTT)、施韦泽的 真正总体图灵测试(Truly Total Turing Test,称为TTTT)、Selmer Bringsjord、Paul Bello和David Ferrucci等提出的 洛芙莱斯测试(Lovelace Test),都是智能的判定标准。这几种方案内容如何,孰优孰劣,下面详细陈述。篇幅略长。
' F- q7 g4 w0 b' s9 T9 Z1 ^
' d# p" o- X- ?; _% c1、问题起源——机器能够思维(think,或思考)吗?1 r0 F: v1 y5 Q$ {
阿兰•图灵(Alan Turing)在《心灵》(Mind)杂志上发表Computing Machinery and Intelligence一文,提出了判断一台计算机是否具智能的测试法,即图灵测试。在当时,“机器能够思维吗?”是哲学界激烈讨论的一个问题。图灵显然意识到这个问题定义并未清晰并且容易引发歧义,因此需要用另外一个明确的问题替代它,即“机器是否能通过‘模拟游戏’的测试?”请注意这里,在图灵看来,机器如果通过这个模拟游戏,便说明机器能做出人需要智能才能完成的活动,那么机器便具有与人的智能。就是说,在这个语境下,“机器具有智能”等同于“机器通过测试”。2 I. F. ~5 E- G Z' H9 u% F
" ?# W C& @4 _; F1 x2、图灵测试
; O, v+ X4 g/ l6 s8 j9 |: }问题“机器能够思维吗?”被转化成,考察机器能否通过某种行为测试,由机器的外部行为来说明其内部心智问题,即一旦机器能展现出与人类通过思维展现出的行为相同或相似的行为活动,则有理由相信机器与人一样具有思维。图灵测试的关键在于,通过图灵测试的机器被认为具有思维能力,而思维能力是智能最为重要的体现,因而认为通过图灵测试的机器具有智能。由此,图灵设计了一个模拟游戏,用来代表这种只能依靠思维才能展现出的活动,其主要设计内容如下:: t M! X6 q! b6 h$ I4 Z1 A5 z
5 ~; L' T: P( m: z$ r; H9 t
(1)第一阶段:男人A、女人B、询问者C,三者各自在不同房间中,相互之间无法辨认对方是谁(或者说无法辨认对方是人还是机器)。询问者C以X、Y来代替A、B。可以询问A和B一系列问题,用来确定AB两人谁是男人谁是女人。为避免询问者C依靠声音辨别A和B,因此相互沟通是以文本作为载体。A的目标是尽可能使C做出错误判断,B的目标则是尽可能帮助C辨别。询问一系列问题后游戏结束。C给出自己的判断,如“X是A,Y是B”或者“X是B,Y是A”。这个判断是依据C的一系列提问得出,但这个判断并不一定是正确的。" b2 G' n+ |+ R) r( j( _# C
7 W' _5 O5 f/ e* b) h& a r* A
(2)第二阶段:在不知情的情况下,用一台机器D来代替男人A,重复以上的游戏。由此图灵导出了一个问题:在参与者为A、B、C和参与者为D、B、C两种情况下,C做出判断的错误次数会是一样多吗?如果机器D骗过询问者C的次数与男人A接近,至少在这个游戏中,实在没有什么理由不认为机器拥有和男人A一样的思维。机器在游戏中所展现的行为越接近与人类,就越有可能通过测试。
( Q: v3 q3 P+ S$ r
$ Q& J/ R3 l% m" A# D+ r5 @; R3、反对意见与中文屋论证
) x. r) s; T. q: L图灵的主要逻辑是,思维是智能的主要内容,行为又是思维的主要表现,而语言行为则有是行为的核心。因此,语言交互能力作为验证机器智能的条件。更为确切地说,图灵将机器是否具有与人“高度相似的语言行为”作为判断机器智能的依据。对于这种“高度相似”,存在一些问题。
+ ]% \; j! u! L/ g6 Z6 \! J! I0 i0 L, i# k
(1)图灵在第二阶段测试中将机器代替了人,会导致前后两阶段的效力不一样。首先,在第一阶段中三者的交流是纯粹的人类语言,询问者将语言行为作为判断的依据。
, O z4 a+ d9 }( A& F(2)在第二阶段中,机器交互的并不是人类语言,询问者将这种机器语言与人类语言的相似性作为判断的依据。这种相似性不能作为判断的依据,模拟人类的行为无法说明其具有智能,最好的办法是直接观察机器能否与人类沟通。这得到许多例子的证明,其中比较极端的例子是,男人A可能无法通过图灵测试,但男人A无疑使具有人类的一切思维能力。
' R" b4 Q8 M7 R- q- ? a) }- ^3 g) W1 n0 ^
更为系统性地反驳当属塞尔的中文屋论证,即著名的意识论反对意见。塞尔在Minds Brains And Programs一文中给出了这一论证的基本结构。, J! o# [- ]0 h
9 ?7 C8 ?2 k* j( W(1)塞尔被锁于一间房间内。他对中文既看不懂又不会写更不会说,对于他来说,中文与一堆潦草的难以辨认的没有意义的符号没什么区别。
5 [- L- I9 d; t6 s! Z(2)塞尔拥有一组能读懂的用英文写成的规则(类似于说手册),这组规则将指导塞尔以某种(中文)符号来回应屋外传入的中文纸条。
& y" f2 ~; u8 ?, W# X. a
) X, `: f8 O$ N) E* B当中文屋中的塞尔依据说明书来操作某些(中文)符号来回答屋外人的中文提问,那么人们会认为它的回答与那些母语是中文的人的回答没有差异。在屋外人看来,塞尔似乎具有智能。而计算机就相当于中文屋中的塞尔!
+ L' Q! V9 @% U! d( ]; ?# z; U8 |6 ]- M/ j5 S+ {! S, D
但事实是,屋内的塞尔对中文一窍不通,他如程序员操作计算机一样来操作那些中文符号时,他几乎能骗过所有人,满足图灵测试。一言以概之,中文屋论证说明,计算机无法理解人类的语言,即使它通过巧妙地回答等行为让许多人认为它能理解,但事实是它不能理解。塞尔中文屋论证对图灵测试给予了直接打击,使人们对机器能力有了更为准确的把握,并由此开启了人工智能哲学的一系列交锋。5 {# l2 [+ r. Y8 F! c
! r% P x/ T) K) D4、图灵测试太难了:弗兰奇与海鸥测试6 C+ |/ s M! w
弗兰奇在1990年发表的Subcognition and the Limits of the Turing Test一文。首先,他认为除非机器拥有“潜在人类认知机制”(human subcognitive substrate),否则无法通过图灵测试。但是,暂不论开发具有“潜在人类认知机制”的机器,就连开发具有“人类认知机制”(human cognitive substrate)的机器都几乎是难以实现的,因此要求机器通过图灵测试实在太难。测试的结果变成判定对方是不是人,而测试本来的目的却是判定对方(不确定是机器或是人)是否具有智能。这些用以辨别机器是否具有智能的提问,变成了辨别机器是否具有人类智能的提问。
& {/ \0 d! p5 H' {* y为说明此问题,他构想了一种海鸥测试,用以判定飞行的本质。该测试假设一个物体的飞行轨迹与海鸥相似就算通过了测试。那么在这个测试中,飞机、甲虫、麻雀均无法通过,但是飞机、甲虫、麻雀显然能够飞行。它们无法通过海鸥测试的原因是,海鸥测试由判定飞行的测试变成了判定海鸥的测试。同样,图灵测试也是由判定智能的测试变成了判定人的测试。/ y4 Z) P p/ I
一言以概之,弗兰奇认为,图灵测试并不是在检验一般意义上的智能,而是检验人类的智能。而这种关于人类的智能的测试——图灵测试,已经变成了关于人的测试。
# H9 B! d% @% d, D- [* m! a7 s( Z
3 X1 p" O. z/ t( D* F1 ~/ u5 D5、图灵测试太简单了:哈纳德的总体图灵测试
/ W* }( a1 y5 _/ N3 \- D* I教育心理学家霍华德•加德纳(Howard Gardner)曾提出多元智能理论(MI,multiple itelligences),认为人类智能至少有七种相对独立的智能形式:语言智能、数学逻辑智能、音乐智能、身体运动智能、定向智能、人际关系智能、自我认识智能。暂不论加德纳的智能划分是否准确,至少可以认为,图灵测试必定遗漏了某些能力。正因如此,哈纳德认为图灵只重视了“语言智能”而未能考虑其他智能,而这些智能似乎都是需要通过外部感官才能实现的能力,因此哈纳德将其称为“感觉运动能力”。
2 x$ N& u8 o! d' D1 ~& k! f. W$ x0 [! d0 e& R' p
哈纳德于1991发表的论文中宣称“比图灵测试更好的测试将是需要对我们所有输入的反应,而不仅仅是文本格式的语言输入。” 而在他2000年发表的另一篇文章中,将图灵测试的各种版本整理成一个图灵体系,划分为五个层次(T1-T5)。T2便是我们熟知的图灵测试,称为标准图灵测试。但是哈纳德认为,通过T5或者T4测试的机器难以在可想象的实践中诞生,因此T3是最为恰当的标准,他将其称为“总体图灵测试”。
K" {- k+ c1 [8 W1 J. \5 \
f# G7 x6 j! P- E+ _$ |: f显然,总体图灵测试包含了图灵测试,并将条件由图灵测试的语言行为(文本交互)扩展为语言行为(文本交互)和感觉运动能力。只有机器同时展现出语言行为和感觉运动能力并骗过人类时,才认为机器通过了总体图灵测试。
5 _$ i: ^) b8 w$ z( n7 L2 Z+ n# H; Q5 ^' P4 ?
但是,总体图灵测试也面临许多反对意见:(1)通过测试的难度实在太大。(2)众多图灵测试的版本都会面临的他心问题,即,询问者能直接觉知自己的心智状态,却不能认知他人的心智状态。 v" ?1 j1 R5 e) p
, N, \& s q4 a. a- n6、施韦泽的真正总体图灵测试& s4 M# ^2 R9 T* z3 v4 _
施韦泽认为,总体图灵测试仍有纰漏。1998年,他发表The Truly Total Turing Test一文,宣称:“比图灵测试更好的测试将会论及进化历史。”人类依靠其智力成就了历史,因此如果我们认为机器拥有智能则机器必须也如同人类一样具有进化历史,这将不仅仅表现为机器能通过“图灵测试”,还需要进一步“进化”,比如机器能开发语言、发明新的游戏、组合新的交响乐等等。施韦泽承认,在实践中仅仅是“进行这个测试”都是不容易的。TTTT并不是对个体的测试,它指向的是一个整体(人类)。由于具有相同类型的神经生理学基础和相同的基本遗传信息的人类依然在个体上表现出智力差异,因而TTTT对具有相同认知类型的机器的测试必须是长期的、多代的评估。施韦泽于2012年发表的了一篇文章The Externalist Foundation of a Truly Total Turing Test,认为社会因素在语言哲学中的突出作用表明TTT要在根本性上转变为TTTT。前面说过,图灵和哈纳德都非常重视语言行为,但施韦泽认为他们都忽略了语言的社会因素,这种社会因素才是导致人类发生进化、进行创造并记录历史的原因,因而社会因素也应当成为机器智能的判定条件。机器通过TTT并不表明具有智能,还需要满足社会因素、融入人类或者自行创造社会、掌握人类语言等等。+ w0 t& ~2 A. z( j+ m- S6 d8 w7 j
, }8 _$ ~4 S7 T7、洛芙莱斯测试
/ h/ `5 }* ] U4 E7 G2 rSelmer Bringsjord、Paul Bello和David Ferrucci于2001年在文《Creativity, the Turing Test, and the (Better) Lovelace Test中提出,图灵测试不足以涵盖智能一词,一智能体通过图灵测试并不表明其拥有智能。他们提出了更为严格的测试,为了纪念著名的计算机程序创始人阿达•洛芙莱斯(Ada Lovelace),他们将这种测试命名为洛芙莱斯测试(Lovelace Test)。他们宣称“试图构建能够通图灵测试的计算系统的尝试已经变成了一种肤浅的符号操作,这种操作是通过欺骗或欺骗来实现的”。洛夫莱斯测试假设了三个对象:设计者H、人工智能A、A的输出O。由设计者H设计的A通过洛芙莱斯测试,必须满足以下三个条件:
; @( b) ]5 ]% ~. j(1)人工智能A产生输出O。
+ k% t9 t9 L: Q" F$ M3 g' ~(2)A输出O不是一个硬件错误,也不是偶然产物,而是A可重复过程的结果。
/ k, Y- k) ^& B9 A! W(3)H不能解释A如何通过A的架构、知识和核心功能产生了O。
) M: W: r& J! \1 n
, R* K1 M3 K9 |* [/ m7 I& h只有同时满足上述三个条件,才能认为A具有智能。对于A的输出O,可以是任何的一种创作,比如一首表达感情的歌曲或者一本文学小说,其输出形式并不重要,关键在于A输出O的创作过程。# R" u* |# c# e! Q
& a: b0 q8 V- g' m3 A$ A2 M
如果设计者H无法解释这个创作过程,那么我们有足够的理由认为O是有思考能力、有思想的智能体。显然,这比图灵测试严格许多。仅从人工智能的发展历史看,AI科技工作者确实由通过符号操作来欺骗询问者的嫌疑,在许多关于图灵测试的AI比赛中,AI科技工作者致力于构建一台能骗过30%询问者的机器,而非致力于让机器拥有某些人类特有的能力(比如语言能力)。
* I( D/ ~# Y0 u/ O0 [% `" F2 g% c7 i2 `* R" S9 }5 F0 `
8、回归智能标准问题! v$ q; O& \& I9 f! q" r
图灵对测试的提出引发了计算机科学、人工智能、人工智能哲学等诸多领域的探讨。而在争论的同时,人工智能发生着日新月异的进步。图灵测试(TT)着重考虑了语言行为,总体图灵测试(TTT)在此基础上增加了感觉运动能力,而真正总体图灵测试(TTTT)则又将人类进化和社会因素考虑进去,由此形成了具有继承性的图灵测试替代版本。而弗兰奇的海鸥测试表明图灵测试与目前人类技术相去甚远,但Selmer Bringsjord等人的洛芙莱斯测试则以更高的标准来判定智能。图灵测试及诸多替代版本都在某个程度上给出智能的判定标准,但又都无法完全回答智能的判定问题。- r, C, P* v) \6 Q; z
|
|