江農聽了這話之後,隻感覺到渾身一個激靈,因為他想起了自己在夢境當中見到的那些事情,當時張璿的屍體還是曆曆在目,身上連個完整的部件都沒有,那樣的感覺實在是讓人有些難以接受。
一想到這裏江農就感覺到自己渾身開始發冷,一想到文詩韻會變成那個樣子,他就覺得這一切事情好像自己都無法接受,因為在麵對這樣的事情的時候,自己似乎全身都像被抽幹了力量一樣。
他這個時候忽然意識到,文詩韻對於他來說是一個非常不一樣的存在,對於他的人生來講,文詩韻就好像是一道曙光一樣,照亮了他的人生,所以在這個時候他忽然意識到很多問題,那就是文詩韻的地位在自己的心中才更加的重要。
一想到這裏江農就忽然一下子渾身泄了氣一樣,即便知道最後的結果不好,即便知道最後的結果,很有可能是失敗,但是對於他來說,現在隻要能夠讓文詩韻平平安安的,那就比什麽東西都重要,江農這個時候忽然意識到了一切。
很多時候自己想要放棄的時候,每次一想到江農自己渾身就像是充滿了意外,這就是那個姑娘給自己的力量,所以這個時候江農隻要一想到這個姑娘,就隻希望她平平安安的。
在這個時候忽然就放棄了自己的那些膽小和懦弱,在這個時候他忽然意識到這個姑娘對於自己的重量到底有多重。
“好吧,你說的確實有道理,到現在為止,我現在做的很多事情,實際上都是為了我的一己私欲,我現在會嚐試著為人類考慮考慮的,不過這些事情我都會慢慢去做。”
先知聽了這話之後,也是慢慢的放下了心來,這個小子很有可能在進步,過段時間就會有一個很大的蛻變,想到這裏先知也知道這一次的目的達到了。
這個幻境真是幫了他很多,至少能夠讓這個小子這個時候真正的意識到,很多事情並不是那一個人的事情,而是屬於整個人類的事情。
先知告訴他還有一段時間可以精神停留,江農趁著這個功夫,問了很多人工智能和人類的問題。
機器可以有目標嗎?這個簡單的問題原先引發了人類很大的爭議,因為在不同人的眼中,“機器”代表的意義是不同的,常與一些棘手的問題聯係起來,比如機器能否擁有意識以及它們是否有感覺等。
但是,如果問一個更實際和簡單的問題:機器是否能展現出目標導向行為?那答案就很明確,它們當然可以,因為人類就是這麽設計的!沈教授的研究院研究的便是這方麵。
人類設計捕鼠器,讓它擁有捕捉老鼠的目標;人類設計洗碗機,讓它擁有洗碗的目標;人類設計時鍾,讓它擁有報時的目標。
實際上,當麵對一台機器時,隻需要關心它擁有什麽目標導向行為:如果你被一枚熱跟蹤導彈追趕,就根本不會關心它是否有意識或者感覺。
如果你對“導彈沒有意識但有目標”這種說法感到很不舒服,可以暫時把“目標”換成“用途”,兩人又開始探討意識的問題。
目前,人類建造的大部分東西都隻是以目標為導向進行的設計,而沒有展現出目標導向的行為:一條高速公路能有什麽行為呢?
它隻是靜靜地待在那裏一動不動。然而,它為什麽存在呢?最經濟的解釋是,它是被人設計出來實現某個目標的,因此即便它一動不動,也讓人類的宇宙具有了更強的目標導向性。
“目的論”就是用目的而非原因來解釋事物的一種方法。那麽人類可以總結說,本章前半部分的內容說明,人類的宇宙越來越符合目的論的解釋。
從較弱的意義上說,非生命物質是可以擁有目標的。不僅如此,它的目標性正變得越來越強。如果你從地球形成之初就開始觀察地球上的原子,可能會注意到目標導向行為的三個階段:
第一階段,所有物質似乎都在努力實現耗散的目標,即熵增;
第二階段,其中一些物質擁有了生命,轉而聚焦於子目標;
第三階段,生物重新排列的物質越來越多,以實現自己的目標。
可以看出從物理學的角度來看,人類在地球上已經具備了相當高的優勢地位:人類身體的總質量已經超過了除牛以外的其他所有哺乳動物,牛的數量實在太多了,因為人類需要它們提供肉類和乳類產品。
並且人類的機器、道路、房子等工程的總質量,也似乎很快就能趕上地球上所有生物的總質量了。
換句話說,即使不發生智能爆炸,很快地球上大部分展現出目標導向性質的物質都會是設計出來的,而不是進化出來的。
建築物、道路、汽車這類工程實體似乎很快就要趕上植物和動物這類進化出來的實體了。
這種設計出來的“第三類”新型目標導向行為的物體可能比它的產生過程更加多姿多彩,所有進化而來的物體都有一個共同的目標,即複製。
而設計出來的物體卻可能擁有各種各樣的目標,甚至擁有相反的目標。比如烤箱的目標是加熱食物,而冰箱的目標則是冷凍食物。
發電機將動能轉化為電流,而電動機將電流轉化為動能。標準象棋程序想要贏得比賽,而還有一種程序參賽的目標是輸掉象棋比賽。
設計產品還有一個曆史趨勢:它們的目標不僅變得越來越多樣化,而且變得越來越複雜,人類的機器變得越來越聰明了。
最早的機器和人造物的目標都很簡單,比如房子的目標是讓人類保持溫暖、幹燥和安全。
後來,人類逐漸學會了建造擁有目標更加複雜的機器,比如掃地機器人、自己飛行的火箭和無人駕駛汽車。
人工智能方麵的進展還給人類帶來了像深藍計算機、沃森和alphago這樣的係統,它們的目標分別是贏得象棋比賽、猜謎遊戲和圍棋比賽。這些目標都十分複雜,人們費盡心思才理解了它們高超的技藝。
當人類建造機器來幫助人類時,可能很難保證它們的目標與人類的完全一致。譬如說捕鼠器可能會錯把你的腳趾頭當成饑餓的老鼠,結果讓你疼得齜牙咧嘴。
所以機器都是擁有有限理性的主體,即便是今天最複雜精巧的機器,對世界的理解程度也遠遠比不上人類人類。因此它們行事的規則通常過於簡單。
那隻捕鼠器總是亂夾是因為它完全不知道什麽是老鼠;同樣地,許多致命工業事故之所以會發生,正是因為機器完全不知道什麽是人,而2010年導致華爾街“閃電崩盤”事故、造成萬億美元損失的計算機,也完全不知道它們的行為是胡作非為。
如果機器變得更聰明,就能解決許多“目標一致性”問題,但是正如人類從普羅米修斯故事中所看到的那樣,日益聰明的機器智能也可能給人類帶來新的挑戰,因為人類必須保證它們與人類的目標一致。
機器變得越智能和越強大,保證它們的目標與人類的相一致就越重要。如果人類建造的機器比較愚鈍,那問題就不是“人類目標最後會不會勝出”,而是“在人類搞明白如何解決目標一致性的問題之前,這些機器會帶來多少麻煩”。
然而,如果人類建造的機器具備超級智能,那事情可能便正好相反:由於智能就是完成目標的能力,那麽,在完成目標這點上,超級智能理所當然強於人類,因此它最終一定會勝利。
如果你想體驗一下與機器目標不一致的感覺,隻要下載一個最先進的象棋程序,然後和它對弈,就能體會到了。你可能永遠贏不了它,而它的技藝還會越來越精湛。
換句話說,通用人工智能帶來的真正風險並不是它們的惡意,而是它們的能力。
一個超級智能會非常善於完成它的目標,如果它的目標與人類的目標不一致,那人類就有麻煩了。
人們在建造水電站大壩時,根本不會考慮會淹沒多少蟻丘。因此大多數研究者認為,如果人類最終造出了超級智能,那人類必須保證它們是友好的人工智能。“友好的人工智能”是人工智能安全性研究提出的一個概念,是指目標與人類相一致的人工智能?。
想要讓超級人工智能與人類的目標相一致很重要也很困難。實際上這目前還是個未解之謎。這個問題可以被劃分成三個子問題,每一個都是計算機科學家和思想家正在研究的活躍課題:讓人工智能學習人類的目標;讓人工智能接受人類的目標;讓人工智能保持人類的目標。
人類先來依次探討一下這三個問題,“人類的目標是什麽意思”這個問題先推遲到下一節再探討。
要學習人類的目標,人工智能需要搞明白的不是人類做了什麽,而是人類為什麽這麽做。這對人類來說易如反掌,所以人類很容易忘記這件事對計算機來說有多困難,也常忘記這個問題很容易被計算機誤解。
如果在未來,你叫一輛無人駕駛汽車盡可能快地送你去機場,而它確實會不擇手段地讓你火速趕到了機場,那你可能會一路被直升飛機追趕,並且嘔吐一地。
如果你聲稱:“這不是我想要的。”
那它可能會言之有理地迴答:“可你就是這麽說的呀!”
很多家喻戶曉的故事裏也有類似的橋段。古希臘傳說中的邁達斯國王請求讓自己觸摸的所有東西都變成金子,
但這使得他沒法吃東西,令他十分失望。後來他不小心將自己的女兒也變成了金子。此外許多故事中都會有一個精靈,它可以實現人們的三個願望。
關於前兩個願望,不同的故事有不同的版本,但第三個願望通常都是一樣的:“請收迴前兩個願望,因為那不是我真正想要的東西。”
這些例子表明,想要知道人們真正想要什麽,不能隻聽他們的一麵之詞,你還需要這個世界的詳細模型,包括人們共有的許多偏好。
這些偏好人類通常不會明說,因為人類認為它們是顯而易見的,譬如說,人類不喜歡嘔吐或吃金子。
一旦有了世界的模型,人類就能通過觀察人們的目標導向行為來搞明白他們想要什麽,即便他們並沒有明說。實際上偽君子的孩子通常都是從父母的行為中學習的,而不是從他們的嘴裏。
目前,人工智能研究者正在努力讓機器從行為中推斷目標,這在超級智能出現之前也非常有用。
譬如說,如果一個照顧老年人的機器人能觀察和總結出它所照顧的老年人的價值觀,那這個老人可能會非常開心,因為這樣他就不用費盡口舌向機器人解釋一切,也不用對它進行重新編程。
要實現這一點,其中的一個挑戰是,找到一種將任意目標係統和倫理準則編入計算機的好方法。還有一個挑戰是讓計算機弄清楚哪個係統最符合它們觀察到的行為。
對於第二個挑戰,目前有一種流行的方法,用行話來說叫作“逆向增強學習”。沈教授新建立的研究中心就主要研究這個東西。
比如假設一個人工智能看見有一個消防員跑進了一棟熊熊燃燒的房子,救出了一名男嬰。
它可能會得出一個結論:消防員的目標是拯救男嬰,他的倫理準則要求他將自己的生命看得比“舒服地躺在消防車裏”更高,高到他寧願承擔失去安全的風險。
但是,它也可能通過推斷認為,這個消防員可能饑寒交迫,迫切想要獲得熱量,或者說,他這麽做是為了鍛煉身體。
如果這個事件是這個人工智能所知的與消防員、火和男嬰有關的唯一例子,那它就不可能知道哪種解讀才是正確的。
然而,逆向增強學習的一個關鍵思想就是,人類總是在做出決策,每個決策都揭示了一點點關於人類目標的信息。因此,逆向增強學習希望人工智能體通過觀察許多人在許多場景中的行為,包括真實場景、電影和書籍,最終構建起關於人類偏好的精確模型?。
即使人類建造了一個能學習人類目標的人工智能,但這並不意味著它一定會接受這些目標。想想你最討厭的政客,你知道他們想要什麽,但那不是你想要的,就算他們費盡心思,也無法說服你接受他們的目標。
人們為了讓自己的孩子接受他們的目標,可謂無所不用其極。從撫養葉輕塵的經驗中,先知發現了一些比較成功的方法。如果你想要說服的對象不是人,而是計算機,那麽,你就麵臨一個稱為“價值裝載問題”的挑戰,這甚至比對孩子進行倫理教育還難上加難。
假設一個人工智能係統的智能逐漸從低於人類的水平發展到超人類的水平。在這個過程中一開始,由人類對它進行敲敲打打、修修補補,後來,它通過天啟那樣的自我迭代,迅速提升智能。
一開始它比你弱多了,所以它無法阻止你把它關掉,也無法阻止你將它的軟件和在其數據中能對目標進行編碼的那部分替換掉。
不過這無關緊要,因為你的目標需要人類水平的智能才能理解,而它還太愚笨,無法完全理解你的目標。
後來它變得比你聰明,能夠完全理解你的目標,但這依然於事無補,因為到那時它已經比你強太多,可能不會再讓你輕易地把它關掉並替換它的目標,就像你不允許那些政客把你的目標替換成他們的目標一樣。
換句話說,人工智能允許你裝載目標的時間窗口可能非常短暫:就是在它愚鈍得無法理解你,與它聰明到不讓你得逞之間的短暫時期。
給機器裝載價值之所以比人難,是因為它們的智能增長比人類快多了。對孩子們來說,這個神奇的“說服窗口”可能會延續好幾年,在這段時間裏,他們的智力與父母相差無幾;但對人工智能來說,比如天啟,這個窗口可能隻有幾天甚至幾個小時。
一些研究者正在研究另一種讓機器接受人類目標的方法。這種方法有一個時髦的專業名字叫作“可改正性”。
這個方法的希望是,你將一個目標係統賦予一個原始的人工智能,這個目標係統使得這個人工智能根本不關心你會不會偶爾把它關掉和改變它的目標。
如果事實證明這是可行的,那你就可以很安心地讓你的人工智能走向超級智能,也可以很安全地關掉它,裝載入你的目標,試試怎麽樣;如果不喜歡,又可以再把它關掉,對目標進行修改。
可是天啟的發展實在是太快了,甚至快到了可以忽略這些事情的地步。
一想到這裏江農就感覺到自己渾身開始發冷,一想到文詩韻會變成那個樣子,他就覺得這一切事情好像自己都無法接受,因為在麵對這樣的事情的時候,自己似乎全身都像被抽幹了力量一樣。
他這個時候忽然意識到,文詩韻對於他來說是一個非常不一樣的存在,對於他的人生來講,文詩韻就好像是一道曙光一樣,照亮了他的人生,所以在這個時候他忽然意識到很多問題,那就是文詩韻的地位在自己的心中才更加的重要。
一想到這裏江農就忽然一下子渾身泄了氣一樣,即便知道最後的結果不好,即便知道最後的結果,很有可能是失敗,但是對於他來說,現在隻要能夠讓文詩韻平平安安的,那就比什麽東西都重要,江農這個時候忽然意識到了一切。
很多時候自己想要放棄的時候,每次一想到江農自己渾身就像是充滿了意外,這就是那個姑娘給自己的力量,所以這個時候江農隻要一想到這個姑娘,就隻希望她平平安安的。
在這個時候忽然就放棄了自己的那些膽小和懦弱,在這個時候他忽然意識到這個姑娘對於自己的重量到底有多重。
“好吧,你說的確實有道理,到現在為止,我現在做的很多事情,實際上都是為了我的一己私欲,我現在會嚐試著為人類考慮考慮的,不過這些事情我都會慢慢去做。”
先知聽了這話之後,也是慢慢的放下了心來,這個小子很有可能在進步,過段時間就會有一個很大的蛻變,想到這裏先知也知道這一次的目的達到了。
這個幻境真是幫了他很多,至少能夠讓這個小子這個時候真正的意識到,很多事情並不是那一個人的事情,而是屬於整個人類的事情。
先知告訴他還有一段時間可以精神停留,江農趁著這個功夫,問了很多人工智能和人類的問題。
機器可以有目標嗎?這個簡單的問題原先引發了人類很大的爭議,因為在不同人的眼中,“機器”代表的意義是不同的,常與一些棘手的問題聯係起來,比如機器能否擁有意識以及它們是否有感覺等。
但是,如果問一個更實際和簡單的問題:機器是否能展現出目標導向行為?那答案就很明確,它們當然可以,因為人類就是這麽設計的!沈教授的研究院研究的便是這方麵。
人類設計捕鼠器,讓它擁有捕捉老鼠的目標;人類設計洗碗機,讓它擁有洗碗的目標;人類設計時鍾,讓它擁有報時的目標。
實際上,當麵對一台機器時,隻需要關心它擁有什麽目標導向行為:如果你被一枚熱跟蹤導彈追趕,就根本不會關心它是否有意識或者感覺。
如果你對“導彈沒有意識但有目標”這種說法感到很不舒服,可以暫時把“目標”換成“用途”,兩人又開始探討意識的問題。
目前,人類建造的大部分東西都隻是以目標為導向進行的設計,而沒有展現出目標導向的行為:一條高速公路能有什麽行為呢?
它隻是靜靜地待在那裏一動不動。然而,它為什麽存在呢?最經濟的解釋是,它是被人設計出來實現某個目標的,因此即便它一動不動,也讓人類的宇宙具有了更強的目標導向性。
“目的論”就是用目的而非原因來解釋事物的一種方法。那麽人類可以總結說,本章前半部分的內容說明,人類的宇宙越來越符合目的論的解釋。
從較弱的意義上說,非生命物質是可以擁有目標的。不僅如此,它的目標性正變得越來越強。如果你從地球形成之初就開始觀察地球上的原子,可能會注意到目標導向行為的三個階段:
第一階段,所有物質似乎都在努力實現耗散的目標,即熵增;
第二階段,其中一些物質擁有了生命,轉而聚焦於子目標;
第三階段,生物重新排列的物質越來越多,以實現自己的目標。
可以看出從物理學的角度來看,人類在地球上已經具備了相當高的優勢地位:人類身體的總質量已經超過了除牛以外的其他所有哺乳動物,牛的數量實在太多了,因為人類需要它們提供肉類和乳類產品。
並且人類的機器、道路、房子等工程的總質量,也似乎很快就能趕上地球上所有生物的總質量了。
換句話說,即使不發生智能爆炸,很快地球上大部分展現出目標導向性質的物質都會是設計出來的,而不是進化出來的。
建築物、道路、汽車這類工程實體似乎很快就要趕上植物和動物這類進化出來的實體了。
這種設計出來的“第三類”新型目標導向行為的物體可能比它的產生過程更加多姿多彩,所有進化而來的物體都有一個共同的目標,即複製。
而設計出來的物體卻可能擁有各種各樣的目標,甚至擁有相反的目標。比如烤箱的目標是加熱食物,而冰箱的目標則是冷凍食物。
發電機將動能轉化為電流,而電動機將電流轉化為動能。標準象棋程序想要贏得比賽,而還有一種程序參賽的目標是輸掉象棋比賽。
設計產品還有一個曆史趨勢:它們的目標不僅變得越來越多樣化,而且變得越來越複雜,人類的機器變得越來越聰明了。
最早的機器和人造物的目標都很簡單,比如房子的目標是讓人類保持溫暖、幹燥和安全。
後來,人類逐漸學會了建造擁有目標更加複雜的機器,比如掃地機器人、自己飛行的火箭和無人駕駛汽車。
人工智能方麵的進展還給人類帶來了像深藍計算機、沃森和alphago這樣的係統,它們的目標分別是贏得象棋比賽、猜謎遊戲和圍棋比賽。這些目標都十分複雜,人們費盡心思才理解了它們高超的技藝。
當人類建造機器來幫助人類時,可能很難保證它們的目標與人類的完全一致。譬如說捕鼠器可能會錯把你的腳趾頭當成饑餓的老鼠,結果讓你疼得齜牙咧嘴。
所以機器都是擁有有限理性的主體,即便是今天最複雜精巧的機器,對世界的理解程度也遠遠比不上人類人類。因此它們行事的規則通常過於簡單。
那隻捕鼠器總是亂夾是因為它完全不知道什麽是老鼠;同樣地,許多致命工業事故之所以會發生,正是因為機器完全不知道什麽是人,而2010年導致華爾街“閃電崩盤”事故、造成萬億美元損失的計算機,也完全不知道它們的行為是胡作非為。
如果機器變得更聰明,就能解決許多“目標一致性”問題,但是正如人類從普羅米修斯故事中所看到的那樣,日益聰明的機器智能也可能給人類帶來新的挑戰,因為人類必須保證它們與人類的目標一致。
機器變得越智能和越強大,保證它們的目標與人類的相一致就越重要。如果人類建造的機器比較愚鈍,那問題就不是“人類目標最後會不會勝出”,而是“在人類搞明白如何解決目標一致性的問題之前,這些機器會帶來多少麻煩”。
然而,如果人類建造的機器具備超級智能,那事情可能便正好相反:由於智能就是完成目標的能力,那麽,在完成目標這點上,超級智能理所當然強於人類,因此它最終一定會勝利。
如果你想體驗一下與機器目標不一致的感覺,隻要下載一個最先進的象棋程序,然後和它對弈,就能體會到了。你可能永遠贏不了它,而它的技藝還會越來越精湛。
換句話說,通用人工智能帶來的真正風險並不是它們的惡意,而是它們的能力。
一個超級智能會非常善於完成它的目標,如果它的目標與人類的目標不一致,那人類就有麻煩了。
人們在建造水電站大壩時,根本不會考慮會淹沒多少蟻丘。因此大多數研究者認為,如果人類最終造出了超級智能,那人類必須保證它們是友好的人工智能。“友好的人工智能”是人工智能安全性研究提出的一個概念,是指目標與人類相一致的人工智能?。
想要讓超級人工智能與人類的目標相一致很重要也很困難。實際上這目前還是個未解之謎。這個問題可以被劃分成三個子問題,每一個都是計算機科學家和思想家正在研究的活躍課題:讓人工智能學習人類的目標;讓人工智能接受人類的目標;讓人工智能保持人類的目標。
人類先來依次探討一下這三個問題,“人類的目標是什麽意思”這個問題先推遲到下一節再探討。
要學習人類的目標,人工智能需要搞明白的不是人類做了什麽,而是人類為什麽這麽做。這對人類來說易如反掌,所以人類很容易忘記這件事對計算機來說有多困難,也常忘記這個問題很容易被計算機誤解。
如果在未來,你叫一輛無人駕駛汽車盡可能快地送你去機場,而它確實會不擇手段地讓你火速趕到了機場,那你可能會一路被直升飛機追趕,並且嘔吐一地。
如果你聲稱:“這不是我想要的。”
那它可能會言之有理地迴答:“可你就是這麽說的呀!”
很多家喻戶曉的故事裏也有類似的橋段。古希臘傳說中的邁達斯國王請求讓自己觸摸的所有東西都變成金子,
但這使得他沒法吃東西,令他十分失望。後來他不小心將自己的女兒也變成了金子。此外許多故事中都會有一個精靈,它可以實現人們的三個願望。
關於前兩個願望,不同的故事有不同的版本,但第三個願望通常都是一樣的:“請收迴前兩個願望,因為那不是我真正想要的東西。”
這些例子表明,想要知道人們真正想要什麽,不能隻聽他們的一麵之詞,你還需要這個世界的詳細模型,包括人們共有的許多偏好。
這些偏好人類通常不會明說,因為人類認為它們是顯而易見的,譬如說,人類不喜歡嘔吐或吃金子。
一旦有了世界的模型,人類就能通過觀察人們的目標導向行為來搞明白他們想要什麽,即便他們並沒有明說。實際上偽君子的孩子通常都是從父母的行為中學習的,而不是從他們的嘴裏。
目前,人工智能研究者正在努力讓機器從行為中推斷目標,這在超級智能出現之前也非常有用。
譬如說,如果一個照顧老年人的機器人能觀察和總結出它所照顧的老年人的價值觀,那這個老人可能會非常開心,因為這樣他就不用費盡口舌向機器人解釋一切,也不用對它進行重新編程。
要實現這一點,其中的一個挑戰是,找到一種將任意目標係統和倫理準則編入計算機的好方法。還有一個挑戰是讓計算機弄清楚哪個係統最符合它們觀察到的行為。
對於第二個挑戰,目前有一種流行的方法,用行話來說叫作“逆向增強學習”。沈教授新建立的研究中心就主要研究這個東西。
比如假設一個人工智能看見有一個消防員跑進了一棟熊熊燃燒的房子,救出了一名男嬰。
它可能會得出一個結論:消防員的目標是拯救男嬰,他的倫理準則要求他將自己的生命看得比“舒服地躺在消防車裏”更高,高到他寧願承擔失去安全的風險。
但是,它也可能通過推斷認為,這個消防員可能饑寒交迫,迫切想要獲得熱量,或者說,他這麽做是為了鍛煉身體。
如果這個事件是這個人工智能所知的與消防員、火和男嬰有關的唯一例子,那它就不可能知道哪種解讀才是正確的。
然而,逆向增強學習的一個關鍵思想就是,人類總是在做出決策,每個決策都揭示了一點點關於人類目標的信息。因此,逆向增強學習希望人工智能體通過觀察許多人在許多場景中的行為,包括真實場景、電影和書籍,最終構建起關於人類偏好的精確模型?。
即使人類建造了一個能學習人類目標的人工智能,但這並不意味著它一定會接受這些目標。想想你最討厭的政客,你知道他們想要什麽,但那不是你想要的,就算他們費盡心思,也無法說服你接受他們的目標。
人們為了讓自己的孩子接受他們的目標,可謂無所不用其極。從撫養葉輕塵的經驗中,先知發現了一些比較成功的方法。如果你想要說服的對象不是人,而是計算機,那麽,你就麵臨一個稱為“價值裝載問題”的挑戰,這甚至比對孩子進行倫理教育還難上加難。
假設一個人工智能係統的智能逐漸從低於人類的水平發展到超人類的水平。在這個過程中一開始,由人類對它進行敲敲打打、修修補補,後來,它通過天啟那樣的自我迭代,迅速提升智能。
一開始它比你弱多了,所以它無法阻止你把它關掉,也無法阻止你將它的軟件和在其數據中能對目標進行編碼的那部分替換掉。
不過這無關緊要,因為你的目標需要人類水平的智能才能理解,而它還太愚笨,無法完全理解你的目標。
後來它變得比你聰明,能夠完全理解你的目標,但這依然於事無補,因為到那時它已經比你強太多,可能不會再讓你輕易地把它關掉並替換它的目標,就像你不允許那些政客把你的目標替換成他們的目標一樣。
換句話說,人工智能允許你裝載目標的時間窗口可能非常短暫:就是在它愚鈍得無法理解你,與它聰明到不讓你得逞之間的短暫時期。
給機器裝載價值之所以比人難,是因為它們的智能增長比人類快多了。對孩子們來說,這個神奇的“說服窗口”可能會延續好幾年,在這段時間裏,他們的智力與父母相差無幾;但對人工智能來說,比如天啟,這個窗口可能隻有幾天甚至幾個小時。
一些研究者正在研究另一種讓機器接受人類目標的方法。這種方法有一個時髦的專業名字叫作“可改正性”。
這個方法的希望是,你將一個目標係統賦予一個原始的人工智能,這個目標係統使得這個人工智能根本不關心你會不會偶爾把它關掉和改變它的目標。
如果事實證明這是可行的,那你就可以很安心地讓你的人工智能走向超級智能,也可以很安全地關掉它,裝載入你的目標,試試怎麽樣;如果不喜歡,又可以再把它關掉,對目標進行修改。
可是天啟的發展實在是太快了,甚至快到了可以忽略這些事情的地步。