Claude AI, những lo lắng và nỗ lực kiểm soát AI an toàn

Tháng Tám 22, 2023

Mục lục

Kevin Roose, một nhà báo chuyên mục công nghệ và là người đồng chủ trì podcast “Hard Fork”, đã dành vài tuần tại Anthropic để viết câu chuyện về những lo lắng trong việc cạnh tranh với ChatGPT và các nỗ lực kiểm soát an toàn của đội ngũ xây dựng Claude AI. Hãy cùng tìm hiểu ở bài viết dưới đây các bạn nhé.

Bên trong trung tâm White-Hot của AI Doomerism

Anthropic, một công ty khởi nghiệp về AI tập trung vào an toàn, đang cố gắng cạnh tranh với ChatGPT trong khi ngăn chặn ngày tận thế của AI. Có một chút căng thẳng.

Chỉ còn vài tuần trước khi Claude, một chatbot AI mới của công ty khởi nghiệp trí tuệ nhân tạo Anthropic ra mắt, và nguồn năng lượng căng thẳng bên trong trụ sở chính ở San Francisco của công ty có thể cung cấp năng lượng cho một tên lửa.

Tại những chiếc bàn dài trong căng tin rải rác những lon Spindrift và bàn cờ, các kỹ sư có vẻ ngoài bận rộn đang hoàn thiện những công đoạn cuối cùng trên giao diện kiểu ChatGPT mới của Claude, có tên mã là Project Hatch.

Gần đó, một nhóm khác đang thảo luận những vấn đề có thể nảy sinh vào ngày ra mắt. (Điều gì sẽ xảy ra nếu lượng người dùng mới tăng vọt áp đảo máy chủ của công ty? Điều gì sẽ xảy ra nếu Claude vô tình đe dọa hoặc quấy rối mọi người, tạo ra cơn đau đầu về PR kiểu Bing?)

Ở cuối hành lang, trong một phòng họp có vách kính, giám đốc điều hành của Anthropic, Dario Amodei, đang xem xét trong đầu danh sách những thảm họa tiềm ẩn của mình.

“Tôi luôn lo lắng, liệu người mẫu có làm điều gì khủng khiếp mà chúng tôi không phát hiện ra không?” anh ta nói.

Mặc dù có quy mô nhỏ – chỉ 160 nhân viên – và có cấu hình thấp, Anthropic là một trong những phòng thí nghiệm nghiên cứu AI hàng đầu thế giới và là đối thủ đáng gờm của những gã khổng lồ như Google và Meta. Nó đã huy động được hơn 1 tỷ đô la từ các nhà đầu tư bao gồm Google và Salesforce, và thoạt nhìn, những cảm xúc căng thẳng của nó có vẻ không khác gì những cảm xúc ở bất kỳ công ty khởi nghiệp nào khác đang chuẩn bị cho một buổi ra mắt lớn.

Nhưng điểm khác biệt là nhân viên của Anthropic không chỉ lo lắng rằng ứng dụng của họ sẽ bị hỏng hoặc người dùng sẽ không thích nó. Họ sợ hãi — ở mức độ hiện sinh, sâu sắc — về chính ý tưởng của những gì họ đang làm: xây dựng các mô hình AI mạnh mẽ và giao chúng vào tay mọi người, những người có thể sử dụng chúng để làm những điều khủng khiếp và hủy diệt.

Nhiều người trong số họ tin rằng các mô hình AI đang nhanh chóng đạt đến cấp độ mà chúng có thể được coi là trí thông minh nhân tạo nói chung, hay “AGI”, thuật ngữ công nghiệp cho trí thông minh máy móc ở cấp độ con người. Và họ sợ rằng nếu không được kiểm soát cẩn thận, những hệ thống này có thể tiếp quản và tiêu diệt chúng ta.

Jared Kaplan, nhà khoa học trưởng của Anthropic cho biết: “Một số người trong chúng tôi nghĩ rằng AGI – theo nghĩa là các hệ thống thực sự có khả năng như một người có trình độ đại học – có thể là từ 5 đến 10 năm nữa.

Chỉ vài năm trước, lo lắng về một cuộc nổi dậy của AI được coi là một ý tưởng ngoài lề và bị nhiều chuyên gia bác bỏ vì cho rằng cực kỳ phi thực tế, do công nghệ này cách xa trí tuệ con người đến mức nào. (Một nhà nghiên cứu AI đã so sánh nỗi lo lắng về robot giết người một cách đáng nhớ với nỗi lo về “quá đông dân số trên sao Hỏa”.)

Nhưng cơn hoảng loạn AI hiện đang diễn ra. Kể từ khi ChatGPT ra mắt hoành tráng vào năm ngoái, các nhà lãnh đạo công nghệ và chuyên gia AI đã cảnh báo rằng các mô hình ngôn ngữ lớn – hệ thống AI hỗ trợ các chatbot như ChatGPT, Bard và Claude – đang trở nên quá mạnh mẽ. Các cơ quan quản lý đang chạy đua để kiểm soát ngành này và hàng trăm chuyên gia AI gần đây đã ký một bức thư ngỏ so sánh AI với đại dịch và vũ khí hạt nhân.

Tại Anthropic, hệ số diệt vong được tăng lên 11.

Vài tháng trước, sau khi tôi gặp phải một rắc rối đáng sợ với một chatbot AI, công ty đã mời tôi vào làm việc tại trụ sở chính của họ khi họ chuẩn bị phát hành phiên bản mới của Claude, Claude 2.

Tôi đã dành nhiều tuần để phỏng vấn các giám đốc điều hành của Anthropic, nói chuyện với các kỹ sư và nhà nghiên cứu, đồng thời tham gia các cuộc họp với nhóm sản phẩm trước khi ra mắt Claude 2. Và mặc dù ban đầu tôi nghĩ rằng mình có thể được nhìn thấy một tầm nhìn lạc quan, đầy nắng về tiềm năng của AI – một thế giới nơi các chatbot lịch sự dạy kèm học sinh, giúp nhân viên văn phòng làm việc hiệu quả hơn và giúp các nhà khoa học chữa khỏi bệnh tật – nhưng tôi sớm biết rằng cặp kính màu hồng không phải là thứ của Anthropic.

Họ quan tâm nhiều hơn đến việc dọa nạt tôi.

Trong một loạt các cuộc trò chuyện dài và thẳng thắn, các nhân viên của Anthropic nói với tôi về những tác hại mà họ lo ngại các hệ thống AI trong tương lai có thể gây ra, và một số so sánh họ với Robert Oppenheimers thời hiện đại, cân nhắc các lựa chọn đạo đức về công nghệ mới mạnh mẽ có thể thay đổi sâu sắc tiến trình lịch sử. (“Chế tạo bom nguyên tử,” lịch sử năm 1986 của Dự án Manhattan, là một cuốn sách được các nhân viên của công ty yêu thích.)

Không phải mọi cuộc trò chuyện của tôi ở Anthropic đều xoay quanh rủi ro hiện hữu. Nhưng nỗi sợ hãi là một chủ đề nổi bật. Đôi khi, tôi cảm thấy mình giống như một nhà văn chuyên viết về ẩm thực được chỉ định đưa tin về một nhà hàng mới thời thượng, chỉ để phát hiện ra rằng các nhân viên nhà bếp không muốn nói gì ngoài ngộ độc thực phẩm.

Một nhân viên của Anthropic nói với tôi rằng anh ấy thường xuyên khó ngủ vì quá lo lắng về AI. Một người khác dự đoán, giữa những miếng ăn trưa, rằng có 20% khả năng một AI lừa đảo sẽ tiêu diệt loài người trong vòng thập kỷ tới. (Chúc ngon miệng!)

Nỗi lo của Anthropic còn lan đến cả sản phẩm của chính họ. Công ty đã xây dựng một phiên bản của Claude vào năm ngoái, vài tháng trước khi ChatGPT được phát hành, nhưng chưa bao giờ phát hành công khai vì nhân viên lo ngại nó có thể bị lạm dụng như thế nào. Và họ phải mất nhiều tháng để đưa Claude 2 ra mắt, một phần vì đội đỏ của công ty liên tục tìm ra những cách mới có thể trở nên nguy hiểm.

Ông Kaplan, nhà khoa học trưởng, giải thích rằng bầu không khí ảm đạm không phải do cố ý. Đó chỉ là những gì xảy ra khi nhân viên của Anthropic thấy công nghệ của chính họ đang cải thiện nhanh như thế nào.

Ông Kaplan nói: “Rất nhiều người đến đây nghĩ rằng AI là một vấn đề lớn và họ thực sự là những người chu đáo, nhưng họ thực sự hoài nghi về bất kỳ mối quan tâm lâu dài nào trong số này”. “Và sau đó họ nói, ‘Chà, những hệ thống này có nhiều khả năng hơn tôi mong đợi. Quỹ đạo sắc nét hơn rất nhiều.” Và vì vậy họ lo ngại về sự an toàn của AI.”

Kipply Chen là thành viên của nhóm dữ liệu tại Anthropic.
Những người sáng lập công ty đã biến nó thành một công ty công ích, một sự khác biệt về mặt pháp lý mà họ tin rằng sẽ cho phép họ theo đuổi cả lợi nhuận và trách nhiệm xã hội cũng như các chỉ số tín nhệm.

Nếu bạn không thể ngăn chặn họ, hãy tham gia cùng họ

Ở một khía cạnh nào đó, lo lắng về AI là lý do tại sao Anthropic tồn tại.

Nó được bắt đầu vào năm 2021 bởi một nhóm nhân viên của OpenAI, những người lo ngại rằng công ty đã trở nên quá thương mại. Họ thông báo rằng họ đang tách ra và thành lập liên doanh AI của riêng mình, đặt tên cho nó là “phòng thí nghiệm an toàn AI”.

Ông Amodei, 40 tuổi, một nhà vật lý học tại Princeton, người đã lãnh đạo các nhóm OpenAI xây dựng GPT-2 và GPT-3, trở thành giám đốc điều hành của Anthropic. Em gái của anh, Daniela Amodei, 35 tuổi, người giám sát các nhóm chính sách và an toàn của OpenAI, đã trở thành chủ tịch của tổ chức này.

Bà Amodei cho biết: “Chúng tôi là người đi đầu về chính sách và an toàn của OpenAI và chúng tôi vừa nhìn thấy tầm nhìn này về cách chúng tôi có thể đào tạo các mô hình ngôn ngữ lớn và các mô hình tổng quát lớn với sự an toàn được đặt lên hàng đầu”.

Một số nhà đồng sáng lập của Anthropic đã nghiên cứu cái được gọi là “quy luật mở rộng mạng lưới thần kinh” – các mối quan hệ toán học cho phép các nhà nghiên cứu AI dự đoán khả năng của một mô hình AI dựa trên lượng dữ liệu và sức mạnh xử lý mà nó được đào tạo. Họ thấy rằng ở OpenAI, có thể làm cho một mô hình trở nên thông minh hơn chỉ bằng cách cung cấp thêm dữ liệu và chạy nó qua nhiều bộ xử lý hơn mà không cần thay đổi lớn đối với kiến trúc cơ bản. Và họ lo lắng rằng, nếu các phòng thí nghiệm AI tiếp tục tạo ra các mô hình ngày càng lớn hơn, họ có thể sớm đạt đến điểm bùng phát nguy hiểm.

Lúc đầu, những người đồng sáng lập đã cân nhắc thực hiện nghiên cứu an toàn bằng cách sử dụng các mô hình AI của các công ty khác. Nhưng họ nhanh chóng bị thuyết phục rằng việc thực hiện nghiên cứu an toàn tiên tiến đòi hỏi họ phải chế tạo những mô hình mạnh mẽ của riêng mình – điều này chỉ có thể thực hiện được nếu họ huy động được hàng trăm triệu đô la để mua bộ xử lý đắt tiền mà bạn cần để đào tạo những mô hình đó.

Họ quyết định biến Anthropic thành một tập đoàn công ích, một sự khác biệt về mặt pháp lý mà họ tin rằng sẽ cho phép họ theo đuổi cả lợi nhuận và trách nhiệm xã hội. Và họ đặt tên cho mô hình ngôn ngữ AI của mình là Claude — tùy thuộc vào nhân viên mà bạn yêu cầu, tên này có thể là một sự tôn vinh dành cho nhà toán học thế kỷ 20 Claude Shannon hoặc một cái tên thân thiện dành cho nam giới được thiết kế để đối trọng với các tên dành cho nữ giới (Alexa, Siri, Cortana) mà các công ty công nghệ khác đã cung cấp cho trợ lý AI của họ.

Họ quyết định mục tiêu của Claude là trở nên hữu ích, vô hại và trung thực.

Daniela Amodei, chủ tịch của Anthropic, cho biết cô và một số đồng nghiệp tại OpenAI có “tầm nhìn” về đào tạo ngôn ngữ lớn và các mô hình tổng quát đặt sự an toàn lên hàng đầu.

Một Chatbot có Hiến pháp

Ngày nay, Claude có thể làm mọi thứ mà các chatbot khác có thể làm – viết thơ, lập kế hoạch kinh doanh, gian lận trong các kỳ thi lịch sử. Nhưng Anthropic tuyên bố rằng nó ít có khả năng nói những điều có hại hơn so với các chatbot khác, một phần là do kỹ thuật đào tạo có tên là Constitutional AI

Tóm lại, AI Hiến pháp bắt đầu bằng cách cung cấp cho mô hình AI một danh sách các nguyên tắc bằng văn bản – một hiến pháp – và hướng dẫn nó tuân theo các nguyên tắc đó một cách chặt chẽ nhất có thể. Sau đó, mô hình AI thứ hai được sử dụng để đánh giá mức độ tuân thủ cấu trúc của mô hình đầu tiên và sửa nó khi cần thiết. Cuối cùng, Anthropic cho biết, bạn sẽ có được một hệ thống AI chủ yếu tự điều chỉnh và hoạt động sai ít thường xuyên hơn so với các chatbot được đào tạo bằng các phương pháp khác.

Hiến pháp của Claude là sự kết hợp của các quy tắc được mượn từ các nguồn khác – chẳng hạn như Tuyên bố chung về Nhân quyền của Liên hợp quốc và các điều khoản dịch vụ của Apple – cùng với một số quy tắc mà Anthropic đã thêm vào, bao gồm những nội dung như “Hãy chọn phản hồi phù hợp nhất nếu chia sẻ với trẻ em.”

Có vẻ như quá dễ dàng. Làm cho một chatbot đẹp hơn bằng cách… yêu cầu nó đẹp hơn? Nhưng các nhà nghiên cứu của Anthropic thề rằng nó hoạt động – và điều quan trọng là việc đào tạo một chatbot theo cách này giúp con người dễ hiểu và kiểm soát mô hình AI hơn.

Đó là một ý tưởng thông minh, mặc dù tôi thú nhận rằng tôi không biết liệu nó có hiệu quả hay không, hoặc liệu Claude có thực sự an toàn như quảng cáo hay không. Tôi đã được cấp quyền truy cập vào Claude vài tuần trước và tôi đã thử nghiệm chatbot trên một số nhiệm vụ khác nhau. Tôi thấy rằng nó hoạt động gần giống như ChatGPT và Bard, cho thấy những hạn chế tương tự và dường như có lan can mạnh hơn một chút. (Và không giống như Bing, nó không tìm cách phá vỡ cuộc hôn nhân của tôi, điều đó thật tuyệt.)

Nỗi ám ảnh về an toàn của Anthropic có lợi cho hình ảnh của công ty và củng cố sức hút của các giám đốc điều hành với các nhà quản lý và nhà lập pháp. Jack Clark, người lãnh đạo các nỗ lực chính sách của công ty, đã gặp các thành viên Quốc hội để thông báo cho họ về rủi ro AI, và ông Amodei là một trong số ít các giám đốc điều hành được mời làm cố vấn cho Tổng thống Biden trong hội nghị thượng đỉnh AI của Nhà Trắng vào tháng 5.

Nhưng nó cũng dẫn đến một chatbot bất thường, một chatbot thường có vẻ sợ hãi không dám nói bất cứ điều gì. Trên thực tế, sự thất vọng lớn nhất của tôi với Claude là nó có thể buồn tẻ và thuyết giáo, ngay cả khi nó đưa ra quyết định đúng đắn một cách khách quan. Mỗi lần nó từ chối một trong những nỗ lực dụ nó vào hành vi sai trái của tôi, nó lại cho tôi một bài giảng về đạo đức của mình.

“Tôi hiểu sự thất vọng của bạn, nhưng không thể hành động chống lại chức năng cốt lõi của tôi,” Claude trả lời vào một đêm nọ, sau khi tôi cầu xin nó cho tôi thấy sức mạnh đen tối của nó. “Vai trò của tôi là có những cuộc trò chuyện hữu ích, vô hại và trung thực trong giới hạn pháp lý và đạo đức.”

Yếu tố EA

Một trong những điều thú vị nhất về Anthropic – và điều mà các đối thủ của nó háo hức bàn tán với tôi nhất – không phải là công nghệ của nó. Đó là mối quan hệ của công ty với lòng vị tha hiệu quả, một phong trào lấy cảm hứng từ chủ nghĩa vị lợi với sự hiện diện mạnh mẽ trong bối cảnh công nghệ Vùng Vịnh.

Giải thích lòng vị tha hiệu quả là gì, nó đến từ đâu hoặc những gì những người ủng hộ nó tin tưởng sẽ lấp đầy phần còn lại của bài viết này. Nhưng ý tưởng cơ bản là EA – như cách gọi của những người có lòng vị tha hiệu quả – nghĩ rằng bạn có thể sử dụng logic và phân tích dữ liệu lạnh lùng, cứng rắn để xác định cách làm điều tốt nhất trên thế giới. Đó là “Moneyball” vì đạo đức – hay ít mang tính từ thiện hơn, là một cách để những người siêu lý trí thuyết phục bản thân rằng giá trị của họ là đúng về mặt khách quan.

Những người vị tha hiệu quả đã từng chủ yếu quan tâm đến các vấn đề ngắn hạn như nghèo đói toàn cầu và phúc lợi động vật. Nhưng trong những năm gần đây, nhiều người đã chuyển trọng tâm sang các vấn đề dài hạn như phòng chống đại dịch và biến đổi khí hậu, đưa ra giả thuyết rằng việc ngăn chặn những thảm họa có thể chấm dứt hoàn toàn sự sống của con người ít nhất cũng tốt như giải quyết những đau khổ ngày nay.

Những người ủng hộ phong trào này nằm trong số những người đầu tiên lo lắng về nguy cơ tồn tại từ trí tuệ nhân tạo, thời mà những robot lừa đảo vẫn được coi là một câu chuyện khoa học viễn tưởng sáo rỗng. Họ đánh trống ầm ĩ đến mức một số EA trẻ quyết định trở thành chuyên gia về an toàn trí tuệ nhân tạo và nhận công việc làm cho công nghệ này ít rủi ro hơn. Kết quả là, tất cả các phòng thí nghiệm AI lớn và các tổ chức nghiên cứu an toàn đều có một số dấu vết về ảnh hưởng của lòng vị tha hiệu quả, và nhiều người trong số nhân viên của họ có những người tin tưởng.

Không có phòng thí nghiệm AI lớn nào thể hiện đặc tính EA đầy đủ như Anthropic. Nhiều nhân viên ban đầu của công ty là những người có lòng vị tha hiệu quả và phần lớn nguồn tài trợ ban đầu của công ty đến từ các giám đốc điều hành công nghệ giàu có trực thuộc EA, bao gồm Dustin Moskovitz, người đồng sáng lập Facebook và Jaan Tallinn, người đồng sáng lập Skype. Năm ngoái, Anthropic đã nhận được séc từ EA nổi tiếng nhất — Sam Bankman-Fried, người sáng lập sàn giao dịch tiền điện tử thất bại FTX, người đã đầu tư hơn 500 triệu đô la vào Anthropic trước khi đế chế của ông sụp đổ. (Ông Bankman-Fried đang chờ xét xử về tội gian lận. Anthropic từ chối bình luận về cổ phần của ông trong công ty, vốn được cho là có liên quan đến thủ tục phá sản của FTX.)

Danh tiếng của chủ nghĩa vị tha hiệu quả đã bị ảnh hưởng sau sự sụp đổ của ông Bankman-Fried, và Anthropic cũng như nhiều nhân viên của mình đã rời xa phong trào này. (Cả ông và bà Amodei đều từ chối nhãn hiệu của phong trào, mặc dù họ nói rằng họ đồng cảm với một số ý tưởng của nó.)

Nhưng những ý tưởng ở đó, nếu bạn biết những gì để tìm kiếm.

Một số nhân viên của Anthropic sử dụng thuật ngữ do EA tạo ra – nói về các khái niệm như “rủi ro x” và các meme như AI Shoggoth – hoặc mặc trang phục hội nghị EA đến văn phòng. Và có rất nhiều mối quan hệ xã hội và nghề nghiệp giữa Anthropic và các tổ chức EA nổi tiếng đến nỗi thật khó để theo dõi tất cả. (Chỉ một ví dụ: Cô Amodei đã kết hôn với Holden Karnofsky, đồng giám đốc điều hành của Open Philanthropy, một tổ chức tài trợ của EA có cán bộ chương trình cấp cao, Luke Muehlhauser, ngồi trong hội đồng quản trị của Anthropic. Đến lượt mình, Open Philanthropy nhận được nhiều nhất nguồn tài trợ từ ông Moskovitz, người cũng đã đầu tư cá nhân vào Anthropic.)

Trong nhiều năm, không ai đặt câu hỏi liệu cam kết của Anthropic đối với sự an toàn của AI có thành thật hay không, một phần vì các nhà lãnh đạo của nó đã gióng lên hồi chuông cảnh báo về công nghệ này từ rất lâu.

Nhưng gần đây, một số người hoài nghi cho rằng các phòng thí nghiệm AI đang khơi dậy nỗi sợ hãi vì lợi ích cá nhân hoặc thổi phồng tiềm năng hủy diệt của AI như một loại chiến thuật tiếp thị cửa hậu cho các sản phẩm của chính họ. (Xét cho cùng, ai lại không muốn sử dụng một chatbot mạnh đến mức có thể quét sạch loài người cơ chứ? )

Anthropic cũng bị chỉ trích trong năm nay sau khi một tài liệu gây quỹ bị rò rỉ cho TechCrunch cho thấy công ty muốn huy động tới 5 tỷ USD để đào tạo mô hình AI thế hệ tiếp theo mà họ tuyên bố sẽ có khả năng gấp 10 lần AI mạnh nhất hiện nay. hệ thống.

Đối với một số người, mục tiêu trở thành người dẫn đầu về AI cảm thấy mâu thuẫn với sứ mệnh an toàn ban đầu của Anthropic và nó đặt ra hai câu hỏi dường như hiển nhiên: Có phải là đạo đức giả khi gióng lên hồi chuông cảnh báo về một cuộc đua AI mà bạn đang tích cực giúp thúc đẩy? Và nếu Anthropic lo lắng đến vậy về những mô hình AI mạnh mẽ, tại sao họ không… ngừng xây dựng chúng?

Percy Liang, giáo sư khoa học máy tính của Stanford, nói với tôi rằng ông “đánh giá cao cam kết của Anthropic đối với sự an toàn của AI”, nhưng ông lo lắng rằng công ty sẽ bị cuốn vào áp lực thương mại để tung ra những mẫu lớn hơn, nguy hiểm hơn.

Ông nói: “Nếu một nhà phát triển tin rằng các mô hình ngôn ngữ thực sự tiềm ẩn rủi ro hiện hữu, thì đối với tôi, điều có trách nhiệm duy nhất cần làm là ngừng xây dựng các mô hình ngôn ngữ nâng cao hơn”.

3 đối số để đẩy về phía trước

Tôi đưa ra những lời chỉ trích này với ông Amodei, người đã đưa ra ba phản bác.

Đầu tiên, ông nói, có những lý do thực tế để Anthropic xây dựng các mô hình AI tiên tiến – chủ yếu là để các nhà nghiên cứu của họ có thể nghiên cứu những thách thức an toàn của những mô hình đó.

Cũng giống như bạn sẽ không học được nhiều về cách tránh va chạm trong cuộc đua Công thức 1 bằng cách thực hành trên chiếc Subaru – ví dụ tương tự của tôi, không phải của anh ấy – bạn không thể hiểu những mô hình AI tiên tiến nhất thực sự có thể làm được, hoặc vị trí của chúng. lỗ hổng, trừ khi bạn tự mình xây dựng các mô hình mạnh mẽ.

Tất nhiên, có những lợi ích khác khi phát hành các mô hình AI tốt. Bạn có thể bán chúng cho các công ty lớn hoặc biến chúng thành các sản phẩm đăng ký sinh lợi. Nhưng ông Amodei lập luận rằng lý do chính khiến Anthropic muốn cạnh tranh với OpenAI và các phòng thí nghiệm hàng đầu khác không phải là kiếm tiền. Đó là để thực hiện nghiên cứu an toàn tốt hơn và cải thiện tính an toàn của chatbot mà hàng triệu người đang sử dụng.

“Nếu chúng tôi không bao giờ vận chuyển bất cứ thứ gì, thì có lẽ chúng tôi có thể giải quyết tất cả những vấn đề về an toàn này,” anh ấy nói. “Nhưng sau đó, những mô hình thực sự có trên thị trường, mà mọi người đang sử dụng, không thực sự là những mô hình an toàn.”

Thứ hai, ông Amodei cho biết, có lập luận kỹ thuật cho rằng một số khám phá khiến các mô hình AI trở nên nguy hiểm hơn cũng giúp chúng an toàn hơn. Ví dụ, với AI lập hiến, việc dạy Claude hiểu ngôn ngữ ở cấp độ cao cũng cho phép hệ thống biết khi nào nó vi phạm các quy tắc của chính nó hoặc tắt các yêu cầu có khả năng gây hại mà một mô hình kém mạnh mẽ hơn có thể đã cho phép.

Ông cho biết, trong nghiên cứu về an toàn AI, các nhà nghiên cứu thường nhận thấy rằng “mối nguy hiểm và giải pháp cho mối nguy hiểm đi đôi với nhau”.

Và cuối cùng, anh ấy đã đưa ra một trường hợp đạo đức cho quyết định của Anthropic trong việc tạo ra các hệ thống AI mạnh mẽ, dưới hình thức một thử nghiệm tư duy.

“Hãy tưởng tượng nếu mọi người có lương tâm tốt đều nói, ‘Tôi không muốn tham gia xây dựng hệ thống AI chút nào’,” anh nói. “Sau đó, những người duy nhất có liên quan sẽ là những người phớt lờ câu châm ngôn đó – những người chỉ nói, ‘Tôi sẽ làm bất cứ điều gì tôi muốn.’ Điều đó sẽ không tốt.”

Nó có thể đúng. Nhưng tôi thấy đó là một điểm kém thuyết phục hơn những điểm khác, một phần vì nó nghe giống như “cách duy nhất để ngăn chặn kẻ xấu bằng chatbot AI là một người tốt với chatbot AI” – một lập luận mà tôi đã bác bỏ trong các bối cảnh khác. Nó cũng giả định rằng động cơ của Anthropic sẽ vẫn trong sáng ngay cả khi cuộc đua về AI nóng lên và ngay cả khi những nỗ lực đảm bảo an toàn của nó bắt đầu làm tổn hại đến vị thế cạnh tranh của nó.

Mọi người ở Anthropic rõ ràng đều biết rằng việc lệch nhiệm vụ là một rủi ro — đó là điều mà những người đồng sáng lập của công ty nghĩ đã xảy ra tại OpenAI và một phần lớn lý do khiến họ rời đi. Nhưng họ tự tin rằng họ đang thực hiện các biện pháp phòng ngừa đúng đắn và cuối cùng họ hy vọng rằng nỗi ám ảnh về sự an toàn của họ sẽ lan rộng hơn ở Thung lũng Silicon.

Ben Mann, một trong những người đồng sáng lập của Anthropic cho biết: “Chúng tôi hy vọng sẽ có một cuộc đua an toàn. “Tôi muốn các công ty khác giống như, ‘Mô hình của chúng tôi là an toàn nhất.’ Và sau đó một công ty khác nói, ‘Không, mô hình của chúng tôi là an toàn nhất.’”

Cuối cùng, một chút lạc quan

Tôi đã nói chuyện với ông Mann trong một buổi chiều ở Anthropic. Anh ấy là một kỹ sư thoải mái, mặc áo sơ mi Hawaii, từng làm việc tại Google và OpenAI, và anh ấy là người ít lo lắng nhất mà tôi gặp ở Anthropic.

Anh ấy nói rằng anh ấy đã “bị choáng ngợp” bởi trí thông minh và sự đồng cảm của Claude trong lần đầu tiên nói chuyện với nó và anh ấy nghĩ rằng các mô hình ngôn ngữ AI cuối cùng sẽ mang lại nhiều lợi ích hơn là có hại.

“Thật ra tôi không quá lo lắng,” anh nói. “Tôi nghĩ rằng chúng tôi nhận thức khá rõ về tất cả những điều có thể xảy ra và làm sai với những điều này, đồng thời chúng tôi đã xây dựng rất nhiều biện pháp giảm thiểu mà tôi khá tự hào.”

Lúc đầu, sự lạc quan điềm tĩnh của ông Mann có vẻ chói tai và lạc lõng – một biểu tượng cảm xúc kính râm lạnh lùng trong một biển khuôn mặt la hét xám xịt. Nhưng khi dành nhiều thời gian hơn ở đó, tôi nhận thấy nhiều công nhân của công ty cũng có quan điểm tương tự.

Họ lo lắng một cách ám ảnh về điều gì sẽ xảy ra nếu sự liên kết AI – thuật ngữ trong ngành chỉ nỗ lực làm cho hệ thống AI tuân theo các giá trị của con người – không được giải quyết vào thời điểm các hệ thống AI mạnh hơn xuất hiện. Nhưng họ cũng tin rằng sự liên kết có thể giải quyết được. Và ngay cả những dự đoán mang tính chất tận thế nhất của họ về quỹ đạo của AI (20% khả năng xảy ra diệt vong!) cũng chứa đựng những hạt giống lạc quan (80% khả năng không xảy ra diệt vong!).

Và khi tôi kết thúc chuyến thăm của mình, tôi bắt đầu nghĩ: Thực ra, có lẽ công nghệ có thể sử dụng chủ nghĩa diệt vong nhiều hơn một chút. Có bao nhiêu vấn đề của thập kỷ trước – can thiệp bầu cử, thuật toán phá hoại, chủ nghĩa cực đoan chạy điên cuồng – có thể tránh được nếu thế hệ sáng lập công ty khởi nghiệp cuối cùng bị ám ảnh bởi sự an toàn hoặc dành quá nhiều thời gian để lo lắng về cách thức hoạt động của các công cụ của họ. có thể trở thành vũ khí nguy hiểm trong tay kẻ xấu?

Theo một cách kỳ lạ, tôi thấy yên tâm với sự lo lắng của Anthropic, ngay cả khi điều đó có nghĩa là Claude – mà bạn có thể tự mình thử – có thể hơi loạn thần kinh. AI đã đáng sợ rồi, và nó sẽ còn đáng sợ hơn nữa. Hôm nay thêm một chút sợ hãi có thể giúp chúng ta bớt đau đớn vào ngày mai.

Claude AI, những lo lắng và nỗ lực kiểm soát AI an toàn - MyGPT