Công Nghệ & Ứng Dụng

Nỗi lo của con người khi GPT-3 đã trở nên thông minh hơn

Wikicabinet – Kênh thông tin tri thức nhân loại kính chào quý độc giả ở kỳ trước chúng tôi đã giới thiệu các chủ đề về:

Động cơ đốt trong có được thay thế không?

Kỳ này wikicabinet xin giới thiệu đến độc giả một chủ đề Nỗi lo của con người khi AI đã trở nên thông minh hơn. Mời quý độc giả đón theo dõi chủ đề này cùng wikicabinet nhé!

Những bức ảnh đáng lo ngại này cho thấy AI đã trở nên thông minh hơn! Nó đang học cách tạo hình ảnh dựa trên văn bản!

Trong số tất cả các mô hình AI trên thế giới, GPT-3 của Open AI có thể khơi dậy trí tưởng tượng của công chúng.

Mặc dù nó có thể tạo ra những bài thơ, truyện ngắn và bài hát chỉ với một vài đoạn văn bản, và đã thuyết phục thành công mọi người rằng đây là sự sáng tạo của con người. Tuy nhiên, nó vẫn tỏ ra rất “ngây thơ” trong cuộc đối thoại của mình với con người. Mặc dù vậy, các kỹ thuật viên vẫn tin rằng công nghệ tạo ra GPT-3 có thể là cách duy nhất để dẫn đến AI cấp cao hơn.

GPT-3 sử dụng một lượng lớn dữ liệu văn bản để đào tạo, vậy điều gì sẽ xảy ra nếu bạn sử dụng cả dữ liệu văn bản và hình ảnh để đào tạo?

Viện Trí tuệ nhân tạo Allen (AI2) đã đạt được tiến bộ về vấn đề này. Các kỹ thuật viên đã phát triển một mô hình ngôn ngữ hình ảnh mới có thể tạo ra hình ảnh tương ứng dựa trên văn bản nhất định.

Không giống như các tác phẩm siêu thực do GAN tạo ra, những hình ảnh do AI2 tạo ra trông rất kỳ lạ, nhưng nó thực sự có thể là một con đường mới để đạt được trí tuệ nhân tạo nói chung.

AI “công nhân”

GPT-3 được xếp vào loại mô hình “Máy biến áp”. Với sự thành công của Google BERT, mô hình này trở nên phổ biến. Trước BERT, khả năng sử dụng của các mô hình ngôn ngữ rất kém.

Mặc dù chúng có khả năng dự đoán nhất định, chúng không đủ để tạo ra những câu dài phù hợp với ngữ pháp và cách hiểu thông thường. BERT đã nâng cao đáng kể khả năng của mô hình bằng cách giới thiệu một công nghệ mới được gọi là “che”.

Mô hình sẽ được yêu cầu hoàn thành các câu hỏi điền vào chỗ trống tương tự như sau:

Người phụ nữ này đến ___ để tập thể dục.

Họ đã mua một chiếc bánh mì ___ để làm một chiếc bánh mì sandwich.

Mục đích ban đầu của ý tưởng là nếu người mẫu buộc phải thực hiện các bài tập như vậy hàng triệu lần thì liệu có thể học cách ghép các từ thành câu và cách ghép các câu thành đoạn văn hay không. Kết quả thử nghiệm cho thấy rằng mô hình thực sự đã đạt được khả năng tạo và diễn giải văn bản tốt hơn (Google đang sử dụng BERT để giúp cung cấp các kết quả tìm kiếm phù hợp hơn trong công cụ tìm kiếm của mình).

Sau khi chứng minh rằng mặt nạ có hiệu quả, các kỹ thuật viên cố gắng áp dụng nó vào mô hình ngôn ngữ trực quan bằng cách ẩn các từ trong văn bản, ví dụ:

Thông qua hàng triệu lần đào tạo, nó không chỉ có thể khám phá ra các mô hình kết hợp giữa các từ mà còn cả sự liên kết giữa các từ và các yếu tố trong hình ảnh.

Kết quả của việc này là mô hình có khả năng liên kết mô tả văn bản với hình ảnh trực quan, giống như trẻ sơ sinh của con người có thể thiết lập kết nối giữa những từ chúng học và những thứ chúng nhìn thấy.

Ví dụ, khi người mẫu đọc hình dưới đây, nó có thể đưa ra một tiêu đề thích hợp hơn, chẳng hạn như “Women Playing Hockey”. Hoặc họ có thể trả lời các câu hỏi như “Quả bóng màu gì?” Bởi vì người mẫu có thể liên kết từ “quả bóng” với vật thể hình tròn trong hình ảnh.

Những bức ảnh đáng lo ngại này cho thấy AI đã trở nên thông minh hơn!  Nó đang học cách tạo hình ảnh dựa trên văn bản

Các kỹ thuật viên muốn biết liệu những mô hình này có thực sự “học” để hiểu thế giới như trẻ sơ sinh hay không.

Trẻ không chỉ có thể liên tưởng các từ khi nhìn thấy một hình ảnh mà còn có thể liên tưởng đến hình ảnh tương ứng khi nhìn thấy một từ, ngay cả khi hình ảnh đó là sự kết hợp giữa thực tế và trí tưởng tượng.

Các kỹ thuật viên cố gắng làm cho mô hình làm điều tương tự: tạo hình ảnh từ văn bản. Sau đó, mô hình phun ra các mẫu pixel vô nghĩa.

Có lý do cho kết quả này, nhiệm vụ chuyển văn bản thành hình ảnh khó hơn nhiều so với các tác vụ khác. Trưởng nhóm thị giác máy tính của AI2, Ani Kembhavi nói rằng văn bản không chỉ rõ tất cả nội dung có trong hình ảnh. Do đó, mô hình cần phải “liên kết” nhiều cảm giác thông thường trong thế giới thực để điền vào các chi tiết.

Ví dụ: giả sử AI được yêu cầu vẽ một “con hươu cao cổ đi trên đường”, nó cần suy ra rằng con đường có nhiều khả năng có màu xám hơn là màu hồng và nhiều khả năng tiếp giáp với cỏ hơn là đại dương – mặc dù thông tin không rõ ràng.

Vì vậy, Kembhavi và các đồng nghiệp Jaemin Cho, Jiasen Lu và Hannaneh Hajishirzi quyết định xem liệu họ có thể dạy cho AI tất cả những kiến ​​thức hình ảnh tiềm ẩn này bằng cách điều chỉnh mặt nạ hay không. Họ huấn luyện người mẫu không phải dự đoán các từ ẩn trong các bức tranh tương ứng, mà để cho phép người mẫu “lấp đầy trí não” những phần còn thiếu của các bức tranh từ văn bản.

Mặc dù hình ảnh cuối cùng được tạo ra bởi mô hình không hoàn toàn thực, nhưng đây không phải là vấn đề. Điều quan trọng là điều này chỉ ra rằng mô hình đã bao gồm các khái niệm trực quan chính xác ở mức độ cao, tức là, AI có khả năng trẻ em vẽ hình ảnh dựa trên văn bản ở một mức độ nhất định.

Khả năng của mô hình ngôn ngữ hình ảnh để tạo ra hình ảnh như vậy thể hiện một bước quan trọng trong nghiên cứu AI, điều này cho thấy rằng mô hình thực sự có một mức độ trừu tượng nhất định, đây là một kỹ năng cơ bản để hiểu thế giới.

Trong tương lai, công nghệ này có thể sẽ có tác động lớn đến lĩnh vực chế tạo người máy. Robot có thể sử dụng ngôn ngữ để giao tiếp và chúng càng hiểu rõ thông tin trực quan thì chúng càng có thể thực hiện nhiều nhiệm vụ phức tạp hơn.

Hajishirzi cho biết trong ngắn hạn, hình ảnh trực quan này cũng có thể giúp các kỹ thuật viên hiểu rõ hơn về quá trình học tập của các mô hình AI. Sau đó, nhóm AI2 có kế hoạch triển khai thêm nhiều thử nghiệm để cải thiện chất lượng tạo hình ảnh và mở rộng tầm nhìn và ngôn ngữ của mô hình.

Trong kỳ tiếp theo, Wikicabinet  trân trọng mời độc giả đón đọc chủ đề 40 năm yêu và hận giữa C và C ++ (Kỳ 1).

Nếu có những thắc mắc hay muốn tìm hiểu về bất kỳ chủ đề nào, hãy liên hệ với Wikicabinet bằng cách bình luận ở phía dưới nhé.

Leave a Reply