Phụ đề hình ảnh tự động của Google và chìa khóa để "Tầm nhìn" nhân tạo
Không có gì bí mật khi Google hoạt động tích cực hơn trong những năm gần đây, đặc biệt là kể từ khi nó được tổ chức lại đáng kể vào năm 2015. Vào ngày 22 tháng 9 năm 2016, nó đã công bố bản phát hành mã nguồn mở của một phần mềm có thể phát hiện các đối tượng và thiết lập hình ảnh để tự động tạo chú thích mô tả nó. Tất nhiên, nó không có mức độ sáng tạo giống như con người tạo ra văn xuôi trong các chú thích, nhưng bộ mã hóa hình ảnh còn được gọi là Inception V3 nên đã thu hút sự chú ý vì những lý do vượt quá giới hạn "nhìn vào chú thích nó có thể làm cho "động cơ. Phần mềm như thế này, trên thực tế, có thể là một bước đệm hướng tới một cái gì đó lớn hơn trên con đường tới trí thông minh nhân tạo tiên tiến hơn.
Mắt có thể nhìn thấy, nhưng trí thông minh "Perceives"
Cảnh tượng nhân tạo đã ở cùng chúng ta trong hơn một thế kỷ. Bất cứ điều gì với một máy ảnh có thể nhìn thấy. Đó là một thứ rất cơ bản. Nhưng ngay cả một người mù có thể vượt qua sự hiểu biết của máy ảnh về những gì nó đang xem xét. Cho đến gần đây, các máy tính không thể dễ dàng và chính xác đặt tên các đối tượng được tìm thấy trong ảnh mà không có thông số rất cụ thể. Để thực sự nói rằng một vật thể nhân tạo có “thị giác” có nghĩa là ít nhất nó cũng có khả năng cụ thể để xác định những gì nó đang nhìn, thay vì chỉ đơn giản là nhìn vào nó mà không thu thập bất kỳ ngữ cảnh nào. Bằng cách này, thiết bị có khả năng có thể phản ứng với môi trường của nó dựa trên thị giác, giống như chúng ta. Nhận thức là một điều cần thiết tuyệt đối. Không có nó, mọi cảm giác chúng ta có là vô dụng.
Nhận thức thông qua chú thích hình ảnh tự động
Mặc dù chúng tôi thường tin rằng mỗi bức tranh trị giá một ngàn chữ, Inception V3 không nhất thiết phải chia sẻ ý kiến đó. Phần mềm phụ đề hình ảnh tự động có rất ít điều để nói về những gì nó nhìn thấy, nhưng ít nhất nó có một sự hiểu biết cụ thể cơ bản về những gì được chứa trong khung trình bày cho nó.
Với thông tin thô sơ này, chúng tôi đã thực hiện một bước hướng tới khả năng của phần mềm để hiểu các kích thích thị giác. Đưa một robot loại sức mạnh này sẽ cho phép nó phản ứng với những kích thích như vậy, đưa trí thông minh của nó đến dưới mức của hầu hết các động vật thủy sinh cơ bản. Điều đó nghe có vẻ không nhiều, nhưng nếu bạn xem robot đang hoạt động như thế nào (khi được kiểm tra bên ngoài các thông số có độ hạn chế cao), bạn sẽ thấy rằng đây sẽ là một bước nhảy vọt trong trí thông minh so với cách amíp trong đó họ có thể cảm nhận được môi trường xung quanh của mình.
Điều này có ý nghĩa gì đối với AI (Và tại sao nó hoàn toàn xa vời)
Thực tế là bây giờ chúng ta có phần mềm (với độ chính xác 93 phần trăm) có thể hình ảnh chú thích có nghĩa là chúng ta đã phần nào vượt qua những trở ngại của việc máy tính có ý nghĩa về môi trường của chúng. Tất nhiên, điều đó không có nghĩa là chúng tôi ở bất cứ nơi nào gần hoàn thành trong bộ phận đó. Nó cũng đáng nói đến rằng V3 khởi động được đào tạo bởi con người theo thời gian và sử dụng thông tin nó "học" để giải mã hình ảnh khác. Để có sự hiểu biết thực sự về môi trường của một người, người ta phải có khả năng đạt được một mức độ nhận thức trừu tượng hơn. Người trong hình có tức giận không? Hai người có đang chiến đấu không? Người phụ nữ trên băng ghế dự bị khóc là gì?
Những câu hỏi trên đại diện cho những thứ chúng ta tự hỏi khi chúng ta gặp những người khác. Đó là loại truy vấn trừu tượng yêu cầu chúng tôi ngoại suy thêm thông tin so với những gì một chú thích hình ảnh mà doohickey có thể thực hiện. Đừng quên rằng việc đóng băng trên chiếc bánh mà chúng tôi muốn gọi là một phản ứng cảm xúc (hoặc "không hợp lý") với những gì chúng ta thấy. Đó là lý do tại sao chúng tôi xem xét hoa đẹp, cống ghê tởm, và khoai tây chiên ngon. Đó là một cái gì đó chúng tôi vẫn đang tự hỏi liệu chúng tôi sẽ bao giờ đạt được trên một mức độ máy mà không thực sự khó mã hóa nó. Sự thật là loại hiện tượng "con người" này có khả năng là không thể nếu không có lập trình hạn chế. Tất nhiên, điều đó không có nghĩa là chúng tôi sẽ không ngừng cố gắng. Chúng tôi, sau khi tất cả, con người .
Bạn có nghĩ rằng các robot của chúng ta sẽ học cách đánh giá cao sự phức tạp của một cánh hoa hồng dưới kính hiển vi? Hãy cho chúng tôi biết trong một bình luận!