Thiên nhiên trong mắt con người là thế giới tươi đẹp với đủ sắc màu. Con người có thể cảm nhận hình ảnh của cảnh vật xung quanh bằng mắt, còn có thể hiểu và phân tích được hàm nghĩa của những hình ảnh này dựa theo kinh nghiệm xưa kia. Giờ đây máy tính trên một mức độ nào đó cũng có thể cảm nhận và hiểu biết hình ảnh cảnh vật, tức là trên một mức độ nào đó máy cũng có thể nhìn các vật.
Đã từng có một bài báo viết rằng ngày nào đó đầu thập niên 70, một tên râu xồm leo lên một máy bay từ một sân bay ở Trung Đông đi Pari. Khi máy bay hạ cánh xuống Pari tại nơi kiểm tra của hải quan tên râu xồm đã bị cảnh sát bắt giữ. Đó là vì máy tính đã nhận ra đây là một tên khủng bố. Dù cho tên này có cải trang nhưng vẫn không qua mắt được máy tính. Nguyên do là cảnh sát Pháp trước đó đã có được ảnh của phần tử khủng bố này và họ đã cài hình ảnh vào máy tính. Tại cửa ra vào sân bay, camera điện tử đã giám sát những người khách đi qua và tiến hành xử lý những hình ảnh hành khách như phân tích, đối chiếu. Khi hình ảnh đang xử lý trùng hợp với hình ảnh phần tử khủng bố đã cài vào máy tính thì hệ thống máy tính lập tức báo động cho cảnh sát.
“Con mắt” của máy tính thực tế là thiết bị thu hình tựa như máy quay phim. Với hình ảnh có được từ thiết bị thu hình này, thoạt nhiên phải qua xử lí sơ bộ với sự phối hợp của một số thiết bị chuyên dùng và máy tính nhằm cải thiện chất lượng thị giác. Sau đó chuyển hình ảnh này thành hình thức biểu thị bên trong máy tính, nghĩa là phải số hóa hình ảnh. Bên trong máy tính, mọi thông tin đều được hiển thị bằng mã số. Lượng dữ liệu ảnh số rất lớn. Ví dụ chuyển một bức ảnh số truyền hình đen trắng thành một bức ảnh 512 x 512 x 8 bit (bit map display – màn hình ánh xạ bit-chú thích của người dịch), lượng số liệu của nó sẽ vượt quá 256 kB. Nếu là ảnh màu thì sẽ tăng thêm ba lần nữa. Bởi vậy, cần phải nén và lưu trữ ảnh, nếu không khi phải xử lí hình ảnh liên tục (như phim ảnh) thì không gian lưu trữ sẽ bị lấp đầy hết, đến nỗi máy tính cũng khó bề xử lí nổi.
Tiếp đó, máy tính sẽ tiến hành xử lí đối với những biểu diễn bên trong của hình ảnh bằng một loại biến đổi toán học phức tạp.
Cuối cùng sẽ có hình ảnh ba chiều của vật thể trong cảnh từ những thông tin kể trên. Nhận ra vật thể tồn tại trong đó, xác định vị trí và tư thế của những vật thể này. Rồi lại phối hợp biểu thị này với mô hình vật thể đã có trong kho mô hình hệ thống (tức tiến hành nhận biết). Nhận biết xong sẽ lại tiến hành công việc định vị bước nữa. Điểm này giống với quá trình thị giác của con người. Con người khi nhìn thấy một bức ảnh sẽ phân tách vật thể trong đó và tiến hành kiểm tra tìm kiếm và hồi ức về hình ảnh đó trong đại não, nhận biết ra vật thể rồi từ đó mà thu được thông tin có liên quan đến vật thể này. Đến bước này thì máy tính đã hoàn thành được công việc cảm nhận và tìm hiểu đối với hình ảnh cảnh vật.
Thị giác của máy tính so với thị giác con người thì còn ở giai đoạn cấp thấp. Việc không ngừng nghiên cứu và phát hiện đối với thông tin thị giác con người sẽ có tác dụng thúc đẩy sự phát triển của kĩ thuật thị giác máy tính.