Mô hình phát hiện cảm xúc khuôn mặt nhằm đánh giá mức độ “hài lòng” của sinh viên Học viện Ngân hàng khi tham gia học trực tuyến

Mô hình phát hiện cảm xúc khuôn mặt nhằm đánh giá mức độ “hài lòng” của sinh viên Học viện Ngân hàng khi tham gia học trực tuyến

(Nguồn: https://tapchinganhang.gov.vn/)

. Giới thiệu

Thời gian qua, đại dịch Covid-19 diễn biến phức tạp, phương thức giảng dạy trực tuyến trở nên thông dụng. Và ngay cả trong bối cảnh bình thường mới, một số các buổi học và họp trực tuyến vẫn được duy trì. Các trường đại học trên cả nước nói chung và Học viện Ngân hàng nói riêng đã áp dụng các phần mềm tiện ích như Zoom Meeting, Google Meeting, Hangouts Meets, Google Classroom… nhằm giúp giảng viên và sinh viên có thể trao đổi với nhau một cách dễ dàng nhất, nội dung kiến thức bài học sẽ được giảng viên chia sẻ và giải đáp thắc mắc một cách tốt nhất. Khi giảng viên và sinh viên không giao tiếp trực tiếp mặt đối mặt, sinh viên khó trao đổi thông tin trực tiếp, giảng viên cũng khó quan sát được cảm xúc và mức độ tập trung của sinh viên nên hiệu quả học tập chưa cao. 

Mức độ tiếp thu của người học có sự tác động không nhỏ từ môi trường học tập như: Yêu cầu của giảng viên, yêu cầu của môn học, nội dung học tập, khả năng truyền đạt kiến thức của giảng viên… có thể tác động gây ra cảm giác chán nản, tức giận hay khó chịu (biểu hiện gần của stress). Đo lường và đánh giá mức độ cảm xúc của người học trong quá trình học tập có thể coi là hoạt động cần thiết và quan trọng, giúp người dạy biết được tâm lý người học khi mà điều kiện học tập trực tuyến rất khó để nhận biết. Điều này sẽ giúp người dạy điều tiết quá trình giảng dạy, làm giảm mức độ căng thẳng trong học tập của người học giúp người học tiếp thu hiệu quả hơn. Không chỉ vậy, đây cũng có thể được coi là kênh thông tin để đo lường hoạt động giảng dạy của giảng viên.

Với mục đích nâng cao hiệu quả dạy và học, nhóm tác giả tiến hành nghiên cứu “Mô hình phát hiện cảm xúc khuôn mặt nhằm đánh giá mức độ “hài lòng” của sinh viên Học viện Ngân hàng khi tham gia học trực tuyến” sử dụng trong quá trình giảng dạy, giúp giảng viên có thể điều chỉnh lại hoạt động giảng dạy sao cho phù hợp và thúc đẩy hiệu quả của quá trình giảng dạy và học tập. Nhóm tác giả đã thu thập hình ảnh của sinh viên Học viện Ngân hàng khi tham gia học trực tuyến qua phần mềm Zoom Meeting để làm dữ liệu huấn luyện và kiểm thử mô hình.

2. Bài toán phát hiện cảm xúc

Cùng với sự phát triển của xã hội, nhu cầu thu thập phản hồi của khách hàng và lựa chọn giải pháp phù hợp nhất để thực hiện nó là điều cần quan tâm. Đánh giá cảm xúc tự động đặc biệt quan trọng với một số lĩnh vực như: Người máy, tiếp thị, giáo dục và công nghiệp giải trí. Ứng dụng của đánh giá cảm xúc tự động nhằm đạt được các mục tiêu khác nhau trong các lĩnh vực khác nhau như: Trong lĩnh vực người máy nhằm để tạo ra các Robot hợp tác hoặc các dịch vụ thông minh có thể tương tác với con người; trong lĩnh vực tiếp thị, với mục đích tạo ra các quảng cáo chuyên biệt dựa trên trạng thái cảm xúc của khách hàng; trong lĩnh vực giáo dục nhằm cải thiện quá trình học tập, chuyển giao kiến thức và nhận thức; trong công nghiệp giải trí nhằm đề xuất các sản phẩm giải trí phù hợp nhất với khách hàng mục tiêu…

Việc đánh giá cảm xúc được coi là quá trình phân loại và thiết lập ranh giới giữa cảm xúc và tâm trạng. Các nghiên cứu của Feidakis, Daradoumis và Cabella đã đưa ra cách phân loại cảm xúc gồm 66 cảm xúc chia thành hai nhóm: Mười cảm xúc cơ bản như tức giận, mong đợi, không tin tưởng, sợ hãi, hạnh phúc, niềm vui, tình yêu, nỗi buồn, sự ngạc nhiên, tin tưởng và 56 cảm xúc thứ cấp. Để đánh giá một lượng cảm xúc khổng lồ như vậy là điều vô cùng khó khăn, đặc biệt là nếu cần phải nhận dạng và đánh giá tự động. Hơn nữa, những cảm xúc tương tự có thể có các thông số trùng lặp, được đo lường. Để xử lý vấn đề này, phần lớn các nghiên cứu về đánh giá cảm xúc tập trung vào các phân loại khác, chủ yếu là giảm số chiều cảm xúc, trong hầu hết trường hợp là giá trị (kích hoạt, tiêu cực, tích cực); kích thích (cao/thấp) và chỉ phân tích các cảm xúc cơ bản dễ dàng xác định. 

Các phương pháp đánh giá cảm xúc

Các phương pháp đánh giá cảm xúc có thể được chia thành hai nhóm chính theo các kỹ thuật cơ bản sử dụng để phát hiện cảm xúc: Kỹ thuật tự đánh giá dựa trên bảng hỏi, kỹ thuật đánh giá dựa trên phép đo các thông số khác nhau của cơ thể người, hoặc kết hợp nhiều phương pháp khác nhau để tăng độ tin cậy của kết quả thu được. Tuy nhiên, các phương pháp truyền thống này thường tốn khá nhiều thời gian và công sức để đạt được kết quả như mong muốn. Đặc biệt với kỹ thuật thứ nhất có thể thiếu tính khách quan khi phương pháp phụ thuộc hoàn toàn vào câu trả lời của chủ thể được đo lường cảm xúc. Kỹ thuật thứ hai điển hình với các kỹ thuật điện não đồ, điện tâm đồ, phản ứng da Galvanic, biến thiên nhịp tim, phân tích tỷ lệ hô hấp… nhằm đánh giá cảm xúc của con người là tốn kém về thời gian và công sức. 

Phương pháp phát hiện cảm xúc thông qua khuôn mặt

Phát hiện cảm xúc khuôn mặt là bước phát triển tiếp sau của việc phát hiện khuôn mặt, tuy nhiên, có nhiều quan điểm trong việc định nghĩa khái niệm cảm xúc, vốn rất không rõ ràng. Matsumoto phân chia cảm xúc khuôn mặt thành 07 nhóm thể hiện chính: Vui vẻ, ngạc nhiên, hài lòng, buồn bực, cáu giận, phẫn nộ và sợ hãi. Tuy nhiên, nhóm của Mase và Pentland cho rằng chỉ 04 loại cảm xúc được thể hiện một cách rõ ràng là hạnh phúc, ngạc nhiên, giận dữ và căm phẫn, các loại cảm xúc khác thường không rõ ràng và tùy thuộc nhiều vào kinh nghiệm của người quan sát (tức là không thể định lượng một cách chính xác). Do việc định nghĩa khái niệm cảm xúc không rõ ràng, nên việc đánh giá chất lượng các phương pháp phát hiện cảm xúc tùy thuộc vào tập dữ liệu huấn luyện và kiểm tra. Trong bài viết này, chúng tôi thử nghiệm kiến trúc Deep Learning dựa trên nhiều lớp tích chập (ConvNet) để phát hiện cảm xúc khuôn mặt. Dữ liệu thu được từ Camera của phần mềm Zoom Meeting chụp mặt của các sinh viên trong buổi học với nhiều trạng thái khác nhau, sau đó dữ liệu được chuyển vào xử lý với đầu ra xác suất (Softmax), trả về xác suất của 03 loại cảm xúc do hệ thống tính toán được. (Mô hình 1)

Mô hình 1: Phát hiện cảm xúc thông qua khuôn mặt

Mô hình truyền thống

Phương pháp hiện đại

Tiền xử lý ảnh: Trước hết, phải xử lý một số vấn đề của ảnh đầu vào hệ thống, xử lý trước quá trình Trainning. Các bước thực hiện: Căn chỉnh để phát hiện khuôn mặt, tăng dữ liệu hình ảnh đảm bảo đủ dữ liệu Training, cuối cùng là chuẩn hóa dữ liệu khuôn mặt. Sử dụng các phương pháp CNN, DBN, DAE, RNN, GAN…

Phân loại: Trong phương pháp truyền thống, bước trích xuất đặc trưng và bước phân loại tính năng là độc lập với nhau, trong Deep Learning có thể thực hiện theo thuật ngữ FER từ đầu đến cuối. Một lớp hình ảnh được thêm vào cuối mạng để điều chỉnh lỗi lan truyền ngược, sau đó xác suất dự đoán của từng mẫu có thể được mạng trực tiếp xuất ra.

3. Mạng nơ-ron tích chập

Mạng nơ-ron tích chập (Convolutional Neural Network – CNNs) là một loại mạng nơ-ron nhân tạo (ANN), hiệu quả trong các tác vụ hình ảnh khác nhau, bao gồm phân loại hình ảnh, phân đoạn hình ảnh, truy xuất hình ảnh, phát hiện đối tượng, nhận dạng khuôn mặt, ước lượng tư thế, nhận dạng biển báo giao thông, xử lý giọng nói…

Mạng nơ-ron tích chập ngày càng được quan tâm trong những năm gần đây, tuy nhiên, sự phát triển của nó bắt đầu sớm hơn nhiều. Nghiên cứu trong những thập niên 1950 và 1960 của D.H Hubel và T.N Wiesel trên não của động vật đã đề xuất một mô hình mới cho cách mà động vật nhìn nhận thế giới. Trong nghiên cứu, tác giả đã diễn tả 02 loại tế bào nơ-ron trong não và cách hoạt động khác nhau: Tế bào đơn giản (Simple cell – S cell) và tế bào phức tạp (Complex cell – C cell). Các S cell được kích hoạt khi nhận diện các hình dáng đơn giản như đường nằm trong một khu vực cố định và một góc cạnh của nó. Các C cell có vùng tiếp nhận lớn hơn và đầu ra của nó không nhạy cảm với những vị trí cố định trong vùng. Trong thị giác, vùng tiếp nhận của một nơ-ron tương ứng với một vùng trên võng mạc, nơi sẽ kích hoạt nơ-ron tương ứng. Năm 1980, Fukushima đề xuất mô hình mạng nơ-ron có cấp bậc gọi là Neocognitron. Mô hình này dựa trên khái niệm về S cell và C cell. Mạng Neocognitron có thể nhận diện mẫu dựa trên việc học hình dáng của đối tượng. Sau đó vào năm 1998, mạng nơ-ron tích chập được giới thiệu bởi Bengio, Le Cun, Bottou và Haffner. Mô hình đầu tiên của họ được gọi tên là LeNet-5. Mô hình này có thể nhận diện chữ số viết tay.

CNNs được thiết kế để xử lý dữ liệu dưới dạng nhiều mảng, ví dụ, một hình ảnh màu bao gồm ba mảng 2D chứa cường độ pixel trong các kênh ba màu. Họ sử dụng các bộ lọc chập của mình để trích xuất thông tin từ hình ảnh, các lớp trước đó phát hiện các cạnh, các lớp sau có thể phát hiện một phần của đối tượng, thậm chí các lớp sau có thể phát hiện các đối tượng hoàn chỉnh, chẳng hạn như khuôn mặt hoặc các hình dạng hình học phức tạp khác. CNNs được cấu tạo bởi một tập hợp các lớp bao gồm: Lớp tích chập; lớp lấy mẫu (Pooling); lớp kết nối đầy đủ (Fully connected). Các lớp này liên kết với nhau theo một thứ tự nhất định. Thông thường, một hình ảnh sẽ được lan truyền qua lớp tích chập đầu tiên, sau đó các giá trị tính toán được sẽ lan truyền qua lớp lấy mẫu, lớp tích chập và lớp lấy mẫu có thể được lặp lại nhiều lần trong mạng. Và sau đó được lan truyền qua kết nối đầy đủ để tính xác suất ảnh đó chứa vật thể gì.

Lớp tích chập

Phép toán tích chập là một trong những nền tảng cơ bản của mạng nơ-ron tích chập. Tích chập được thực hiện trên giá trị đầu vào của dữ liệu và ma trận lọc (kernel), bộ lọc (filter) (thuật ngữ này được sử dụng khác nhau tùy tình huống) để tạo ra một bản đồ đặc trưng (feature map). Thực hiện phép tích chập bằng cách trượt kernel/filter theo dữ liệu đầu vào. Tại mỗi vị trí, tiến hành phép nhân ma trận và tính tổng các giá trị để đưa vào bản đồ đặc trưng. Trong thực tế, tích chập được thực hiện hiện trên không gian 3 chiều. Mỗi hình ảnh được biểu diễn dưới dạng 3 chiều: Rộng, cao và sâu. Chiều sâu ở đây chính là giá trị màu sắc của hình (RGB).

Thực hiện phép tích chập trên đầu vào nhiều lần khác nhau, mỗi lần sử dụng một kernel/filter khác nhau. Kết quả ta sẽ thu được những bản đồ đặc trưng khác nhau. Cuối cùng, ta kết hợp toàn bộ bản đồ đặc trưng này thành kết quả cuối cùng của tầng tích chập.

Trong quá trình trượt kernel/filter trên dữ liệu đầu vào, quy định một bước nhảy (stride) với mỗi lần di chuyển, thể hiện số pixel cần phải dịch chuyển mỗi khi trượt filter qua bức ảnh. Khi stride = 1, thì mỗi lần dịch kernel/filter sẽ sang phải 1 pixel, khi hết cạnh biên phải thì xuống 01 dòng và dịch tiếp. Còn nếu stride = 2 thì mỗi lần dịch sẽ sang phải 2 pixel, khi hết cạnh thì xuống 02 dòng. Thông thường người ta lựa chọn bước nhảy là 1. 

Khi áp dụng phép tích chập thì ma trận đầu vào sẽ có kích thước nhỏ dần đi, do đó số lớp của mô hình CNN sẽ bị giới hạn, nên ta cần một phép xử lý đầu vào để đầu ra không bị co giãn. Đơn giản ta chỉ cần thêm một lề nhỏ vào đầu vào. Một lề với giá trị 0 sẽ được thêm vào xung quanh đầu vào trước khi thực hiện phép tích chập.

Kích thước đầu ra được tính theo công thức:

Trong đó: n là số filter/kernel, p là kích thước khoảng trắng phía ngoài viền của ảnh đầu vào, f là kích thước và s là bước trượt của filter/kernel.

Tương tự như mạng nơ-ron thông thường, CNNs sử dụng một hàm kích hoạt (Activate function) để có đầu ra dưới dạng phi tuyến. Đầu ra của phép tích chập sẽ đi qua hàm kích hoạt nào đó như hàm ReLU (Rectified linear units)… để giới hạn phạm vi biên độ cho phép của giá trị đầu ra. Hình 1 thể hiện một hàm phi tuyến ReLU theo sau lớp tích chập. Hàm ReLU thường được chọn do cài đặt đơn giản, tốc độ xử lý nhanh mà vẫn đảm bảo được tính toán hiệu quả. Phép tính toán của hàm ReLU chỉ đơn giản là chuyển tất cả các giá trị âm thành giá trị 0. Lớp ReLU được áp dụng ngay phía sau lớp tích chập, với đầu ra là một ảnh mới có kích thước giống với ảnh đầu vào, các giá trị điểm ảnh cũng hoàn toàn tương tự, trừ các giá trị âm đã bị loại bỏ.

Hình 1. Một lớp tích chập

Lớp lấy mẫu

Lớp lấy mẫu đặt sau lớp tích chập để làm giảm kích thước ảnh đầu ra trong khi vẫn giữ được các thông tin quan trọng của ảnh đầu vào. Việc giảm kích thước dữ liệu có tác dụng làm giảm được số lượng tham số cũng như tăng hiệu quả tính toán. Lớp lấy mẫu cũng sử dụng một cửa sổ trượt để quét toàn bộ các vùng trong ảnh như lớp tích chập và thực hiện phép lấy mẫu thay vì phép tích chập, chọn lưu lại một giá trị duy nhất đại diện cho toàn bộ thông tin của vùng ảnh đó. (Hình 2)

Hình 2. Lớp lấy mẫu

Lớp lấy mẫu được sử dụng phổ biến nhất là kích thước bộ lọc 2 với bước nhảy 2. Có 02 phương thức lấy mẫu thường được sử dụng nhất hiện nay, đó là Max Pooling (lấy giá trị điểm ảnh lớn nhất) và Avarage Pooling (lấy giá trị trung bình của các điểm ảnh trong vùng ảnh cục bộ).

Lớp kết nối đầy đủ

Lớp cuối cùng trong mạng CNNs là lớp kết nối đầy đủ, phần này hoạt động tương tự như mạng nơ-ron thông thường. Các lớp được kết nối đầy đủ thường là một vài lớp cuối cùng của được thể hiện như trong Hình 3. Lớp kết nối đầy đủ chứa cùng số lượng nơ-ron đầu ra với số lớp được nhận dạng.

Hình 3. Lớp kết nối đầy đủ

4. Phát hiện cảm xúc tích cực và tiêu cực của sinh viên trong học tập trực tuyến

Tập dữ liệu gồm: 1.000 ảnh (với 580 ảnh có cảm xúc tích cực và 420 ảnh có cảm xúc tiêu cực) ảnh được thu thập từ các ảnh chụp sinh viên Học viện Ngân hàng thông qua giao diện màn hình của phần mềm trực tuyến Zoom.

– Tập huấn luyện: Chiếm 60% dùng để học khi huấn luyện.

– Tập kiểm chứng: Chiếm 20% dùng để kiểm chứng mô hình huấn luyện.

– Tập kiểm tra: Chiếm 20% dùng để kiểm tra mô hình đã phù hợp sau khi huấn luyện.

Độ chính xác của mô hình thu được là 93.54%.

5. Kết luận và hướng phát triển

Mô hình 2: Mô hình thực hiện

Phát hiện cảm xúc tích cực và tiêu cực của người học trong quá trình học tập có vai trò quan trọng trong việc điều chỉnh hoạt động giảng dạy nhằm thu được hiệu quả cho quá trình này. Phương pháp phát hiện và đánh giá cảm xúc tự động thông qua nhận diện khuôn mặt là giải pháp khả thi về mặt kỹ thuật và thời gian cũng như đảm bảo tính khách quan. Việc ứng dụng phương pháp đánh giá cảm xúc thông qua khuôn mặt cho quá trình giảng dạy trực tuyến là rất khả quan và đem lại hiệu quả trong việc cải tiến quá trình giảng dạy của người dạy với mục đích làm giảm stress cho người học, điều này sẽ giúp nâng cao hiệu quả giảng dạy trực tuyến. Ảnh khuôn mặt của sinh viên sẽ được thu thập tự động qua phần mềm Zoom sau mỗi giờ học với số lượng nhất định, sử dụng làm đầu vào hệ thống để thu được kết quả đánh giá cảm xúc tích cực và tiêu cực chung của sinh viên, từ đó đưa ra kết quả giờ giảng của giảng viên có ảnh hưởng tích cực hay tiêu cực. Trên cơ sở đó, người giảng sẽ tiếp tục phát huy hoặc điều chỉnh phương án giảng dạy cho phù hợp. Với mong muốn tiếp tục đẩy mạnh hiệu quả hoạt động giảng dạy, hệ thống có thể phát triển để đánh giá cảm xúc tích cực và tiêu cực của từng sinh viên giúp các giảng viên, cố vấn học tập có thể trợ giúp, tư vấn học tập cho sinh viên kịp thời, đảm bảo quá trình học tập có thể diễn ra được đúng kế hoạch. 

Bên cạnh việc phát hiện cảm xúc tích cực và tiêu cực của sinh viên Học viện Ngân hàng trong quá trình học trực tuyến thì mô hình này cũng có thể áp dụng cho các ngân hàng. Với dữ liệu đầu vào là ảnh của khách hàng khi đến phòng giao dịch, được thu thập qua các camera giám sát, đưa qua mô hình có thể phát hiện cảm xúc hài lòng hay không hài lòng của khách hàng khi sử dụng dịch vụ, từ đó, ngân hàng nắm bắt được tâm trạng của khách hàng, họ có thể đưa ra phân tích và giải pháp phù hợp nhằm mang lại trải nghiệm cá nhân hóa, phục vụ khách hàng tốt hơn.

ThS. Triệu Thu Hương, ThS. Nguyễn Thị Yến

Học viện Ngân hàng

Bình luận về bài viết này