Các nhà nghiên cứu Meta AI phát triển các cách để đọc lời nói từ não của mọi người

1
Các nhà nghiên cứu Meta AI phát triển các cách để đọc lời nói từ não của mọi người

Khi mọi người nói, họ đang nghĩ về cách mà họ sẽ hình thành các từ bằng miệng – và trên thực tế, không cần thiết phải nói để não hình thành hoạt động liên quan đến lời nói.

Điều đó quan trọng bởi vì các phần của não kiểm soát miệng và các phần liên quan đến việc hiểu và hình thành ngôn ngữ là riêng biệt. Các nhà nghiên cứu tại Meta Platform Inc.’s Phòng thí nghiệm nghiên cứu AI của Facebook đã và đang áp dụng kiến ​​thức này cùng với trí tuệ nhân tạo để tìm hiểu cách hỗ trợ những người bị chấn thương thần kinh khiến họ không thể giao tiếp thông qua giọng nói, đánh máy hoặc cử chỉ.

Jean Remi King, một nhà khoa học nghiên cứu của FAIR Labs cho biết: “Chúng tôi đã phát triển một mô hình AI có thể giải mã lời nói từ các bản ghi âm không xâm lấn về hoạt động của não. “Giải mã lời nói từ hoạt động của não bộ đã là mục tiêu lâu dài của các nhà khoa học thần kinh và bác sĩ lâm sàng, nhưng hầu hết tiến bộ đều dựa vào các kỹ thuật ghi âm não xâm lấn.”

Hầu hết mọi người có thể quen thuộc với các hình thức quét não phổ biến như chụp cộng hưởng từ hoặc MRI, và chụp cắt lớp vi tính hoặc CT, cả hai đều tạo ra hình ảnh chi tiết của não. Tuy nhiên, chúng thể hiện cấu trúc hơn là hoạt động. Cách tốt nhất cho đến nay để có được hoạt động liên tục rõ ràng là xâm lấn – nghĩa là mở hộp sọ và đặt các điện cực trực tiếp lên não.

Tuy nhiên, các kỹ thuật không xâm lấn như điện não đồ, điện não đồ và điện não đồ, MEG, có thể quét não từ bên ngoài và theo dõi hoạt động mà không cần phẫu thuật. Cả EEG và MEG đều có thể chụp nhanh hoạt động của não ở cấp độ mili giây, điều này làm cho chúng trở nên hoàn hảo để xem liên tục những gì đang xảy ra trong não của một người khi họ đang nghe.

Vấn đề là họ không có được một bức tranh rõ ràng về những gì đang xảy ra, vì các bản ghi từ các phiên EEG và MEG có thể cực kỳ nhiễu. Mặc dù chúng hữu ích cho việc chẩn đoán chấn thương, nhưng điều này khiến chúng trở thành vấn đề trong việc xác định các hoạt động cụ thể, sắc thái của não, chẳng hạn như liệu người đó đang nghĩ đến việc nói từ “mèo”.

“Các bản ghi âm không xâm lấn nổi tiếng là ồn ào và có thể rất khác nhau giữa các phiên ghi âm và các cá nhân vì nhiều lý do, bao gồm sự khác biệt trong não của mỗi người và nơi đặt các cảm biến,” King nói.

Để giải quyết vấn đề này, các nhà nghiên cứu của FAIR đã chuyển sang sử dụng các thuật toán máy học để giúp “làm sạch” tiếng ồn. Mô hình họ đã sử dụng được gọi là wave2vec 2.0một công cụ AI mã nguồn mở được phát triển bởi nhóm FAIR vào năm 2020 có thể được sử dụng để xác định giọng nói chính xác khỏi âm thanh ồn ào.

Sau đó, họ giao nhiệm vụ cho công cụ này với bốn bản ghi EEG và MEG mã nguồn mở bao gồm 150 giờ của 169 tình nguyện viên khỏe mạnh nghe sách nói và các câu biệt lập bằng tiếng Anh bằng tiếng Hà Lan. Các bản ghi âm này sau đó trở thành tập huấn luyện cho mô hình wave2vec 2.0, sau đó có thể được sử dụng để cải thiện khả năng chọn ra những từ tiềm năng mà một cá nhân đã nghe thấy.

King nói: “Với một đoạn mã hoạt động của não, nó có thể xác định từ một nhóm lớn các đoạn âm thanh mới mà một người thực sự đã nghe thấy. “Từ đó, thuật toán suy ra những từ mà người đó có nhiều khả năng đã nghe.”

Các nhà nghiên cứu nhận thấy điều này đáng khích lệ bởi vì nó cho thấy rằng AI có thể được đào tạo để học cách giải mã các bản ghi ồn ào và biến đổi của hoạt động não từ lời nói nhận thức được, bước tiếp theo là xem liệu điều đó có thể được mở rộng sang hoạt động của não mà không cần nhóm các đoạn âm thanh hay không. Điều đó sẽ dẫn đến một bộ giải mã linh hoạt hơn nhiều mà không cần từ vựng được thiết lập trước.

Tuy nhiên, đây chỉ là bước đầu tiên, King cảnh báo, vì nó chỉ tập trung vào việc giải mã giọng nói nhận thức, mặc dù mục tiêu cuối cùng của nghiên cứu là cho phép bệnh nhân giao tiếp bằng cách cho phép tạo ra giọng nói. Nó thậm chí có thể dẫn đến những tiến bộ công nghệ hơn nữa như những cách mới để điều khiển máy tính chỉ bằng cách nghĩ đến các từ hoặc nhiệm vụ trong tầm tay.

“Nhìn chung, công việc của chúng tôi là một phần trong nỗ lực rộng lớn hơn của cộng đồng khoa học nhằm sử dụng AI để hiểu rõ hơn về bộ não con người,” King nói.

Hình ảnh: geralt / Pixabay

Hãy thể hiện sự ủng hộ của bạn đối với sứ mệnh của chúng tôi bằng cách tham gia Câu lạc bộ Cube và Cộng đồng sự kiện Cube gồm các chuyên gia. Tham gia cộng đồng bao gồm Amazon Web Services và Giám đốc điều hành Amazon.com Andy Jassy, ​​người sáng lập kiêm Giám đốc điều hành Dell Technologies, Michael Dell, Giám đốc điều hành Intel Pat Gelsinger và nhiều chuyên gia và nhân vật nổi tiếng khác.

bài viết tương tự

Leave a Reply