Sử dụng NLP để trích xuất dữ liệu y tế không có cấu trúc từ văn bản

Natural Language Processing in Healthcare

Trong lĩnh vực y tế, chăm sóc sức khỏe, rất nhiều thông tin có liên quan để đưa ra các chẩn đoán và đề xuất chính xác chỉ có sẵn trong các ghi chú lâm sàng, văn bản tự do. Phần lớn dữ liệu này bị chìm trong kho tài liệu ở dạng không có cấu trúc. Các dữ liệu này rất cần thiết để đưa ra phác đồ điều trị chính xác. Do đó, điều quan trọng là có thể trích xuất dữ liệu theo cách tốt nhất có thể, sao cho thông tin thu được có thể được phân tích và khai thác.

Thuật toán xử lý ngôn ngữ tự nhiên, Natural Language Processing – NLP, có thể trích xuất dữ liệu lâm sàng từ văn bản bằng cách sử dụng kỹ thuật học tập sâudeep learning, chẳng hạn như nhúng các từ dành riêng cho chăm sóc sức khỏe, mô hình nhận dạng đối tượng và mô hình phân giải thực thể. Các thuật toán như vậy sử dụng các mô hình được đào tạo để tìm các từ có liên quan trong nội dung văn bản. Các mô hình nhận dạng đối tượng hoạt động bằng cách tìm kiếm các tên cụ thể và nhóm chúng thành các danh mục được xác định trước. Mô hình phân giải đối tượng hướng đến việc tìm kiếm các bản ghi – như các chẩn đoán, phác đồ điều trị hoặc mã thuốc – có liên hệ đến cùng một đối tượng và xác lập chúng thành một bản ghi tổng thể.

Học máy có thể làm cho các mẫu hình trở nên rõ ràng hơn nhưng chỉ khi dữ liệu được sử dụng là sạch, chuẩn hóa và hoàn chỉnh. Xử lý ngôn ngữ tự nhiên (NLP) là một phần quan trọng trong việc thu thập dữ liệu từ các tài liệu chuyên môn và ghi chú lâm sàng.

Giải pháp hạ tầng Deep Learning, Trí tuệ Nhân tạo - AI
Ví dụ về đường cong ROC (AUC) (từ Horng và cộng sự, 2017)

Ví dụ về đường cong ROC (AUC) (từ Horng và cộng sự, 2017)

NLP do đó rất quan trọng đối với lĩnh vực chăm sóc sức khỏe và có hai trường hợp sử dụng AI phổ biến trong y tế:

Dự đoán nguy cơ bệnh nhân:

Tạo ra một cơ chế kích hoạt tự động hỗ trợ cho quyết định lâm sàng đối với trường hợp nhiễm trùng máu tại bộ phận cấp cứu bằng cách sử dụng học máy.

Nghiên cứu này cho thấy lợi thế của việc trích xuất dữ liệu văn bản tự do và dấu hiệu quan trọng để xác định những bệnh nhân bị nghi ngờ có nhiễm trùng, đe dọa đến tính mạng. Nghiên cứu này sử dụng NLP để trích xuất dữ liệu từ văn bản lâm sàng.

Các nhà nghiên cứu thấy rằng AUC tăng từ 0,67 (không sử dụng NLP) lên 0,86 khi sử dụng NLP. AUC (giá trị ROC) là khu vực dưới đường cong và được sử dụng trong phân tích phân loại để đánh giá hiệu quả của một mô hình. Về cơ bản, giá trị AUC càng cao (giá trị càng gần bằng 1) thì độ chính xác của mô hình càng được xem xét. Nghiên cứu do đó kết luận rằng việc sử dụng NLP trên các bản ghi văn bản tự do là thuận lợi và thực sự cải thiện khả năng xác định và dự đoán nhiễm trùng ở bệnh nhân trong ER, như được chỉ ra bởi giá trị AUC tăng lên.

Dự đoán nguy cơ bệnh nhân là quan trọng bởi vì điều này nhấn mạnh quá trình ra quyết định. Giá trị của các xét nghiệm phỏng đoán cho phép các quyết định được thực hiện liên quan đến việc liệu một lựa chọn điều trị cụ thể có thể hữu ích nếu được theo đuổi hay không. Trên thực tế, tổng cộng 97% các quy tắc phỏng đoán được sử dụng trong đánh giá 29 nghiên cứu mà NLP đã được sử dụng, được nhận thấy là hợp lý về mặt lâm sàng. Các mô hình dự báo nguy cơ bệnh nhân có giá trị và có thể hỗ trợ khả năng chẩn đoán của bác sĩ. Điều này đã được tìm thấy trong nghiên cứu về nhiễm trùng huyết, như được thể hiện ở sự gia tăng giá trị AUC. Có những trường hợp khác mà khả năng chẩn đoán của bác sĩ là kém chuẩn xác. Ví dụ, các nhà ung thư học đã được ghi nhận chỉ có độ chính xác 20% khi dự đoán sự sống còn của bệnh nhân bị bệnh nan y.

Xây dựng nhóm thuần tập – cohort:

Cơ hội và thách thức trong việc tận dụng dữ liệu hồ sơ sức khỏe điện tử trong ung thư học.

Việc sử dụng thông tin kỹ thuật số và hồ sơ y tế điện tử (EHRs) ngày càng gia tăng đang mang lại kho “Dữ liệu lớn – Big Data” cho ngành y tế và chăm sóc sức khỏe. Dữ liệu rất dễ truy cập và trích xuất nếu nó ở định dạng có cấu trúc. Đây không phải là trường hợp cho dữ liệu phi cấu trúc, không được nhập theo định dạng được xác lập trước. Điều này có nghĩa là EHR bị hạn chế vì các thành phần dữ liệu hoặc thiếu hoặc ở dạng văn bản tự do.

Một nghiên cứu về ung thư phổi tế bào không nhỏ (non-small cell lung cancer – NSCLS) đã minh chứng việc sử dụng dữ liệu có cấu trúc và phi cấu trúc. Sử dụng cả hai loại dữ liệu, 8324 bệnh nhân được xác định là có NSCLC. Trong số 8324 đó, chỉ có 2472 người được tìm thấy trong nhóm thuần tập được tạo thành bởi dữ liệu có cấu trúc. Ngoài ra, 1090 bệnh nhân cũng sẽ được tính vào nếu chỉ sử dụng dữ liệu có cấu trúc. 1090 bệnh nhân được cho là không phù hợp với các thông số của nghiên cứu. Do đó, 2472 bệnh nhân là nhóm thuần tập cần quan tâm, được sử dụng để phân tích. Điều này làm nổi bật tầm quan trọng của việc sử dụng cả dữ liệu có cấu trúc và phi cấu trúc trong một phân tích.

Xây dựng nhóm thuần tập (để tập hợp dữ liệu trên một nhóm bệnh nhân thành nhóm hoặc nhóm thuần tập) là quan trọng vì việc phân tích dữ liệu tiếp theo dựa trên việc xác định nhóm thuần tập chính xác. Nhóm thuần tập sẽ được xác định dựa trên đề bài nghiên cứu được hỏi, do đó nếu các nhóm thuần tập không chính xác được xác định thì phân tích sẽ tạo ra kết quả giả. Việc xây dựng và xác định các nhóm thuần tập được cho là rất quan trọng trong việc xác định nguy cơ bệnh và chọn lọc bệnh nhân cho các thử nghiệm lâm sàng.

Một ví dụ khác ngoài nghiên cứu NSCLS mà ở đó việc nhận dạng nhóm là rất quan trọng, đó là nghiên cứu về bệnh nhân rối loạn giấc ngủ. Trong ví dụ này, việc xác định nhóm và xây dựng dẫn đến độ chính xác hơn 80% phân tích thuật ngữ trong một nghiên cứu NLP về bệnh nhân rối loạn giấc ngủ. Nghiên cứu này cho thấy NLP là một công cụ rất hữu ích để sử dụng cho dữ liệu phi cấu trúc.

Người ta cần có một thư viện NLP về chăm sóc sức khỏe đủ lớn, như một phần của bộ công cụ khoa học dữ liệu y tế của họ, chẳng hạn như thư viện NLP thực hiện nghiên cứu sử dụng để giải quyết những vấn đề chính xác này. Do đó rõ ràng NLP là một công cụ rất hữu ích và quan trọng để sử dụng trong AI cho việc xử lý dữ liệu phi cấu trúc.

Liên hệ tác giả