Mengapa Dibutuhkan dan Cara Kerjanya – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: Gaugarin Oliver

Pemrosesan Bahasa Alami

Pemrosesan Bahasa Alami

Menjawab pertanyaan penelitian yang spesifik dan terdefinisi dengan jelas dari sejumlah besar literatur ilmiah dan klinis terkait perawatan kesehatan yang ada bisa sangat menantang. Namun justru itulah tujuan tinjauan literatur sistematis (SLR) dalam perawatan kesehatan, yang menggunakan pendekatan sistematis untuk menilai secara kritis dan mengevaluasi sejumlah besar data kuantitatif dan kualitatif tentang masalah terkait kesehatan tertentu.

SLR memberikan ringkasan yang lengkap – terutama dibandingkan dengan jenis tinjauan lain, seperti tinjauan cepat – dari semua bukti yang tersedia pada pertanyaan penelitian tertentu, untuk membuat bukti ini lebih mudah tersedia bagi pembuat keputusan utama. Untuk mendapatkan nilai tertinggi, SLR harus dilakukan dengan sangat ketat. Institut Kedokteran AS (IOM) telah menyusun 21 standar yang dimaksudkan untuk memandu pengembangan SLR berkualitas tinggi dalam perawatan kesehatan.

Karena ketelitian yang cukup besar yang terlibat, SLR dianggap sebagai bukti tingkat tertinggi dan memainkan peran penting dalam pengambilan keputusan perawatan kesehatan. Mereka juga merupakan komponen kunci dari praktik kedokteran berbasis bukti (EBM), proses interdisipliner yang menghubungkan bukti penelitian dengan keahlian klinis dan nilai-nilai pasien. Praktik EBM juga mencakup penggunaan analisis risiko-manfaat, meta-analisis, dan uji coba terkontrol secara acak (RCT). Salah satu tugas penting saat melakukan SLR adalah penambangan database penelitian besar untuk mengidentifikasi RCT dari jutaan dokumen lain yang ada (hanya 1,6 persen dari 26,6 juta artikel di PubMed pada 2016, misalnya, adalah RCT).

Tetapi jumlah waktu dan pekerjaan yang dibutuhkan untuk menghasilkan SLR berkualitas tinggi bisa jadi menakutkan. Dan di situlah otomatisasi yang menggunakan teknik AI seperti pemrosesan bahasa alami (NLP) dapat membuat perbedaan besar.

Perlunya otomatisasi SLR menggunakan NLP

SLR secara tradisional membutuhkan waktu yang sangat lama untuk berkembang dan membutuhkan beberapa anggota tim khusus untuk mencurahkan banyak waktu: Menurut studi 2018 oleh Bullers et. al., total rata-rata 1.139 jam per proyek. Bahkan pengembangan pertanyaan penelitian dapat memakan waktu: Banyak ahli merekomendasikan penggunaan alat PICO (masalah, intervensi, perbandingan, hasil) untuk meningkatkan proses ini.

University of Toronto mengatakan tim SLR harus mencakup kemampuan dan keterampilan khusus berikut:

Pakar materi pelajaran dengan keahlian klinis / metodologis Dua peninjau independen Spesialis informasi / pustakawan medis terlatih dalam metode SLR Seorang ahli statistik (jika termasuk meta-analisis) Pemecah ikatan untuk menyelesaikan keputusan yang diperdebatkan

Meskipun jumlah anggota tim yang dibutuhkan banyak, SLR masih membutuhkan waktu yang cukup lama. Universitas Barat Kanada memperkirakan waktu yang dibutuhkan untuk menyelesaikan SLR pada enam bulan hingga 1,5 tahun; U of T mengatakan tim yang terdiri dari beberapa ahli materi pelajaran harus merencanakan “setidaknya” sembilan hingga 12 bulan tergantung pada topiknya. Untuk publikasi studi utama yang menginginkan inklusi dalam SLR, prosesnya bahkan lebih glasial: Sebagian besar tidak disertakan dalam SLR selama rata-rata 2,5 hingga 6,5 ​​tahun.

Proses pengembangan SLR yang lamban ini memiliki implikasi yang signifikan terhadap keakuratan dan relevansi: Dua puluh tiga persen dari semua SLR dianggap ketinggalan zaman dalam dua tahun publikasi karena bukti atau temuan baru.

Tapi ada alasan bagus mengapa mereka butuh waktu lama. SLR melibatkan beberapa tugas yang memakan waktu berbeda, termasuk pengembangan strategi pencarian, terjemahan strategi pencarian, dokumentasi, dan penulisan metodologi pencarian. Langkah-langkah utama SLR yang ketat dalam perawatan kesehatan meliputi:

Merumuskan pertanyaan penelitian perawatan kesehatan khusus Mengembangkan protokol Melakukan pencarian Memilih dan menilai studi penelitian Mengekstrak data yang relevan dan kemudian menganalisis, meringkas, dan mensintesis data tersebut (seringkali merupakan langkah yang paling memakan waktu) Menafsirkan hasil

Karena banyaknya upaya manual yang terlibat, SLR terkenal sulit untuk diskalakan, bahkan ketika menggunakan perangkat lunak tinjauan sistematis untuk membantu mengelola proses bersama dengan tim ahli.

Bagaimana NLP mengatasi masalah ini?

NLP (termasuk penambangan teks) adalah jenis AI yang menggunakan komputer untuk memahami data tidak terstruktur seperti bahasa tertulis. NLP dapat membaca dan memahami teks ini, mengekstrak informasi yang ditargetkan yang digunakan untuk mengotomatiskan tugas-tugas SLR – membantu mempercepat beberapa elemen proses, termasuk ekstraksi informasi, secara eksponensial. Satu studi dari tahun 2016 menggunakan pengklasifikasi mesin vektor dukungan menyadari keakuratan tinggi dan pengulas hanya perlu membaca 3,7 kalimat (rata-rata) per dokumen, bukan seluruh dokumen.

Karena algoritme NLP adalah bidang pembelajaran mesin yang mereka pelajari saat memproses data yang semakin relevan, menjadi semakin mahir dalam tugas mereka saat data korpora dan pelatihan tambahan diproses.

Ekstraksi informasi menggunakan NLP mencakup ekstraksi konsep (alias pengenalan entitas) dan ekstraksi relasi (juga dikenal sebagai ekstraksi asosiasi). Jonnalagadda et. Al. mengatakan teknik ini “telah digunakan untuk mengotomatiskan ekstraksi informasi genomik dan klinis dari literatur biomedis”. Para peneliti menambahkan bahwa mengotomatiskan ekstraksi data di SLR dapat “secara substansial mengurangi waktu yang dibutuhkan untuk menyelesaikan tinjauan sistematis dan dengan demikian mengurangi jeda waktu untuk bukti penelitian untuk diterjemahkan ke dalam praktik klinis.”

Tugas NLP kritis dalam pengembangan SLR perawatan kesehatan

Dua kemampuan NLP sangat cocok untuk proses SLR: Ekstraksi data, yang telah kami sebutkan, dan klasifikasi teks.

Klasifikasi teks otomatis berguna karena dapat membaca konten dokumen dan mengklasifikasikannya berdasarkan parameter tertentu yang telah ditentukan sebelumnya – menentukan apakah dokumen tertentu adalah RCT, misalnya, menghemat jam kerja manual. Klasifikasi teks terutama melibatkan dua tugas utama: a) Mengidentifikasi kalimat kunci dan mengabaikan bagian yang tidak relevan, b) Mengklasifikasikan kalimat atau paragraf ini dan menandainya berdasarkan kategori atau kriteria yang telah ditentukan Ekstraksi data, sementara itu, mengidentifikasi potongan teks atau angka (seperti temuan dari laporan tertentu, atau jumlah subjek uji klinis) berdasarkan variabel yang diminati dan mengekstrak informasi dari file sumber.

Marshall et. Al. Tunjukkan bahwa jenis klasifikasi teks yang paling menonjol yang digunakan dalam proses tinjauan adalah skrining abstrak, yang menentukan apakah artikel memenuhi kriteria penyertaan tinjauan. Algoritme pembelajaran mesin juga dapat dilatih untuk menggunakan penyaringan abstrak untuk memberi peringkat dokumen berdasarkan relevansi – berpotensi menghemat waktu peninjau.

Model NLP yang digunakan dalam SLR layanan kesehatan

Sejumlah model NLP terlatih sangat cocok untuk teks ilmiah dan digunakan dalam pengembangan SLR layanan kesehatan:

SciBERT adalah model bahasa pra-terlatih berdasarkan Bidirectional Encoder Representations from Transformers (BERT), disesuaikan untuk aplikasi medis dengan 1.14M makalah Semantic Scholar yang dipilih secara acak. BioBERT melakukan penambangan teks biomedis berdasarkan model representasi bahasa biomedis terlatih. Ini dilatih dan disesuaikan dengan banyak sumber termasuk Wikipedia bahasa Inggris, BooksCorpus, PubMed Abstracts, dan artikel teks lengkap PMC. Penyesuaian lebih lanjut dari BioBERT menggunakan kumpulan data pengenalan entitas bernama biomedis seperti Penyakit NCBI (2014) dan BC4CHEMD (2015). ClinicalBERT adalah model bahasa lain yang didasarkan pada BERT dan berfokus pada perawatan kesehatan. Ini mengevaluasi representasi catatan klinis tetapi sebagian besar digunakan dalam domain klinis.

Menggunakan NLP untuk SLR layanan kesehatan bukan tanpa tantangan, tentu saja, paling tidak kompleksitas bahasa Inggris (atau lainnya). Beberapa kata dan pernyataan bisa memiliki nuansa yang luar biasa, sementara yang lain bisa memiliki banyak arti tergantung pada konteksnya. Beberapa ungkapan sehari-hari memiliki arti yang sama sekali berbeda dari padanan literalnya. Bahkan tata bahasa bisa sangat tidak konsisten untuk dievaluasi, tergantung pada penulis dan tingkat keakraban mereka dengan bahasa tersebut.

Itu semua menambahkan hingga jumlah frase, kata, dan kombinasi yang memusingkan yang harus dievaluasi oleh algoritma NLP dengan kecepatan sangat tinggi. Namun, teknisi ahli pembelajaran mesin CapeStart, ahli materi pelajaran, dan ilmuwan data dapat membantu melalui kombinasi anotasi data, pengembangan model pembelajaran mesin kustom, dan pengembangan perangkat lunak. Solusi NLP dan anotasi data kami yang berfokus pada perawatan kesehatan digunakan oleh beberapa perusahaan medis paling inovatif di dunia dalam berbagai aplikasi, termasuk klasifikasi teks medis, pengenalan entitas, analisis teks, dan pemodelan topik. CapeStart juga menawarkan model pra-bangun yang sesuai untuk masalah SLR yang kompleks.

Review Sastra Sistematis Berbantuan NLP: Why It’s Needed dan How It Works awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Towards AI

Leave a Reply