Cancer is still an epidemiological disease in Indonesia. Drug development against cancer still relies to pharmacological laboratories and natural chemicals, which could have side effects. Cancer drug development has entered the stage of molecular biology, where the interaction of ligand chemical structure with receptor protein can be studied with high accuracy. Various chemical compounds, ranging from synthetic, semi-synthetic, to natural materials, developed for the purpose to fight one of the most dangerous diseases. In the context of the development of herbal-based drugs, there has been found heaps of natural compounds, curated and annotated, in various databases belonging to China, Taiwan, Indonesia, Japan, and several other countries. However, problems arise when choosing the best bioactive compounds to develop against cancer. Complexity arises because the metabolic pathway of cancer is very diverse, depending on the type and phase of cancer. Therefore, in this systematic review, we developed a machine learning approach to screen for these bioactive compounds, then took the best candidates for molecular simulation operations that would be tested for validity in wet experiments. Thus, the automation of the candidate drug development process for cancer could be achieved with great significance. It is known that the most effective and efficient machine learning method was Naïve Bayes, but the best in processing large amounts of compound data was classfier SVM. The future of complex bioactive compounds data could be secured by employing deep learning method.
ABSTRAK Penyakit kanker merupakan masalah epidemiologis di tanah air. Pengembangan obat modern sejauh ini masih bergantung pada laboratorium farmakologi dan kimia bahan alam yang dapat memiliki efek samping. Namun, pengembangan obat untuk penyakit kanker sudah memasuki tahap biologi molekuler, dimana interaksi struktur kimia ligan dengan protein reseptor dapat dikaji dengan ketelitian tinggi. Berbagai tipe senyawa kimia, mulai dari sintetik, semi sintetik, hingga bahan alam, dikembangkan untuk keperluan melawan penyakit yang dianggap paling berbahaya tersebut. Dalam konteks pengembangan obat berbasis herbal, telah ditemukan senyawa bahan alam dalam jumlah banyak. Data tersebut dikurasi dan dianotasi oleh basis data milik China, Taiwan, Indonesia, Jepang, maupun beberapa negara lainnya. Hanya saja, permasalahan timbul ketika memilih senyawa bioaktif terbaik untuk dikembangkan untuk melawan penyakit kanker. Kompleksitas timbul karena jalur metabolik penyakit kanker sangat beragam, tergantung pada tipe dan fasenya. Oleh karena itu, dalam telaah sistematis ini, disajikan telaah pendekatan machine learning untuk melakukan penapisan terhadap pustaka senyawa bioaktif tersebut, kemudian proses seleksi kandidat yang terbaik untuk operasi simulasi molekuler, dan selanjutnya teruji validitasnya pada wet experiment. Sehingga proses automatisasi pengembangan kandidat obat bagi penyakit kanker dapat dicapai dengan sangat signifikan. Diketahui bahwa metode machine learning paling efektif dan efisien adalah Naïve Bayes. Namun yang terbaik dalam mengolah data senyawa dalam jumlah besar adalah SVM classifier. Kedepannya, metode deep learning sangat menjanjikan untuk komputasi data senyawa bioaktif yang kompleks.
Kata kunci: machine learning, pengembangan obat, senyawa bahan alam, jalur metabolik, penyakit kanker