Algoritma Baru Dapat Mengurangi Kompleksitas Big Data

Setiap kali percobaan ilmiah dilakukan, hasilnya berubah menjadi angka, seringkali menghasilkan kumpulan data yang sangat besar. Untuk memperkecil ukuran data, pemrogram komputer menggunakan algoritme yang dapat menemukan dan mengekstrak fitur utama yang mewakili properti statistik yang paling menonjol. Tetapi banyak algoritme semacam itu tidak dapat diterapkan secara langsung ke data bervolume besar ini.

Reza Oftadeh, mahasiswa doktoral di Departemen Ilmu dan Teknik Komputer di Texas AM University, disarankan oleh Dylan Shell, fakultas di departemen tersebut, mengembangkan algoritme yang dapat diterapkan pada kumpulan data besar yang dapat langsung memesan fitur dari yang paling menonjol hingga yang paling kecil.

Ada banyak cara ad hoc untuk mengekstrak fitur-fitur ini menggunakan algoritme pembelajaran mesin, tetapi sekarang kami memiliki bukti teoretis yang sangat ketat bahwa model kami dapat menemukan dan mengekstrak fitur-fitur penting ini dari data secara bersamaan, melakukannya dalam satu alur algoritme, Kata Oftadeh.

Subbidang pembelajaran mesin berkaitan dengan analisis komponen, masalah mengidentifikasi dan mengekstraksi fitur set data mentah untuk membantu mengurangi dimensinya. Setelah diidentifikasi, fitur tersebut digunakan untuk membuat sampel data beranotasi untuk analisis lebih lanjut atau tugas pembelajaran mesin lainnya seperti klasifikasi, pengelompokan, visualisasi, dan pemodelan berdasarkan fitur tersebut.

Pekerjaan untuk menemukan atau mengembangkan algoritme jenis ini telah berlangsung selama seabad terakhir, tetapi yang membedakan era ini dari yang lain adalah keberadaan data besar, yang dapat berisi jutaan titik sampel dengan puluhan ribu atribut. Menganalisis kumpulan data besar ini adalah proses yang rumit dan memakan waktu bagi pemrogram manusia, sehingga jaringan saraf tiruan (JST) telah menjadi yang terdepan dalam beberapa tahun terakhir.

Sebagai salah satu alat utama pembelajaran mesin, JST adalah model komputasi yang dirancang untuk mensimulasikan cara otak manusia menganalisis dan memproses informasi. Mereka biasanya terbuat dari lusinan hingga jutaan neuron buatan, yang disebut unit, disusun dalam serangkaian lapisan yang digunakannya untuk memahami informasi yang diberikan. JST dapat digunakan dengan berbagai cara, tetapi paling umum digunakan untuk mengidentifikasi fitur unik yang paling mewakili data dan mengklasifikasikannya ke dalam kategori berbeda berdasarkan informasi tersebut.

Ada banyak ANN yang bekerja dengan sangat baik, dan kami menggunakannya setiap hari di ponsel dan komputer kami, kata Oftadeh. Misalnya, aplikasi seperti Alexa, Siri, dan Google Terjemahan menggunakan ANN yang dilatih untuk mengenali apa yang dikatakan oleh berbagai pola ucapan, aksen, dan suara.

Namun tidak semua fitur sama pentingnya, dan fitur tersebut dapat disusun dari yang paling penting hingga yang paling tidak penting. Pendekatan sebelumnya menggunakan jenis JST tertentu yang disebut autoencoder untuk mengekstraknya, tetapi pendekatan tersebut tidak dapat mengetahui dengan tepat di mana fitur tersebut berada atau mana yang lebih penting daripada yang lain.

Misalnya, jika Anda memiliki ratusan ribu dimensi dan hanya ingin menemukan 1.000 yang paling menonjol dan mengurutkan 1.000 tersebut, secara teoritis mungkin untuk dilakukan, tetapi tidak layak dalam praktiknya karena model tersebut harus dijalankan berulang kali pada kumpulan data 1.000 kali, kata Oftadeh.

Untuk membuat algoritme yang lebih cerdas, para peneliti mengusulkan penambahan fungsi biaya baru ke jaringan yang menyediakan lokasi yang tepat dari fitur yang langsung dipesan berdasarkan kepentingan relatifnya. Setelah digabungkan, metode mereka menghasilkan pemrosesan yang lebih efisien yang dapat memasukkan kumpulan data yang lebih besar untuk melakukan analisis data klasik.

Saat ini, algoritme hanya dapat diterapkan pada sampel data satu dimensi, tetapi tim tertarik untuk memperluas kemampuan algoritme mereka untuk menangani data terstruktur yang lebih kompleks.

Langkah selanjutnya dari pekerjaan mereka adalah menggeneralisasi metode mereka dengan cara yang menyediakan kerangka kerja terpadu untuk menghasilkan metode pembelajaran mesin lain yang dapat menemukan struktur yang mendasari kumpulan data dan / atau mengekstrak fitur-fiturnya dengan menetapkan sejumlah kecil spesifikasi.

Sumber: scienceblog.com-pixabay.com

More from Author

More Articles

Atasi Perubahan Kebutuhan Diet Seir...

Penerbit yang Berani Membayar Royal...

Tips yang Harus Dipertimbangkan Dal...

Belajar Dari Elon Musk, Pendiri Tes...

Discover Peoples

Sign In

Trouble Logging in?