PTSC 2.4


TUGAS PENGANTAR TEKNOLOGI SISTEM CERDAS KE- 2.4

JUM'AT, 18 OKTOBER 2019

DOSEN PEMBIMBING : DONIE MARGAVIANTO, SKOM.,MMSI







Putri Amalia
17117223 - 3KA20
Sistem Informasi
Fakultas Ilmu Komputer dan Teknologi Informasi
Universitas Gunadarma


========================================================


Natural Language Processing (NLP)

Pemrosesan bahasa alami (NLP) adalah sub-bidang linguistik, ilmu komputer, teknik informasi, dan kecerdasan buatan yang berkaitan dengan interaksi antara komputer dan bahasa manusia (alami), khususnya cara memprogram komputer untuk memproses dan menganalisis sejumlah besar data bahasa alami .
Sejarah
Sejarah pemrosesan bahasa alami (NLP) umumnya dimulai pada 1950-an, meskipun pekerjaan dapat ditemukan dari periode sebelumnya. Pada tahun 1950, Alan Turing menerbitkan sebuah artikel berjudul "Mesin Komputasi dan Kecerdasan" yang mengusulkan apa yang sekarang disebut tes Turing sebagai kriteria kecerdasan [klarifikasi diperlukan].

Eksperimen Georgetown pada tahun 1954 melibatkan terjemahan otomatis lebih dari enam puluh kalimat Rusia ke dalam bahasa Inggris. Para penulis mengklaim bahwa dalam tiga atau lima tahun, terjemahan mesin akan menjadi masalah yang terpecahkan. [2] Namun, kemajuan nyata jauh lebih lambat, dan setelah laporan ALPAC pada tahun 1966, yang menemukan bahwa penelitian selama sepuluh tahun telah gagal memenuhi harapan, pendanaan untuk terjemahan mesin berkurang secara dramatis. Sedikit penelitian lebih lanjut dalam terjemahan mesin dilakukan sampai akhir 1980-an, ketika sistem terjemahan mesin statistik pertama dikembangkan.

Beberapa sistem pemrosesan bahasa alami yang sangat sukses yang dikembangkan pada 1960-an adalah SHRDLU, sistem bahasa alami yang bekerja di "blok dunia" terbatas dengan kosakata terbatas, dan ELIZA, simulasi psikoterapis Rogerian, ditulis oleh Joseph Weizenbaum antara 1964 dan 1966. Menggunakan hampir tidak ada informasi tentang pemikiran atau emosi manusia, ELIZA terkadang memberikan interaksi yang mirip manusia. Ketika "pasien" melebihi basis pengetahuan yang sangat kecil, ELIZA mungkin memberikan respons umum, misalnya, menanggapi "Kepalaku sakit" dengan "Mengapa Anda mengatakan kepala Anda sakit?".

Selama tahun 1970-an, banyak programmer mulai menulis "ontologi konseptual", yang menyusun informasi dunia nyata menjadi data yang dapat dimengerti komputer. Contohnya adalah MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politik (Carbonell, 1979), dan Unit Plot (Lehnert 1981) ). Selama waktu ini, banyak obrolan ditulis termasuk PARRY, Racter, dan Jabberwacky.

Hingga 1980-an, sebagian besar sistem pemrosesan bahasa alami didasarkan pada serangkaian aturan tulisan tangan yang kompleks. Dimulai pada akhir 1980-an, bagaimanapun, ada revolusi dalam pemrosesan bahasa alami dengan pengenalan algoritma pembelajaran mesin untuk pemrosesan bahasa. Hal ini disebabkan oleh peningkatan kekuatan komputasi yang stabil (lihat hukum Moore) dan berkurangnya dominasi teori linguistik Chomsky secara bertahap (misalnya tata bahasa transformasional), yang landasan teoretisnya mengecilkan jenis linguistik korpus yang mendasari pendekatan pembelajaran mesin. untuk pemrosesan bahasa. [3] Beberapa algoritma pembelajaran mesin yang paling awal digunakan, seperti pohon keputusan, menghasilkan sistem aturan sulit jika-maka mirip dengan aturan tulisan tangan yang ada. Namun, penandaan sebagian wicara memperkenalkan penggunaan model Markov tersembunyi untuk pemrosesan bahasa alami, dan semakin banyak, penelitian telah berfokus pada model statistik, yang membuat keputusan yang lunak dan probabilistik berdasarkan pada menempelkan bobot bernilai nyata ke fitur yang membuat input data. Model bahasa cache di mana banyak sistem pengenalan ucapan sekarang bergantung adalah contoh model statistik tersebut. Model seperti itu umumnya lebih kuat ketika diberi input asing, terutama input yang mengandung kesalahan (seperti yang sangat umum untuk data dunia nyata), dan menghasilkan hasil yang lebih dapat diandalkan ketika diintegrasikan ke dalam sistem yang lebih besar yang terdiri dari beberapa subtugas.

Banyak keberhasilan awal yang menonjol terjadi di bidang terjemahan mesin, terutama karena bekerja di IBM Research, di mana model statistik yang lebih rumit secara berturut-turut dikembangkan. Sistem-sistem ini dapat mengambil keuntungan dari korpora tekstual multibahasa multibahasa yang sudah ada yang diproduksi oleh Parlemen Kanada dan Uni Eropa sebagai hasil dari undang-undang yang menyerukan penerjemahan semua proses pemerintahan ke dalam semua bahasa resmi dari sistem pemerintahan yang sesuai. Namun, sebagian besar sistem lain bergantung pada korpora yang secara khusus dikembangkan untuk tugas-tugas yang diimplementasikan oleh sistem ini, yang (dan sering terus menjadi) batasan utama dalam keberhasilan sistem ini. Akibatnya, banyak penelitian telah pergi ke metode pembelajaran yang lebih efektif dari jumlah data yang terbatas.

Penelitian terbaru semakin berfokus pada algoritma pembelajaran tanpa pengawasan dan semi-diawasi. Algoritme tersebut dapat belajar dari data yang belum dianotasi tangan dengan jawaban yang diinginkan, atau menggunakan kombinasi data beranotasi dan tidak beranotasi. Secara umum, tugas ini jauh lebih sulit daripada pembelajaran yang diawasi, dan biasanya menghasilkan hasil yang kurang akurat untuk sejumlah data input yang diberikan. Namun, ada sejumlah besar data yang tidak dianotasi yang tersedia (termasuk, antara lain, seluruh konten World Wide Web), yang sering kali dapat menggantikan hasil yang lebih rendah jika algoritma yang digunakan memiliki kompleksitas waktu yang cukup rendah untuk menjadi praktis.

Pada tahun 2010-an, pembelajaran representasi dan metode pembelajaran mesin gaya jaringan dalam menjadi luas
Tantangan dalam pemrosesan bahasa alami seringkali melibatkan pengenalan ucapan, pemahaman bahasa alami, dan generasi bahasa alami.

Evolusi pemrosesan bahasa alami
Sementara pemrosesan bahasa alami bukan ilmu baru, teknologi ini berkembang pesat berkat meningkatnya minat dalam komunikasi manusia-ke-mesin, ditambah ketersediaan data besar, komputasi yang kuat, dan algoritma yang ditingkatkan.

Sebagai manusia, Anda dapat berbicara dan menulis dalam bahasa Inggris, Spanyol, atau Cina. Tetapi bahasa asli komputer - dikenal sebagai kode mesin atau bahasa mesin - sebagian besar tidak dapat dipahami oleh kebanyakan orang. Pada tingkat terendah perangkat Anda, komunikasi terjadi bukan dengan kata-kata tetapi melalui jutaan nol dan yang menghasilkan tindakan logis.

Memang, programmer menggunakan kartu punch untuk berkomunikasi dengan komputer pertama 70 tahun yang lalu. Proses manual dan sulit ini dipahami oleh sejumlah kecil orang. Sekarang Anda dapat mengatakan, “Alexa, saya suka lagu ini,” dan perangkat yang memutar musik di rumah Anda akan menurunkan volume dan menjawab, “Oke. Nilai disimpan, ”dengan suara seperti manusia. Kemudian ia mengadaptasi algoritme-nya untuk memutar lagu itu - dan yang lain menyukainya - lain kali Anda mendengarkan stasiun musik itu.

Mari kita lihat interaksi itu lebih dekat. Perangkat Anda diaktifkan ketika mendengar Anda berbicara, memahami maksud yang tak terucapkan dalam komentar, mengeksekusi tindakan dan memberikan umpan balik dalam kalimat bahasa Inggris yang baik, semua dalam waktu sekitar lima detik. Interaksi yang lengkap dimungkinkan oleh NLP, bersama dengan elemen AI lainnya seperti pembelajaran mesin dan pembelajaran yang mendalam.

Mengapa NLP penting?
Volume besar data tekstual
Pemrosesan bahasa alami membantu komputer berkomunikasi dengan manusia dalam bahasa mereka sendiri dan mengukur tugas terkait bahasa lainnya. Sebagai contoh, NLP memungkinkan komputer untuk membaca teks, mendengar ucapan, menafsirkannya, mengukur sentimen dan menentukan bagian mana yang penting.

Mesin saat ini dapat menganalisis lebih banyak data berbasis bahasa daripada manusia, tanpa kelelahan dan dengan cara yang konsisten dan tidak memihak. Mempertimbangkan jumlah data tak terstruktur yang mengejutkan yang dihasilkan setiap hari, dari rekam medis ke media sosial, otomatisasi akan menjadi sangat penting untuk sepenuhnya menganalisis data teks dan ucapan secara efisien.

Menyusun sumber data yang sangat tidak terstruktur
Bahasa manusia sangat kompleks dan beragam. Kami mengekspresikan diri dengan cara yang tak terbatas, baik secara lisan maupun tulisan. Tidak hanya ada ratusan bahasa dan dialek, tetapi di dalam setiap bahasa ada seperangkat aturan tata bahasa dan sintaksis, istilah dan bahasa gaul yang unik. Ketika kita menulis, kita sering salah mengeja atau menyingkat kata-kata, atau menghilangkan tanda baca. Ketika kita berbicara, kita memiliki aksen daerah, dan kita bergumam, gagap, dan meminjam istilah-istilah dari bahasa lain.

Sementara pembelajaran yang diawasi dan tidak diawasi, dan khususnya pembelajaran yang mendalam, sekarang banyak digunakan untuk memodelkan bahasa manusia, ada juga kebutuhan untuk pemahaman sintaksis dan semantik dan keahlian domain yang tidak selalu hadir dalam pendekatan pembelajaran mesin ini. NLP penting karena membantu menyelesaikan ambiguitas dalam bahasa dan menambahkan struktur numerik yang berguna pada data untuk banyak aplikasi hilir, seperti pengenalan suara atau analisis teks.
Bagaimana cara kerja NLP?
Memecah bagian-bagian dasar bahasa

Pemrosesan bahasa alami mencakup banyak teknik berbeda untuk menafsirkan bahasa manusia, mulai dari metode statistik dan pembelajaran mesin hingga pendekatan berbasis aturan dan algoritmik. Kami membutuhkan beragam pendekatan karena data berbasis teks dan suara sangat bervariasi, seperti halnya aplikasi praktis.

Tugas-tugas dasar NLP meliputi tokenization dan parsing, lemmatization / stemming, penandaan sebagian-of-speech, deteksi bahasa dan identifikasi hubungan semantik. Jika Anda pernah membuat diagram kalimat di sekolah dasar, Anda telah melakukan tugas ini secara manual sebelumnya.

Secara umum, tugas-tugas NLP memecah bahasa menjadi potongan-potongan unsur yang lebih pendek, mencoba memahami hubungan antara potongan-potongan dan mengeksplorasi bagaimana karya-karya tersebut bekerja sama untuk menciptakan makna.

Tugas-tugas mendasar ini sering digunakan dalam kemampuan NLP tingkat yang lebih tinggi, seperti:

Kategorisasi konten. Ringkasan dokumen berbasis linguistik, termasuk pencarian dan pengindeksan, peringatan konten dan deteksi duplikasi.
Penemuan dan pemodelan topik. Secara akurat menangkap makna dan tema dalam koleksi teks, dan menerapkan analitik canggih ke teks, seperti optimisasi dan peramalan.
Ekstraksi kontekstual. Secara otomatis menarik informasi terstruktur dari sumber berbasis teks.
Analisis sentimen. Mengidentifikasi suasana hati atau pendapat subjektif dalam sejumlah besar teks, termasuk sentimen rata-rata dan penggalian opini.
Konversi ucapan-ke-teks dan teks-ke-ucapan. Mengubah perintah suara menjadi teks tertulis, dan sebaliknya.
Peringkasan dokumen. Secara otomatis menghasilkan sinopsis badan teks besar.
Mesin penerjemah. Terjemahan otomatis teks atau ucapan dari satu bahasa ke bahasa lain.

Dalam semua kasus ini, tujuan menyeluruh adalah untuk mengambil input bahasa mentah dan menggunakan linguistik dan algoritma untuk mengubah atau memperkaya teks sedemikian rupa sehingga memberikan nilai yang lebih besar.
Metode dan aplikasi NLP
Bagaimana komputer memahami data tekstual
NLP dan analisis teks

Pemrosesan bahasa alami berjalan seiring dengan analisis teks, yang menghitung, mengelompokkan, dan mengkategorikan kata untuk mengekstraksi struktur dan makna dari volume konten yang besar. Analisis teks digunakan untuk mengeksplorasi konten tekstual dan memperoleh variabel baru dari teks mentah yang dapat divisualisasikan, difilter, atau digunakan sebagai input untuk model prediksi atau metode statistik lainnya.

NLP dan analisis teks digunakan bersama untuk banyak aplikasi, termasuk:

Penemuan investigasi. Identifikasi pola dan petunjuk dalam email atau laporan tertulis untuk membantu mendeteksi dan menyelesaikan kejahatan.
Keahlian subjek Klasifikasi konten ke dalam topik yang bermakna sehingga Anda dapat mengambil tindakan dan menemukan tren.
Analisis media sosial. Lacak kesadaran dan sentimen tentang topik tertentu dan identifikasi influencer kunci.
Contoh NLP setiap hari

Ada banyak aplikasi NLP yang umum dan praktis dalam kehidupan kita sehari-hari. Selain berbicara dengan asisten virtual seperti Alexa atau Siri, berikut adalah beberapa contoh lagi:

Pernahkah Anda melihat email di folder spam Anda dan melihat kesamaan di baris subjek? Anda melihat penyaringan spam Bayesian, teknik statistik NLP yang membandingkan kata-kata dalam spam dengan email yang valid untuk mengidentifikasi junk mail.
Pernahkah Anda melewatkan panggilan telepon dan membaca transkrip otomatis voicemail di kotak masuk email atau aplikasi ponsel cerdas Anda? Konversi ucapan-ke-teks, kemampuan NLP.
Pernahkah Anda menavigasi situs web dengan menggunakan bilah pencarian bawaan, atau dengan memilih tag topik, entitas, atau kategori yang disarankan? Kemudian Anda telah menggunakan metode NLP untuk pencarian, pemodelan topik, ekstraksi entitas, dan kategorisasi konten.
Subbidang NLP yang disebut pemahaman bahasa alami (NLU) telah mulai meningkat popularitasnya karena potensinya dalam aplikasi kognitif dan AI. NLU melampaui pemahaman struktural bahasa untuk menginterpretasikan maksud, menyelesaikan konteks dan ambiguitas kata, dan bahkan menghasilkan bahasa manusia yang terbentuk dengan sendirinya. Algoritme NLU harus mengatasi masalah penafsiran semantik yang sangat kompleks - yaitu, memahami makna yang dimaksudkan dari bahasa lisan atau tulisan, dengan semua seluk-beluk, konteks, dan kesimpulan yang dapat dipahami manusia sebagai manusia.

Evolusi NLP menuju NLU memiliki banyak implikasi penting bagi bisnis dan konsumen. Bayangkan kekuatan suatu algoritma yang dapat memahami makna dan nuansa bahasa manusia dalam banyak konteks, dari kedokteran hingga hukum hingga ruang kelas. Ketika volume informasi yang tidak terstruktur terus tumbuh secara eksponensial, kami akan mendapat manfaat dari kemampuan komputer yang tak kenal lelah untuk membantu kami memahami semuanya.



Panduan untuk Pemrosesan Bahasa Alami (NLP)
Bagaimana mesin memproses dan memahami bahasa manusia

Segala sesuatu yang kami ungkapkan (baik secara lisan maupun tertulis) membawa banyak sekali informasi. Topik yang kita pilih, nada kita, pilihan kata-kata kita, semuanya menambahkan beberapa jenis informasi yang dapat ditafsirkan dan nilai diekstraksi darinya. Secara teori, kita dapat memahami dan bahkan memprediksi perilaku manusia menggunakan informasi itu.
Tetapi ada masalah: satu orang dapat menghasilkan ratusan atau ribuan kata dalam deklarasi, setiap kalimat dengan kompleksitas yang sesuai. Jika Anda ingin mengukur dan menganalisis beberapa ratus, ribuan atau jutaan orang atau pernyataan dalam geografi tertentu, maka situasinya tidak dapat dikelola.
Data yang dihasilkan dari percakapan, deklarasi atau bahkan tweet adalah contoh data yang tidak terstruktur. Data yang tidak terstruktur tidak cocok dengan struktur baris dan kolom tradisional dari basis data relasional, dan mewakili sebagian besar data yang tersedia di dunia nyata. Itu berantakan dan sulit untuk dimanipulasi. Namun demikian, berkat kemajuan dalam disiplin ilmu seperti pembelajaran mesin revolusi besar terjadi tentang topik ini. Saat ini tidak lagi tentang mencoba menafsirkan teks atau pidato berdasarkan kata kunci (cara mekanik kuno), tetapi tentang memahami makna di balik kata-kata (cara kognitif). Dengan cara ini dimungkinkan untuk mendeteksi kiasan seperti ironi, atau bahkan melakukan analisis sentimen.
Natural Language Processing atau NLP adalah bidang Inteligensi Buatan yang memberi mesin kemampuan untuk membaca, memahami, dan memperoleh makna dari bahasa manusia.
Ini adalah disiplin yang berfokus pada interaksi antara ilmu data dan bahasa manusia, dan scaling ke banyak industri. Hari ini NLP sedang booming berkat peningkatan besar dalam akses ke data dan peningkatan daya komputasi, yang memungkinkan praktisi untuk mencapai hasil yang bermakna di bidang-bidang seperti kesehatan, media, keuangan dan sumber daya manusia, antara lain.
Gunakan Kasus NLP
Secara sederhana, NLP mewakili penanganan otomatis bahasa manusia alami seperti ucapan atau teks, dan meskipun konsepnya sendiri menarik, nilai sebenarnya di balik teknologi ini berasal dari use case.
NLP dapat membantu Anda dengan banyak tugas dan bidang aplikasi sepertinya bertambah setiap hari. Mari kita sebutkan beberapa contoh:
NLP memungkinkan pengenalan dan prediksi penyakit berdasarkan catatan kesehatan elektronik dan ucapan pasien sendiri. Kemampuan ini sedang dieksplorasi dalam kondisi kesehatan yang berubah dari penyakit kardiovaskular menjadi depresi dan bahkan skizofrenia. Sebagai contoh, Amazon Comprehend Medical adalah layanan yang menggunakan NLP untuk mengekstraksi kondisi penyakit, obat-obatan dan hasil perawatan dari catatan pasien, laporan uji klinis dan catatan kesehatan elektronik lainnya.
Organisasi dapat menentukan apa yang dikatakan pelanggan tentang layanan atau produk dengan mengidentifikasi dan mengekstraksi informasi dalam sumber-sumber seperti media sosial. Analisis sentimen ini dapat memberikan banyak informasi tentang pilihan pelanggan dan pendorong keputusan mereka.
Seorang penemu di IBM mengembangkan asisten kognitif yang bekerja seperti mesin pencari yang dipersonalisasi dengan mempelajari semua tentang Anda dan kemudian mengingatkan Anda tentang nama, lagu, atau apa pun yang Anda tidak dapat mengingat saat Anda membutuhkannya.
Perusahaan seperti Yahoo dan Google memfilter dan mengklasifikasikan email Anda dengan NLP dengan menganalisis teks dalam email yang mengalir melalui server mereka dan menghentikan spam bahkan sebelum mereka memasuki kotak masuk Anda.
Untuk membantu mengidentifikasi berita palsu, NLP Group di MIT mengembangkan sistem baru untuk menentukan apakah suatu sumber akurat atau bias secara politis, mendeteksi apakah suatu sumber berita dapat dipercaya atau tidak.
Amazon Alexa dan Apple Siri adalah contoh antarmuka cerdas yang digerakkan oleh suara yang menggunakan NLP untuk menanggapi permintaan vokal dan melakukan segala sesuatu seperti menemukan toko tertentu, memberi tahu kami ramalan cuaca, menyarankan rute terbaik ke kantor atau menyalakan lampu di rumah.
Memiliki wawasan tentang apa yang terjadi dan apa yang dibicarakan orang bisa sangat berharga bagi para pedagang keuangan. NLP digunakan untuk melacak berita, laporan, komentar tentang kemungkinan merger antara perusahaan, semuanya dapat dimasukkan ke dalam algoritma perdagangan untuk menghasilkan keuntungan besar. Ingat: beli rumor, jual berita.
NLP juga digunakan dalam fase pencarian dan seleksi rekrutmen karyawan berbakat, mengidentifikasi keterampilan calon karyawan dan juga melihat prospek sebelum mereka aktif di pasar kerja.
Didukung oleh teknologi IBM Watson NLP, LegalMation mengembangkan platform untuk mengotomatiskan tugas litigasi rutin dan membantu tim hukum menghemat waktu, menurunkan biaya, dan menggeser fokus strategis.
NLP sangat booming di industri kesehatan. Teknologi ini meningkatkan pemberian perawatan, diagnosis penyakit dan menurunkan biaya sementara organisasi layanan kesehatan sedang melalui adopsi catatan kesehatan elektronik yang terus berkembang. Fakta bahwa dokumentasi klinis dapat ditingkatkan artinya
Perusahaan seperti Winterlight Labs membuat perbaikan besar dalam pengobatan penyakit Alzheimer dengan memantau penurunan kognitif melalui ucapan dan mereka juga dapat mendukung uji klinis dan studi untuk berbagai gangguan sistem saraf pusat. Mengikuti pendekatan yang sama, Universitas Stanford mengembangkan Woebot, seorang terapis chatbot dengan tujuan membantu orang dengan kecemasan dan gangguan lainnya.
Tetapi kontroversi serius ada di sekitar subjek. Beberapa tahun yang lalu Microsoft menunjukkan bahwa dengan menganalisis sampel besar permintaan mesin pencari, mereka dapat mengidentifikasi pengguna internet yang menderita kanker pankreas bahkan sebelum mereka menerima diagnosis penyakit tersebut. Bagaimana reaksi pengguna terhadap diagnosis tersebut? Dan apa yang akan terjadi jika Anda diuji sebagai positif palsu? (artinya Anda dapat didiagnosis mengidap penyakit ini meskipun Anda tidak memilikinya). Ini mengingatkan kasus Google Pantau Flu Dunia yang pada tahun 2009 diumumkan dapat memprediksi influenza tetapi kemudian menghilang karena keakuratannya yang rendah dan ketidakmampuan untuk memenuhi tingkat yang diproyeksikan.
NLP mungkin menjadi kunci untuk dukungan klinis yang efektif di masa depan, tetapi masih ada banyak tantangan yang harus dihadapi dalam jangka pendek.
NLP dasar untuk mengesankan teman-teman non-NLP Anda
Kelemahan utama yang kita hadapi hari ini dengan NLP berkaitan dengan fakta bahwa bahasa sangat rumit. Proses memahami dan memanipulasi bahasa sangat kompleks, dan untuk alasan ini adalah umum untuk menggunakan teknik yang berbeda untuk menangani tantangan yang berbeda sebelum mengikat semuanya. Bahasa pemrograman seperti Python atau R sangat digunakan untuk melakukan teknik ini, tetapi sebelum menyelam ke dalam baris kode (yang akan menjadi topik artikel yang berbeda), penting untuk memahami konsep di bawahnya. Mari kita simpulkan dan jelaskan beberapa algoritma yang paling sering digunakan di NLP ketika mendefinisikan kosakata istilah:
Tas Kata
Adalah model yang umum digunakan yang memungkinkan Anda untuk menghitung semua kata dalam selembar teks. Pada dasarnya itu menciptakan matriks kejadian untuk kalimat atau dokumen, mengabaikan tata bahasa dan urutan kata. Frekuensi atau kejadian kata ini kemudian digunakan sebagai fitur untuk melatih classifier.
Sebagai contoh singkat, saya mengambil kalimat pertama dari lagu "Across the Universe" dari The Beatles:
Kata-kata mengalir seperti hujan tanpa akhir ke dalam cangkir kertas,
Mereka meluncur ketika mereka lewat, mereka menyelinap melintasi alam semesta
Sekarang mari kita hitung kata-kata:
Pendekatan ini dapat mencerminkan beberapa kelemahan seperti tidak adanya makna dan konteks semantik, dan fakta-fakta yang menghentikan kata-kata (seperti "the" atau "a") menambah kebisingan pada analisis dan beberapa kata tidak diberi bobot yang sesuai ("semesta" memiliki bobot kurang dari kata "mereka").
Untuk mengatasi masalah ini, satu pendekatan adalah mengubah skala frekuensi kata-kata dengan seberapa sering mereka muncul di semua teks (bukan hanya yang kita analisis) sehingga skor untuk kata-kata yang sering seperti "the", yang juga sering terjadi di seluruh teks lain , dapatkan sanksi. Pendekatan untuk penilaian ini disebut "Frekuensi Istilah - Frekuensi Dokumen Invers" (TFIDF), dan meningkatkan jumlah kata dengan bobot. Melalui TFIDF istilah-istilah yang sering dalam teks “dihargai” (seperti kata “mereka” dalam contoh kita), tetapi mereka juga “dihukum” jika istilah-istilah tersebut sering dalam teks-teks lain yang kita sertakan dalam algoritme juga. Sebaliknya, metode ini menyoroti dan "menghargai" istilah unik atau langka yang mempertimbangkan semua teks. Namun demikian, pendekatan ini masih tidak memiliki konteks atau semantik.
Tokenisasi
Apakah proses segmentasi running text menjadi kalimat dan kata-kata. Intinya, itu tugas memotong teks menjadi potongan-potongan yang disebut token, dan pada saat yang sama membuang karakter tertentu, seperti tanda baca. Mengikuti contoh kita, hasil tokenization adalah:

Cukup sederhana, bukan? Yah, meskipun mungkin tampak cukup mendasar dalam kasus ini dan juga dalam bahasa seperti bahasa Inggris yang memisahkan kata-kata dengan ruang kosong (disebut bahasa tersegmentasi) tidak semua bahasa berperilaku sama, dan jika Anda memikirkannya, ruang kosong saja tidak cukup memadai bahkan untuk bahasa Inggris untuk melakukan tokenizations yang tepat. Memisahkan pada ruang kosong dapat memecah apa yang seharusnya dianggap sebagai satu token, seperti dalam kasus nama-nama tertentu (mis. San Francisco atau New York) atau meminjam frasa asing (mis. Laissez faire).
Tokenisasi juga dapat menghilangkan tanda baca, memudahkan jalur ke segmentasi kata yang tepat tetapi juga memicu kemungkinan komplikasi. Dalam kasus periode yang mengikuti singkatan (mis. Dr.), Periode setelah singkatan harus dianggap sebagai bagian dari token yang sama dan tidak dihapus.
Proses tokenization bisa sangat bermasalah ketika berhadapan dengan domain teks biomedis yang berisi banyak tanda hubung, tanda kurung, dan tanda baca lainnya.
Untuk detail lebih lanjut tentang tokenization, Anda dapat menemukan penjelasan yang bagus di artikel ini.
Hentikan Penghapusan Kata
Termasuk menyingkirkan artikel bahasa umum, kata ganti dan preposisi seperti "dan", "the" atau "to" dalam bahasa Inggris. Dalam proses ini beberapa kata yang sangat umum yang tampaknya memberikan sedikit atau tidak ada nilai pada tujuan NLP disaring dan dikeluarkan dari teks yang akan diproses, karenanya menghapus istilah yang tersebar luas dan sering yang tidak informatif tentang teks yang sesuai.
Stop kata dapat diabaikan dengan aman dengan melakukan pencarian dalam daftar kata kunci yang telah ditentukan sebelumnya, membebaskan ruang basis data dan meningkatkan waktu pemrosesan.
Tidak ada daftar universal kata-kata berhenti. Ini dapat dipilih sebelumnya atau dibangun dari awal. Pendekatan potensial adalah memulai dengan mengadopsi kata-kata berhenti yang telah ditentukan dan menambahkan kata-kata ke daftar nanti. Namun demikian, tampaknya kecenderungan umum selama ini adalah beralih dari penggunaan daftar kata stop standar yang besar menjadi penggunaan daftar yang tidak ada sama sekali.
Masalahnya adalah menghentikan kata-kata penghapusan dapat menghapus informasi yang relevan dan mengubah konteks dalam kalimat yang diberikan. Sebagai contoh, jika kita melakukan analisis sentimen kita mungkin membuang algoritma kita keluar jalur jika kita menghapus kata berhenti seperti "tidak". Di bawah kondisi ini, Anda dapat memilih daftar kata stop minimal dan menambahkan istilah tambahan tergantung pada tujuan spesifik Anda.
Stemming
Mengacu pada proses mengiris akhir atau awal kata-kata dengan maksud untuk menghilangkan afiks (penambahan leksikal ke akar kata).
Afiks yang dilekatkan di awal kata disebut awalan (misalnya "astro" dalam kata "astrobiologi") dan yang dilampirkan di akhir kata disebut sufiks (mis. "Ful" dalam kata "membantu") .
Masalahnya adalah bahwa afiks dapat membuat atau memperluas bentuk-bentuk baru dari kata yang sama (disebut afiks infleksional), atau bahkan membuat kata-kata baru sendiri (disebut afiks derivasional). Dalam bahasa Inggris, awalan selalu turunan (imbuhan menciptakan kata baru seperti dalam contoh awalan "eco" dalam kata "ekosistem"), tetapi sufiks dapat turunan (imbuhan membuat kata baru seperti pada contoh dari akhiran “ist” dalam kata “gitaris”) atau infleksi (afiks menciptakan bentuk kata baru seperti pada contoh akhiran “er” dalam kata “lebih cepat”).
Ok, jadi bagaimana kita bisa membedakannya dan memotong bit yang tepat?
Pendekatan yang mungkin adalah dengan mempertimbangkan daftar afiks dan aturan umum (bahasa Python dan R memiliki pustaka yang berbeda yang berisi imbuhan dan metode) dan melakukan stemming berdasarkan pada mereka, tetapi tentu saja pendekatan ini menyajikan keterbatasan. Karena stemmer menggunakan pendekatan algoritmik, hasil dari proses stemming mungkin bukan kata yang sebenarnya atau bahkan mengubah makna kata (dan kalimat). Untuk mengimbangi efek ini, Anda dapat mengedit metode yang telah ditentukan sebelumnya dengan menambahkan atau menghapus afiks dan aturan, tetapi Anda harus mempertimbangkan bahwa Anda mungkin meningkatkan kinerja di satu area sambil menghasilkan degradasi di yang lain. Selalu lihat keseluruhan gambar dan uji kinerja model Anda.
Jadi jika stemming memiliki keterbatasan serius, mengapa kita menggunakannya? Pertama-tama, ini dapat digunakan untuk memperbaiki kesalahan ejaan dari token. Stemmer mudah digunakan dan dijalankan dengan sangat cepat (mereka melakukan operasi sederhana pada sebuah string), dan jika kecepatan dan kinerja penting dalam model NLP, maka stemming tentu saja cara untuk pergi. Ingat, kami menggunakannya dengan tujuan meningkatkan kinerja kami, bukan sebagai latihan tata bahasa.
Lemmatization
Memiliki tujuan mereduksi kata menjadi bentuk dasarnya dan mengelompokkan berbagai bentuk kata yang sama. Misalnya, kata kerja dalam bentuk lampau diubah menjadi sekarang (mis. "Pergi" diubah menjadi "pergi") dan sinonim disatukan (mis. "Terbaik" diubah menjadi "baik"), karenanya membakukan kata-kata dengan makna yang mirip dengan akar kata mereka. Meskipun tampaknya terkait erat dengan proses stemming, lemmatization menggunakan pendekatan yang berbeda untuk mencapai bentuk akar kata-kata.
Lemmatization menyelesaikan kata-kata ke bentuk kamus mereka (dikenal sebagai lemma) yang membutuhkan kamus rinci di mana algoritma dapat melihat dan menghubungkan kata-kata ke lemma mereka yang sesuai.
Sebagai contoh, kata "berlari", "berlari" dan "berlari" adalah semua bentuk kata "lari", jadi "lari" adalah lemma dari semua kata sebelumnya.

Lemmatization juga mempertimbangkan konteks kata untuk menyelesaikan masalah lain seperti disambiguasi, yang berarti dapat membedakan antara kata-kata identik yang memiliki arti berbeda tergantung pada konteks spesifik. Pikirkan tentang kata-kata seperti "kelelawar" (yang dapat berhubungan dengan hewan atau dengan logam / tongkat kayu yang digunakan dalam bisbol) atau "bank" (sesuai dengan lembaga keuangan atau tanah di samping badan air). Dengan memberikan parameter bagian-of-speech untuk sebuah kata (apakah itu kata benda, kata kerja, dan sebagainya) adalah mungkin untuk mendefinisikan peran kata itu dalam kalimat dan menghapus disambiguasi.
Seperti yang mungkin sudah Anda bayangkan, lemmatisasi adalah tugas yang jauh lebih banyak sumber daya daripada melakukan proses stemming. Pada saat yang sama, karena membutuhkan lebih banyak pengetahuan tentang struktur bahasa daripada pendekatan stemming, ia menuntut lebih banyak kekuatan komputasi daripada mengatur atau mengadaptasi algoritma stemming.
Pemodelan Topik
Apakah sebagai metode untuk mengungkap struktur tersembunyi dalam set teks atau dokumen. Intinya, ini mengelompokkan teks untuk menemukan topik laten berdasarkan kontennya, memproses kata-kata individual dan memberikan nilai berdasarkan distribusi mereka. Teknik ini didasarkan pada asumsi bahwa setiap dokumen terdiri dari campuran topik dan bahwa setiap topik terdiri dari serangkaian kata, yang berarti bahwa jika kita dapat menemukan topik-topik tersembunyi ini, kita dapat membuka makna teks kita.
Dari semesta teknik pemodelan topik, Latent Dirichlet Allocation (LDA) mungkin yang paling umum digunakan. Algoritma yang relatif baru ini (ditemukan kurang dari 20 tahun yang lalu) berfungsi sebagai metode pembelajaran tanpa pengawasan yang menemukan berbagai topik yang mendasari kumpulan dokumen. Dalam metode pembelajaran tanpa pengawasan seperti ini, tidak ada variabel output untuk memandu proses pembelajaran dan data dieksplorasi oleh algoritma untuk menemukan pola. Untuk lebih spesifik, LDA menemukan kelompok kata-kata terkait dengan:
Menetapkan setiap kata ke topik acak, di mana pengguna menentukan jumlah topik yang ingin dibuka. Anda tidak menentukan topik sendiri (Anda hanya menentukan jumlah topik) dan algoritme akan memetakan semua dokumen ke topik dengan cara yang kata-kata di setiap dokumen sebagian besar ditangkap oleh topik imajiner tersebut.
Algoritma berjalan melalui setiap kata secara iteratif dan menugaskan kembali kata tersebut ke suatu topik dengan mempertimbangkan probabilitas bahwa kata tersebut termasuk dalam suatu topik, dan probabilitas bahwa dokumen tersebut akan dihasilkan oleh suatu topik. Probabilitas ini dihitung beberapa kali, hingga konvergensi algoritma.
Tidak seperti algoritma pengelompokan lainnya seperti K-means yang melakukan pengelompokan keras (di mana topik dipisahkan), LDA memberikan setiap dokumen ke campuran topik, yang berarti bahwa setiap dokumen dapat dijelaskan oleh satu atau beberapa topik (misalnya Dokumen 1 dijelaskan oleh 70). % dari topik A, 20% dari topik B dan 10% dari topik C) dan mencerminkan hasil yang lebih realistis.

Pemodelan topik sangat berguna untuk mengklasifikasikan teks, membangun sistem rekomendasi (mis. Untuk merekomendasikan Anda buku berdasarkan bacaan Anda sebelumnya) atau bahkan mendeteksi tren dalam publikasi online.
Seperti apa masa depan?
Saat ini NLP sedang berjuang untuk mendeteksi nuansa dalam makna bahasa, apakah karena kurangnya konteks, kesalahan ejaan atau perbedaan dialek.
Pada Maret 2016 Microsoft meluncurkan Tay, chatbot Artificial Intelligence (AI) yang dirilis di Twitter sebagai percobaan NLP. Idenya adalah bahwa semakin banyak pengguna berkomunikasi dengan Tay, semakin pintar ia akan mendapatkannya. Nah, hasilnya adalah bahwa setelah 16 jam Tay harus dihapus karena komentar rasis dan kasarnya:


Microsoft belajar dari pengalamannya sendiri dan beberapa bulan kemudian merilis Zo, chatbot berbahasa Inggris generasi kedua yang tidak akan ketahuan membuat kesalahan yang sama seperti pendahulunya. Zo menggunakan kombinasi pendekatan inovatif untuk mengenali dan menghasilkan percakapan, dan perusahaan lain mengeksplorasi dengan bot yang dapat mengingat detail khusus untuk percakapan individu.
Meskipun masa depan terlihat sangat menantang dan penuh dengan ancaman untuk NLP, disiplin ini berkembang dengan sangat cepat (mungkin tidak seperti sebelumnya) dan kami kemungkinan akan mencapai tingkat kemajuan di tahun-tahun mendatang yang akan membuat aplikasi yang kompleks terlihat mungkin.

5 Contoh Menakjubkan Natural Language Processing (NLP).

Salah satu hal yang paling menantang dan revolusioner yang dapat dilakukan oleh kecerdasan buatan (AI) adalah berbicara, menulis, mendengarkan, dan memahami bahasa manusia. Pemrosesan bahasa alami (NLP) adalah bentuk AI yang mengekstraksi makna dari bahasa manusia untuk membuat keputusan berdasarkan informasi. Teknologi ini masih terus berkembang, tetapi sudah ada banyak cara luar biasa dalam pemrosesan bahasa alami saat ini. Di sini kami menyoroti beberapa penggunaan sehari-hari dari pemrosesan bahasa alami dan lima contoh menakjubkan tentang bagaimana pemrosesan bahasa alami mengubah bisnis.

Fungsi Sehari-Hari dari Pemrosesan Bahasa Alami

Setiap hari, manusia bertukar kata-kata yang tak terhitung jumlahnya dengan manusia lain untuk menyelesaikan semua hal. Tetapi komunikasi lebih dari sekadar kata-kata — ada konteks, bahasa tubuh, intonasi, dan banyak lagi yang membantu kita memahami maksud kata-kata itu ketika kita berkomunikasi satu sama lain. Itulah yang membuat pemrosesan bahasa alami, kemampuan mesin untuk memahami ucapan manusia, suatu prestasi yang luar biasa dan yang memiliki potensi besar untuk berdampak sangat besar dalam keberadaan modern kita. Saat ini, ada beragam aplikasi yang memproses bahasa alami.

Banyak dari kita memiliki asisten virtual dalam bentuk Amazon Echo atau Google Home dalam kehidupan kita sehari-hari dan senang bisa berinteraksi dengan komputer melalui antarmuka percakapan yang dimungkinkan oleh pemrosesan bahasa alami. Banyak bisnis yang mengeksplorasi bagaimana antarmuka percakapan bisa transformasional karena teknologi ini adalah platform agnostik, dapat terus belajar dan menawarkan pelanggan pengalaman tanpa gesekan.


Pemrosesan bahasa alami ada di belakang layar untuk beberapa hal yang mungkin Anda anggap remeh setiap hari. Ketika Anda meminta Siri untuk petunjuk atau mengirim teks, pemrosesan bahasa alami memungkinkan fungsi itu.


Berikut ini beberapa aplikasi pemrosesan bahasa alami:

Asisten email: Koreksi-otomatis, tata bahasa, dan pemeriksaan ejaan, serta pelengkapan-otomatis, semua fungsi diaktifkan oleh NLP. Filter spam pada sistem email Anda menggunakan NLP untuk menentukan email apa yang ingin Anda simpan di kotak masuk Anda dan apa yang kemungkinan merupakan spam dan harus disortir.
Menjawab pertanyaan: Jika Anda berbelanja online atau berinteraksi dengan kotak obrolan situs web, Anda kemungkinan berinteraksi dengan chatbot daripada manusia. Guru layanan pelanggan AI ini sebenarnya adalah algoritma yang menggunakan pemrosesan bahasa alami untuk dapat memahami permintaan Anda dan menanggapi pertanyaan Anda secara memadai, otomatis, dan secara real-time.

Drive e-commerce: NLP memungkinkan hasil pencarian yang lebih baik ketika Anda berbelanja online. Menjadi mahir mengartikan maksud pesan Anda bahkan jika ada kesalahan ejaan atau detail penting yang Anda abaikan dalam istilah pencarian Anda. Dengan mencari secara online, Anda sebenarnya menambahkan ke data pelanggan yang tersedia yang membantu pengecer mempelajari kebiasaan dan preferensi Anda dan karenanya menanggapinya. Faktanya, Gartner memperkirakan bahwa 85 persen interaksi pelanggan akan dikelola tanpa manusia pada tahun 2020.

1.    Mengekstrak dan meringkas informasi: Pemrosesan bahasa alami dapat mengekstraksi dan mensintesis informasi dari berbagai sumber teks seperti laporan berita, buku petunjuk, dan banyak lagi. Setelah mendapatkan info, dapat menggunakan apa yang dipahami untuk membuat keputusan atau mengambil tindakan berdasarkan algoritma.

2.    Pemrosesan bahasa alami membantu aplikasi Livox menjadi perangkat komunikasi untuk para penyandang cacat. Penciptaan Carlos Pereira, seorang ayah yang mengembangkan aplikasi untuk membantu anak non-verbal, yang memiliki cerebral palsy berkomunikasi, aplikasi yang dapat disesuaikan sekarang tersedia dalam 25 bahasa.
3.    Alat lain yang diaktifkan oleh pemrosesan bahasa alami adalah SignAll yang mengubah bahasa isyarat menjadi teks. Ini dapat membantu individu yang tuli berkomunikasi dengan mereka yang tidak tahu bahasa isyarat.
4.    Terjemahan mesin adalah aplikasi besar untuk NLP yang memungkinkan kita mengatasi hambatan untuk berkomunikasi dengan individu dari seluruh dunia serta memahami manual teknologi dan katalog yang ditulis dalam bahasa asing. Google Translate digunakan oleh 500 juta orang setiap hari untuk memahami lebih dari 100 bahasa dunia.
5.    Teknologi pemrosesan bahasa alami bahkan diterapkan untuk perawatan pesawat. Tidak hanya dapat membantu mekanik mensintesis informasi dari manual pesawat yang sangat besar tetapi juga dapat menemukan makna dalam deskripsi masalah yang dilaporkan secara lisan atau tulisan tangan dari pilot dan manusia lainnya.

Sementara masalah ini rumit, bahkan ada pekerjaan yang dilakukan untuk memiliki pemrosesan bahasa alami yang membantu pekerjaan polisi prediktif untuk secara spesifik mengidentifikasi motif kejahatan.
Ketika para pemimpin industri terus bereksperimen dan mengembangkan peningkatan pada pemrosesan bahasa alami seperti divisi Alexa Amazon menggunakan jaringan saraf untuk mentransfer pembelajaran, kita dapat berharap bahwa NLP akan menjadi lebih baik dan lebih berpengaruh untuk bisnis dalam waktu dekat.

NATURAL LANGUAGE PROCESSING
Pemrosesan bahasa alami, disingkat PBA atau NLP (natural language processing), adalah cabang ilmu komputer dan linguistik yang mengkaji interaksi antara komputer dengan bahasa (alami) manusia [1]. NLP sering dianggap sebagai cabang dari kecerdasan buatan dan bidang kajiannya bersinggungan dengan linguistik komputasional. Kajian NLP antara lain mencakup segmentasi tuturan (speech segmentation), segmentasi teks (text segmentation), penandaan kelas kata (part-of-speech tagging), serta pengawataksaan makna (word sense disambiguation). Meskipun kajiannya dapat mencakup teks dan tuturan, pemrosesan tuturan (speech processing) telah berkembang menjadi suatu bidang kajian terpisah.
Sejarah NLP dimulai pada tahun 1950-an, meskipun telah ada penilitian NLP pada tahun-tahun sebelumnya. Pada tahun 1950, Alan Turing (bapak ilmu komputer) mempublikasikan artikel terkenalnya yang berjudul “Computing Machinery and Intelligence” yang di dalamnya Alan Turing mengusulkan tes yang sekarang disebut dengan Turing Test. Tes Turing adalah sebuah tes yang mengukur kemampuan mesin (dalam hal ini program komputer) untuk menunjukan perilaku cerdas. Dalam ilustrasi contoh aslinya, seorang juri manusia akan terlibat dalam percakapan dengan manusia dan mesin yang akan dites. Semua peserta dipisahkan satu sama lain. Jika juri tidak bisa membedakan antara manusia dan mesin, maka mesin tersebut dikatakan lulus tes.
Aplikasi NLP
Secara umum, Jenis aplikasi yang bisa dibuat dalam bidang ilmu NLP terbagi dua, yaitu text-based application dan dialogue-based application.Text-based application adalah segala macam aplikasi yang melakukan proses terhadap teks tertulis seperti misalnya dokumen, e-mail, buku dan sebagainya. Beberapa jenis aplikasi NLP yang berbasis teks :
·         Programs for classifying and retrieving documents by content.
Program yang mampu mengklasifikasi dan mengambil isi dari suatu dokumen berdasarkan kontennya. Seperti spam filtering (pemfilteran pesan sampah), language identification (identifikasi bahasa), dan lain-lain.
·         Machine Translation
Program yang mampu mentranslasi kalimat baik berupa teks maupun suara dari satu bahasa alami ke bahasa lainnya. Contoh : Google Translate.
Dialogue-based application idealnya melibatkan bahasa lisan atau pengenalan suara, akan tetapi bisa juga memasukan interaksi dialog dengan mengetikkan teks pertanyaan melalui keyboard. Contoh :
·         Intelligent personal assistant.
Perangkat lunak yang mampu melakukan tugas-tugas dan jasa berdasarkan inputan dari pengguna, lokasi, dan memiliki kemampuan untuk mengakses informasi dari berbagai sumber online (seperti cuaca, keadaan lalu lintas, berita, saham, dll). Contohnya adalah Siri pada produk-produk Apple dan S-Voice pada produk-produk seluler Samsung.

·         Chatbot
Chatbot adalah program komputer yang didesain untuk mensimulasikan sebuah percakapan cerdas dengan satu atau lebih pengguna manusia melalui inputan suara atau teks, utamanya digunakan untuk percakapan kecil. Contoh : Cleverbot, SimSimi, dan begobet.

Tantangan dalam NLP

·         Ambiguitas bahasa alami.
·         Representasi pengetahuan adalah tugas yang sulit.
·         Terdapat berbagai tingkat informasi dalam bahasa kita.
·         Terdapat beragam aplikasi untuk teknologi bahasa.


NLP adalah bidang studi tersulit dalam kecerdasan buatan. Tetapi, jika kita berhasil dalam pengembangan NLP maka dampak positifnya sangatlah besar. Contoh-contoh diatas hanyalah sebagian dari aplikasi di seluruh dunia yang telah mengaplikasikan NLP.


Demikianlah yang dapat saya sampaikan mengenai materi yang menjadi bahasan ini, tentunya banyak kekurangan dan kelemahan kerena terbatasnya pengetahuan kurangnya rujukan atau referensi yang kami peroleh hubungannya dengan ini. Penulis banyak berharap kepada para pembaca yang budiman memberikan kritik saran yang membangun. Semoga tulisan ini dapat bermanfaat bagi para pembaca khususnya pada penulis.



Referensi

https://www.sas.com/en_id/insights/analytics/what-is-natural-language-processing-nlp.html
https://towardsdatascience.com/your-guide-to-natural-language-processing-nlp-48ea2511f6e1
https://www.forbes.com/sites/bernardmarr/2019/06/03/5-amazing-examples-of-natural-language-processing-nlp-in-practice/#49d082631b30
https://www.coursera.org/learn/language-processing
https://sis.binus.ac.id/2016/12/15/12113/




Comments

Popular posts from this blog

Peng. Animasi & Desain Grafis 3.1

Peng. Animasi & Desain Grafis 3.3

MLSI 2.3