Đi cùng với lịch sử phát triển của xử lý ngôn ngữ tự nhiên, vector hoá từ là công đoạn không thể thiếu và quan trọng. Bài viết này sẽ nói đến phương pháp Count Base, đơn giản nhưng khi được gọt giũa lại vô cùng hiệu quả.
Seaborn là một thư viện base trên matplotlib, nó như 1 interface, wapper của matplotlib để bạn có thể dễ dàng visualization hơn, đồng ý là matplotlib rất tuyệt vời tuy nhiên seaborn lại có điểm mạnh là quá dễ để làm quen
Dự án tôi đang tham gia là phát triển hệ thống recommender liên quan đến giao dịch tiền tệ. Và tất nhiên lượng data cần thiết là rất lớn, có những lúc lên đến hàng chục TB.
Ứng dụng machine learning(bag-of-words, tf-idf, naive-bayes, SVM) xử lý ngôn ngữ tự nhiên, bài toán text classification.
Sau khi sử dụng các phương pháp tiền xử lý xong, bước tiếp theo là đưa dữ liệu vào model. Và tất cả các bước trên có thể gói gọn vào Pipeline để mọi việc được đơn giản hoá. Tại sao nên dùng Pipeline và lợi ích nó đem lại như thế nào, cùng thực hành và bạn sẽ thấy được cái hay của Pipeline đem lại.