Machine Learning with R

Phương pháp tốt nhất để học Machine Learning là thiết kế và hoàn thiện những dự án nhỏ

Học máy với R

Thuật toán:

  1. Linear Discriminant Analysis (LDA)
  2. Classification and Regression Trees (CART).
  3. k-Nearest Neighbors (kNN).
  4. Support Vector Machines (SVM) with a linear kernel.
  5. Random Forest (RF)

Thuật toán: Random Forest


Thuật toán:

  1. Logistic Regression
  2. Recursive partitioning for classification (Basic and Bayesian)
  3. Random Forest
  4. Conditional Inference Tree
  5. Bayesian Networks
  6. Unbiased Non-parametric methods- Model Based (Logistic)
  7. Support Vector Machine
  8. Neural Network
  9. Lasso Regression

Mô hình: Artificial Neural Network (ANN): Feed-forward neural network


Mô hình:

  1. Feed-forward neural network
  2. Deep Autoencoders

——————–&&&——————

Coursera MOOC-Practical Machine Learning; Johns Hopkins University

Coursera MOOC-Practical Machine Learning; Johns Hopkins University

Johns Hopkins University

About this course: One of the most common tasks performed by data scientists and data analysts are prediction and machine learning. This course will cover the basic components of building and applying prediction functions with an emphasis on practical applications. The course will provide basic grounding in concepts such as training and tests sets, overfitting, and error rates. The course will also introduce a range of model based and algorithmic machine learning methods including regression, classification trees, Naive Bayes, and random forests. The course will cover the complete process of building prediction functions including data collection, feature creation, algorithms, and evaluation.

Syllabus

Week 1: Prediction, Errors, and Cross Validation
This week will cover prediction, relative importance of steps, errors, and cross validation.

Week 2: The Caret Package
This week will introduce the caret package, tools for creating features and preprocessing.

Week 3: Predicting with trees, Random Forests, & Model Based Predictions
This week we introduce a number of machine learning algorithms you can use to complete your course project.

Week 4: Regularized Regression and Combining Predictors
This week, we will cover regularized regression and combining predictors.

*********************

Đăng kí (free): link

————–&&&————-

Lagunita MOOC-Statistical Learning; Stanford University

Lagunita MOOC-Statistical Learning; Stanford University

ABOUT THIS COURSE

This is an introductory-level course in supervised learning, with a focus on regression and classification methods. The syllabus includes:

  • linear and polynomial regression, logistic regression and linear discriminant analysis;
  • cross-validation and the bootstrap, model selection and regularization methods (ridge and lasso);
  • nonlinear models, splines and generalized additive models;
  • tree-based methods, random forests and boosting;
  • support-vector machines.

Some unsupervised learning methods are discussed:

  • principal components and clustering (k-means and hierarchical).

This is not a math-heavy class, so we try and describe the methods without heavy reliance on formulas and complex mathematics. We focus on what we consider to be the important elements of modern data analysis. Computing is done in R. There are lectures devoted to R, giving tutorials from the ground up, and progressing with more detailed sessions that implement the techniques in each chapter.

The lectures cover all the material in An Introduction to Statistical Learning, with Applications in R by James, Witten, Hastie and Tibshirani (Springer, 2013). The pdf for this book is available for free on the book website.

*************

Đăng kí (free): link


Statistical Learning versus Machine Learning

• Machine learning arose as a subfield of Artificial Intelligence.

• Statistical learning arose as a subfield of Statistics.

• There is much overlap — both fields focus on supervised and unsupervised problems:

  1. Machine learning has a greater emphasis on large scale applications and prediction accuracy.
  2. Statistical learning emphasizes models and their interpretability, and precision and uncertainty.

• But the distinction has become more and more blurred, and there is a great deal of “cross-fertilization”.

• Machine learning has the upper hand in Marketing!


Comparison of methods in Machine Learning

Machine Learning


Unsupervised vs Supervised Learning

Supervised learning methods such as regression and classification. In that setting we observe both a set of features X1, X2, . . . , Xp for each object, as well as a response or outcome variable Y . The goal is then to predict Y using X1, X2, . . . , Xp.

Unsupervised learning, we where observe only the features X1, X2, . . . , Xp. We are not interested in prediction, because we do not have an associated response variable Y. The goal is to discover interesting things about the measurements: is there an informative way to visualize the data? Can we discover subgroups among the variables or among the observations? We discuss two methods: principal components analysis & clustering.

———–&&&———-

Khám phá sự thú vị của phần mềm R trong việc áp dụng Lý thuyết danh mục đầu tư Markowitz trên TTCK VN

Khám phá sự thú vị của phần mềm R trong việc áp dụng Lý thuyết danh mục đầu tư Markowitz trên TTCK VN

Lê Văn Tuấn

Đại học Thương mại

Tóm tắt. Bài viết trình bày cơ sở lý luận của Lý thuyết danh mục đầu tư hiện đại Markowitz – lý thuyết mang tính khái sáng trong lĩnh vực quản lý danh mục đầu tư (một trong ba nhánh chính của Tài chính định lượng, hai nhánh còn lại là định giá phái sinh và quản trị rủi ro). Bên cạnh đó, chúng tôi cũng trình bày kỹ thuật ứng dụng phần mềm R trong việc xây dựng danh mục tối ưu Markowitz cho một bộ cổ phiếu trên TTCK VN.

  1. Lý thuyết danh mục đầu tư hiện đại Markowitz

Lý thuyết danh mục đầu tư hiện đại (Modern portfolio theory – MPT) được Harry Markowitz xây dựng vào năm 1952. Lý thuyết MPT giải quyết vấn đề căn bản trong lĩnh vực Quản lý danh mục đầu tư: Cho một danh mục các tài sản, cần phải phân bổ làm sao để được một danh mục là tối ưu. Lý thuyết này sẽ xem xét danh mục dưới hai khía cạnh: lợi nhuận và rủi ro (được đại diện bởi giá trị kỳ vọng và phương sai/độ lệch chuẩn của danh mục). Danh mục được xem là hiệu quả hơn nếu có lợi nhuận lớn hơn và rủi ro nhỏ hơn.

Cơ sở lý thuyết.

Giả sử danh mục gồm các tài sản (có rủi ro). Ứng với một bộ trọng số (còn gọi là một chiến lược đầu tư) ta có một cặp giá trị (lợi nhuận, rủi ro); hình biểu diễn các cặp giá trị này là hình lồi về bên trái:

mpt

Hình trên minh họa cho trường hợp danh mục có 3 cổ phiếu A, B, C. Tập tất cả những điểm nằm trong hình lồi gọi là điểm chấp nhận được – ứng với một danh mục được thành lập từ 3 cổ phiếu A, B, C. Điểm R ứng với danh mục có rủi ro nhỏ nhất.

  • Biên hiệu quả: Đường biên phía trên điểm R của hình lồi được gọi là biên hiệu quả. Mỗi điểm nằm trên biên hiệu quả ứng với một danh mục hiệu quả, chẳng hạn danh mục Q – không có danh mục nào lợi nhuận cao hơn Q mà đồng thời rủi ro nhỏ hơn Q.
  • Hiệu ứng đa dạng hóa: Lý thuyết MPT cổ súy cho chiến thuật đa dạng hóa trong đầu tư (còn gọi là “không nên bỏ tất cả trứng vào một giỏ”). Chẳng hạn, bằng cách đầu tư vào cả ba cổ phiểu A, B, C ta thu được danh mục R có rủi ro nhỏ hơn là đầu tư vào một cổ phiếu. Nói chung, đa dạng hóa sẽ giảm thiểu rủi ro nhưng cũng không hoàn toàn triệt tiêu rủi ro.
  • Nguyên lý “No free lunch”: Lý thuyết MPT cũng là một minh họa tốt cho khái niệm “No free lunch” trong tài chính. Chẳng hạn, so với danh mục hiệu quả Q, ta có thể tìm được danh mục hiệu quả khác có rủi ro thấp hơn nhưng lợi nhuận lại giảm đi; và ngược lại.

 

download bài viết đầy đủ: r-markowitz

————&&&————

Các thư viện phổ biến nhất của R trong Học máy

Các thư viện phổ biến nhất của R trong Học máy

(Nguồn: http://eranraviv.com)

Most popular machine learning R packages

Total number of downloads of selected packages (multiply x-axis by 10^4 for the actual number)

r-machine-learning

  1. forecast là thư viện cho: chuỗi thời gian và các mô hình tuyến tính; bao gồm cả mô hình không gian trạng thái & ARIMA tự động.
  2. e1071 là thư viện cho: latent class analysis, short time Fourier transform, fuzzy clustering, support vector machines, shortest path computation, bagged clustering, naive Bayes classifier, …
  3. igraph là thư viện cho: phân tích đồ thị và mạng
  4. nnet là thư viện cho: mạng thần kinh & các mô hình đa thức log-tuyến tính
  5. rpart là thư viện cho: phương pháp đệ quy phân vùng (Recursive partitioning) trong phân lớp/cụm và hồi quy cây (forest of trees)
  6. randomForest là thư viện cho: phân lớp/cụm và hồi quy cho cây
  7. caret là thư viện cho: hồi quy & phân lớp/cụm
  8. quantmod là thư viện cho: tài chính định lượng
  9. kernlab là thư viện cho: phương pháp học máy Kernel-based; bao gồm cả phân lớp/cụm, hồi quy, phát hiện bất thường (novelty detection), hồi quy phân vị, giảm số chiều; bao gồm các phương pháp Support Vector Machines, Spectral Clustering, Kernel PCA, Gaussian Processes và QP solver
  10. glmnet là thư viện cho: các mô hình tuyến tính tổng quát hóa; bao gồm cả hồi quy Lasso, chính quy hóa Elastic-Net, hồi quy Poisson và mô hình Cox, …

—————-&&&—————

Ứng dụng mô hình Merton trong định lượng rủi ro tín dụng và định giá trái phiếu

ỨNG DỤNG MÔ HÌNH MERTON TRONG GIẢNG DẠY RỦI RO TÍN DỤNG VÀ ĐỊNH GIÁ TRÁI PHIẾU CHO SINH VIÊN NGÀNH TÀI CHÍNH (*)

 

Lê Văn Tuấn

Trường Đại học Thương mại

 

Tóm tắt. Bài viết trình bày cơ sở lý luận của mô hình Merton – mô hình mang tính khái sáng trong lĩnh vực rủi ro tín dụng. Bên cạnh đó, chúng tôi cũng trình bày kỹ thuật ứng dụng phần mềm R trong giảng dạy mô hình Merton, cũng như việc ước tính xác suất vỡ nợ (PD) và lãi suất trái phiếu của doanh nghiệp từ mô hình này (trên bộ dữ liệu thực tế của một số doanh nghiệp Việt Nam). Cuối cùng, bài viết sẽ đưa ra những đánh giá/giải pháp trong việc giảng dạy mô hình Merton cho sinh viên ngành tài chính tại các trường đại học của Việt Nam.

Cơ sở lý thuyết của mô hình Merton [Trích]

Các giả thiết của mô hình.

GT1. Thị trường là lý tưởng: không có chi phí giao dịch và thuế, không có những vấn đề về phân tách các tài sản; các tài sản được giao dịch theo thời gian liên tục.

GT2. Lãi suất phi-rủi ro là hằng số (bằng r).

GT3. Định lý Modigliani-Miller được thỏa mãn: Giá trị thị trường Vt của công ty không bị ảnh hưởng bởi chính sách tài chính của công ty (chính sách chia cổ tức, phát hành thêm cổ phiếu cũng như vay nợ). Hơn nữa, Vt tuân theo phân phối loga-chuẩn.

Xây dựng mô hình.

Mô hình Merton xem xét một công ty[1] có giá trị tài sản (asset value) tại thời điểm t là biến ngẫu nhiên Vt; công ty có thể tự cấp kinh phí hoạt động từ vốn sở hữu (equity) và các khoản nợ. Trong mô hình Merton, các khoản nợ được giả định có cấu trúc rất đơn giản: gồm 1 trái phiếu không có lãi suất định kỳ (zero-coupon bond), với mệnh giá B và thời gian đáo hạn T. Ký hiệu St và Bt tương ứng là giá trị của vốn cổ phần và khoản nợ ở thời điểm t.

Trong mô hình Merton, công ty được giả định là không trả cổ tức và không có thêm nợ mới (đặc biệt, không được đảo nợ) cho đến thời điểm T. Phá sản xảy nếu công ty không trả được nợ ở thời điểm T (lưu ý là trong mô hình Merton, phá sản chỉ có thể xảy ra tại thời điểm T).

Tại thời điểm T, có hai tình huống xảy ra:

* Hoặc là VT > B, khi đó công ty trả được nợ, và phần chủ sở hữu còn lại sau khi đã trả nợ là ST = VT – B. Bên cho công ty vay nợ lấy lại được toàn bộ số tiền B theo hợp đồng vào thời điểm T.

* Hoặc là VT ≤ B, khi đó công ty vỡ nợ, chủ sở hữu của công ty mất toàn bộ công ty, nghĩa là ST = 0. Bên cho vay chỉ lấy lại được khoản tiền là BT = VT.

Do đó, trong cả hai trường hợp ta có:

ST = max(VT – B, 0) = (VT – B)+

BT = min(VT, B) = B – (B – VT)+

Các công thức trên cho thấy ST chính bằng lợi nhuận (pay-off) tại thời điểm T  của một quyền chọn mua kiểu Âu; và BT bằng giá trị danh nghĩa của khoản nợ B trừ lợi nhuận của một quyền chọn bán kiểu Âu.

Như vậy, tại thời điểm t (thuộc từ 0 đến T), ta có:

St = C(t, Vt, r, σV, B, T)   (1)

Theo GT2 ta có giá trị của trái phiếu phi-rủi ro tại thời điểm t, với mệnh giá B, thời gian đáo hạn T là: Be-r(T-t). Do đó, giá trị của trái phiếu Bt cho bởi công thức:

Bt = Be-r(T-t) – P(t, Vt, r, σV, B, T)   (2)

Trong đó, C(t, Vt, r, σV, B, T) và P(t, Vt, r, σV, B, T) tương ứng là giá của quyền chọn mua và bán tại thời điểm t, giá thực hiện B, thời gian đáo hạn T, tài sản cơ sở (Vt) với độ biến động là σV.

Nhận xét. Vì giá quyền chọn (mua và bán) đều tăng theo độ biến động của giá tài sản cơ sở/gốc, nên hai công thức trên giải thích được sự khác biệt trong đầu tư của những cổ đông và người cho vay. Các cổ đông thích đầu tư vào những công ty có nhiều dự án rủi ro, vì giá trị của những công ty này sẽ có độ biến động lớn. Trái lại, những người cho vay (mua trái phiếu) thích đầu tư vào những công ty có độ ổn định cao.

[1] Công ty này thuộc loại hình doanh nghiệp có chế độ trách nhiệm hữu hạn (chủ sở hữu chỉ phải chịu trách nhiệm về mọi khoản nợ và nghĩa vụ tài chính của doanh nghiệp trong phạm vi số vốn đã góp vào doanh nghiệp). Theo pháp luật Việt Nam, loại hình này gồm có: công ty trách nhiệm hữu hạn, công ty cổ phần, doanh nghiệp liên doanh và doanh nghiệp 100% vốn đầu tư nước ngoài.

(*) Báo cáo Hội thảo: Nguồn nhân lực chất lượng cao ngành Ngân hàng trong bối cảnh hội nhập kinh tế quốc tế. ĐH Ngân hàng Tp HCM. 10/11/2016

Download bài viết đầy đủ: ung-dung-mo-hinh-merton

————-&&&————

Nếu có một ngôn ngữ mà bạn nên học ngày nay … đó là R

Nếu có một ngôn ngữ mà bạn nên học ngày nay … đó là R

(Nguồn: http://blog.revolutionanalytics.com)

Trong bài trình bày mở màn của Joseph Sirosh tại Hội nghị Microsoft Machine Learning & Data Science Summit 2016, Wee Hyong Tok đã minh họa việc sử dụng R trong SQL Server 2016 để phát hiện gian lận trong các giao dịch thẻ tín dụng thời gian thực với tốc độ 1 triệu giao dịch mỗi giây. Bản demo (phút 17:00) sử dụng mô hình gradient-boosted tree để dự đoán xác suất của một giao dịch thẻ tín dụng là lừa đảo, dựa trên các thuộc tính như số tiền phí, nước xuất xứ. Sau đó, một thủ tục được lưu trữ trong SQL Server 2016 đã được sử dụng để ghi các giao dịch trực tuyến vào các cơ sở dữ liệu với tốc độ 3,6 tỷ mỗi giờ. (Xem hướng dẫn step-by-step).

Sau đó (phút 25:00) John Salch, từ  PROS, đã mô tả cách sử dụng R để định giá cho vé máy bay, phòng khách sạn, và máy tính xách tay. PROS đã nhận thấy rằng chạy R trong SQL Server 2016 là nhanh hơn 100 lần  để tối ưu hóa việc định giá. “Điều này thực sự đánh thức chúng tôi rằng chúng tôi có thể sử dụng R trong môi trường sản xuất … nó thực sự đáng kinh ngạc,” ông nói.

Thật tuyệt vời khi xem các ứng dụng quy mô toàn cầu của R, một công cụ hữu hiệu của Kinh doanh thông minh (BI – Business Intelligence). Như Joseph nói trong phần mở đầu, “Nếu có một ngôn ngữ mà bạn nên học ngày nay … đó là R.”