Datamining và trading

Datamining và trading

(Tác giả: giailang – Nguồn: vietcurrency.vn)

Trong trading, thông tin luôn là thế mạnh của người biết cách thu thập và phân tích chuẩn xác. Các thông tin có thể rất đa dạng và xuất phát từ rất nhiều nguồn tản mát, khiến cho các trader nhiều khi bị loạn thông tin. Sau đây là một số nguồn tin thường được sử dụng:
1. Các hãng thông tấn chuyên cung cấp thông tin thị trường: Thompson Reuters, Financial Times: Thôg tin của các hãng này thường thiên về các biến động có tính cơ bản, thuận tiện cho phân tích cơ bản (FA)
2. Các sàn giao dịch: Kitco, LME, Euronex, CME, CBOE, NYSE, COMEX, FTSE…: Có hai loại thông tin chính là dữ liệu thô và nhận định đánh giá của các nhà phân tích
3. Các trang điện tử cung cấp thông tin thị trường: Bloomberg, NBC, WSJ, Gold Bullion… Bao gồm các dạng dữ liệu có cấu trúc và bình luận của các chuyên gia phân tích thuộc các tổ chức đầu tư.
4. Các diễn đàn về trading, blog cá nhân, mạng xã hội đưa thông tin và góc nhìn của giới trader cũng như các nhà phân tích

Dạng thức của các thông tin trên rất đa dạng và hầu như không có chuẩn chung, nguồn rải rác, cấu trúc dữ liệu biến đổi, lượng thông tin khổng lồ khiến cho việc thu thập và phân tích rất mất thời gian đối với các cá nhân. Do vậy, các tổ chức lớn phải nhờ cậy đến công nghệ để thu thập và xử lý. Khái niệm BIGDATA ra đời từ đó.

Để hình dung về khai thác dữ liệu từ Bigdata, ta hãy xem lời bình của CNBC tại đây
—————-
Với dân chuyên môn về hệ thống, một platform điển hình về khai thác dữ liệu Bigdata có thể hình dung nguyên lý bằng sơ đồ khối sau đây- nguồn IBM
bd-platform-460x700

Cũng theo IBM, một hệ Bigdata điển hình theo hãng này phác thảo, dưới góc nhìn trực quan và gần với người sử dụng hơn, là như sau:
9666948_orig
Tất nhiên cái hình trên là một dạng món lẩu cho mọi nhà, chưa thực sự là hệ thống chuyên biệt phục vụ cho trading. Logic của trading không dàn hàng ngang một cách giản dị như vậy.

BIGDATA để làm gì?
Bài trước ta đã thấy khái niệm BIGDATA và mô tả về hệ thống để đáp ứng cho khái niệm đó. Quả thực, với cái hình sặc sỡ mà bạn thấy IBM mô tả hệ thống, hẳn đa số sẽ cảm thấy mông lung vì nó trông thật là dàn trải. Với một số người đa nghi, trông nó như thể cái PRISM mà chú Snowden vừa thổi còi; cái mớ dữ liệu khổng lồ với bao nhiêu đầu vào đầu ra đó thật rắm rối, trong khi quyết định đầu tư chỉ đơn giản gói trong 6Q đó là:
-Đầu tư vào cái gì (What)
-Không gian của hoạt động đầu tư, giới hạn của nó (Where)
-Bỏ vào bao nhiêu tiền và cách thức đầu tư thế nào (How)
-Khi nào thì vào/ra (When)
-Đối tác/đối thủ là ai (Who)
-Các chi tiết cần đưa vào kế hoạch (Which)

Không biết bao nhiêu tỷ đô la đã được đổ vào lĩnh vực này cũng chỉ để trả lời có ngần ấy câu hỏi, nhưng dường như tính thất thường của thị trường vẫn là cái gì đó không dễ tiên đoán. Không phải ai cũng thành công, đặc biệt là những người thích tìm ra chìa khóa vạn năng.
Nói cho đúng thì đó là những người bị chết đuối trong chính những bể bơi mà họ tạo ra, ngập lụt trong số liệu mà vẫn say sưa trong khối dữ liệu không lồ đó một cách mụ mị. Wall Street Journal từng đăng bài về kiểu lạc lối giữa rừng như vậy(xem thêm ở đây).

Trong phần trước ta đã thấy cách tiếp cận có tính hệ thống của IBM đối với Bigdata. Thực ra, ở góc độ của trading có các cách tiếp cận đơn giản hơn, xuất phát từ thực tế trading.

1. Theo cách truyền thống của các nhà toán học: theo Tiến sỹ Langden ở NAG, đó là sử dụng kho dữ liệu lớn và kỹ thuật datamining để phục vụ cho các mô hình tóan học để phân tích và xây dựng các quy tắc trading <xem ví dụ trong bài ở đây>

2. Theo cách tiếp cận của các chuyên gia thống kê: Trước đây từ thời VC.COM đã giới thiệu chỉ số COT (Commiment of Traders) chính là tham số được dùng để bổ sung cho một số chiến thuật giao dịch trong FX cũng như commodities. Ngày nay, với sự xuất hiện của các trang tin điện tử có thống kê đặt lệnh của trader, người ta cũng có thể lấy các số liệu về lượng đặt hàng, tỷ dụ như Myfxbook, forexfactory, fxcm

3. Giới phân tích từ vựng cũng đưa ra cách phân tích tin để đánh giá ảnh hưởng của nó đến biến động của giá. Ứng dụng phân tích văn bản đã được nghiên cứu khá nhiều, đặc biệt là nhằm phân tích các tin tức xuất hiện trên các media. Đó có thể là phân loại tin, hay dự báo giá cổ phiếu

4.Cách tiếp cận thứ 4 là thu thập và phân tích nội dung trao đổi giữa các thành viên của một mạng xã hội nào đó có liên quan đến các loại hàng hóa/dịch vụ trực tiếp/gián tiếp ảnh hưởng đối với mặt hàng giao dịch cần khảo sát. Đây là kỹ thuật tìm kiếm mẫu (pattern), đánh giá sắc thái và thống kê trùng lặp để rút ra nhận định về cân bằng cung cầu. Twitter được cho là media phù hợp với loại hình này.
Đây chính là nền tảng của phương pháp sử dụng Machine Learning cho dạng truy vấn phân tán.

Nói vui, ở VC một số tình trạng cũng được coi là chỉ báo theo lối tư duy khá gần cách trên, kiểu như lúc đa số các bài mới trong ngày liên quan đến thơ, tức là VNI đáy, hay F319 đếm số bài Bull/Bear cho một mã để áng chừng độ rơi. Cá biệt có những thời kỳ sao sáng xuất hiện như “Đại tướng” VC chính là lúc anh em nên khẩn trương thu xếp lại danh mục…

Một số ví dụ về sử dụng datamining trong FX.
Trong các thuật tóan được sử dụng vào HFT, nối tiếng nhất là hai thuật tóan TWAP và VWAP mà tôi đã từng nhắc đến trước đây. Tuy nhiên, ngoài HFT vốn dành cho thị trường Equity, hai thuật tóan này cũng được dân FX sử dụng. Các bạn thuộc khối các nước nói tiếng Nga quả thực là những chuyên gia tuyệt vời về MQL4, và họ có bộ chỉ báo lấy số liệu volume từ CME để làm số liệu đầu vào cho VWAP đúng theo nguyên lý của Datamining. Các chỉ báo đó có thể lấy về từ đây​
Chỉ báo lịch các tin quan trọng được lấy từ forexfactory.com, dùng để lọc bỏ các trade hoặc đặt lệnh vào vùng có tin: ffcal.mq4. (Chịu khó tự tìm bằng google để có bản cập nhật)​
Kế đến là các công nghệ lõi để phục vụ Datamining. Đúng như tên, dịch một cách thật sát sàn sạt, Datamining là khai mỏ dữ liệu. Có thể khái quát việc khai mỏ này thành một dạng ngôn ngữ thủ tục như sau:

1. Lấy dữ liệu thô từ mỏ (đào mỏ). Sử dụng các thiết bị phù hợp với dạng dữ liệu và nguồn dữ liệu để lấy dữ liệu, ví dụ nối máy tính vào internet, để lấy dữ liệu từ internet.
2. Lọc và chuẩn hóa dữ liệu thành các thành phần tối thiểu theo quy chuẩn-itemset (làm sạch quặng, nghiền)
3. Lưu trữ dữ liệu vào cơ sở dữ liệu (vận chuyển quặng đã tinh luyện vào bồn quặng trong hệ thống kho)
Sau đó quá trình xử lý quặng tinh thành nguyên liệu thô là như sau:
4. Kiểm tra đánh giá độ chính xác của dữ liệu bằng cách đối chiếu với các nguồn dữ liệu khác, loại bỏ các dữ liệu thừa và sai (lọc bỏ tạp chất trong quặng)
5. Chuyển dữ liệu sang dạng có cấu trúc phù hợp nhu cầu sử dụng sau này (nấu chảy bột quặng và tạo phoi thô -ingot)

Đó cũng là 5 bước cơ bản để có được dữ liệu có thể xử dụng trong các truy vấn (data queries) về sau.

Do khối lượng dữ liệu là khổng lồ, người ta phân lớp các dạng kho dữ liệu tương tự như quá trình khai mỏ:
1. Nguồn dữ liệu gốc được hình dung như mỏ và bãi quặng ở mỏ, là nơi thợ mỏ không mất công sắp xếp nhiều, mà do người tạo ra mỏ xếp sẵn (giời sinh ra thế) nên dung tích chính là trữ lượng mỏ.
2. Cơ sở dữ liệu sơ cấp là nơi chứa dữ liệu đã qua xử lý sơ bộ, thường là rải rác, liên kết với các máy khai thác dữ liệu thô. Dung lượng không đòi hỏi lớn
3. Cơ sở dữ liệu thứ cấp: chứa các dữ liệu đã kiểm định và chuẩn hóa theo itemset, dung lượng lớn, tốc độ truy cập nhanh. Đây chính là cốt lõi của cuộc đua công nghệ xử lý giữa ông lớn về bigdata như IBM, ORACLE. SPSS… Không chỉ là phần mềm, loại CSDL này đòi hỏi có phần cứng mạnh, cho phép xử lý tốc độ cao với khối lượng truy vấn đồng thời thật sự lớn. Chính vì lý do này, xử lý song song và lưu trữ phân tán của tính tóan “đám mây” chiếm ưu thế.

Phần trên ta đã nói đến nguyên lý lấy dữ liệu và lưu trữ dữ liệu. Đó mới chỉ là khởi đầu, bởi xử lý, phân tích dữ liệu mới là yếu tố bảo đảm giá trị cao của BIGDATA.

Một số nghiên cứu đáng lưu ý về ứng dụng datamining vào trading:
1. Phân tích tương quan giữa việc sử dụng công cụ tìm kiếm và biến động thị trường: Khảo sát hành vi sử dụng công cụ tìm kiếm Google khiến giới chuyên môn tin rằng có sự tương đồng giữa việc sử dụng Google và giá cổ phiếu, nghĩa là có thể dùng datamining để chọn mã cổ phiếu để xây dựng rổ giao dịch có hiệu quả.​
2. Phân tích rủi ro lan truyền giữa các mã cổ phiếu, tìm mã có độ lệ thuộc rủi ro thấp nhất để chọn mã cổ phiếu sinh lời nhờ áp dụng datamining:​
Chúc các bạn vận dụng thành công hai độc chiêu nói trên trong thị trường VN​

—————&&—————

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s

%d bloggers like this: