Khai thác dữ liệu trong xây dựng chỉ số:Tại sao nhà đầu tư cần thận trọng

Thế giới Tài chính đang bị bủa vây bởi một căn bệnh phổ biến và phổ biến đến nỗi ngay cả các “chuyên gia” dường như cũng không coi trọng nó với mức độ nghiêm túc cần thiết. Căn bệnh không có dấu hiệu rút tiền sớm được gọi là - 'Khai thác dữ liệu'. Đây là cách nó ảnh hưởng đến việc xây dựng chỉ mục và tại sao chúng ta cần phải cẩn thận. Đây là một bài đăng của một chuyên gia trong thị trường tài chính muốn được giấu tên vì lý do cá nhân.

Phần lớn độc giả đến từ nền tảng 'Công nghệ' luôn có quan điểm tích cực về khai thác dữ liệu và đúng như vậy bởi vì, trong một số lĩnh vực, dữ liệu và khai thác dữ liệu đã đem lại hiệu quả kỳ diệu - từ những thứ đơn giản như hiểu hành vi của khách hàng để tăng doanh số bán hàng đến phân tích xu hướng thời tiết dự báo - dữ liệu và khai thác dữ liệu đã rất hữu ích. Tuy nhiên, trong bối cảnh Quản lý Tài chính và Đầu tư - ‘Khai thác dữ liệu’ là một bệnh dịch.

Trong bối cảnh Quản lý Tài chính / Đầu tư, hãy cho tôi định nghĩa khai thác dữ liệu là gì? Khai thác dữ liệu không có gì khác ngoài việc xem xét dữ liệu trong quá khứ mà không có bất kỳ lý do kinh tế và trực quan nào ngoài việc tìm kiếm các mô hình cụ thể về hiệu suất "vượt trội". Với sự phát triển về sức mạnh tính toán và sự sẵn có ngày càng lớn của dữ liệu trong ngày, không khó để một lập trình viên khá giỏi viết các đoạn mã đơn giản để đưa ra hàng nghìn, nếu không muốn nói là hàng triệu lần kiểm tra lại để đưa ra một số kết quả xuất sắc. Tuy nhiên, cả các chuyên gia và nhà đầu tư đều quên mất nguyên lý trọng tâm nhất trong đầu tư - “Quá khứ không phải là dấu hiệu của Tương lai” mặc dù câu nói này đã bị vứt bỏ bởi tất cả những người đã từng mua một cổ phiếu hoặc đơn vị quỹ tương hỗ.


Đây là một minh họa về khai thác dữ liệu đang hoạt động. MSCI, nhà cung cấp chỉ số lớn nhất thế giới- với hàng nghìn tỷ đô la theo dõi các chỉ số của họ hoặc so sánh với các chỉ số của họ, có ba chỉ số ‘Giá trị’ khác nhau - chỉ số Giá trị MSCI, Chỉ số gia quyền giá trị MSCI, chỉ số Giá trị MSCI ‘Nâng cao’. Bất kỳ người logic nào cũng sẽ hỏi những câu hỏi sau:Tại sao có ba chỉ số giá trị khác nhau từ cùng một nhà cung cấp? Tôi nên đầu tư vào cái nào? Sự khác biệt giữa chúng là gì? Làm thế nào một cái tốt hơn cái kia? MSCI Giá trị thành viên lớn tuổi nhất trong gia đình đã tồn tại từ năm 1997, chỉ số trọng số giá trị được đưa ra vào tháng 12 năm 2010 và Giá trị nâng cao vào tháng 4 năm 2015. Tất nhiên, các chỉ số mới được đưa ra hoạt động tốt hơn các chỉ số cũ trong các đánh giá ngược và đó là “cải tiến ”.

Hình dưới đây vẽ biểu đồ Tỷ lệ NAV của cả ba chỉ số giá trị so với chỉ số thị trường rộng. Tỷ lệ NAV, cho những ai chưa biết, chỉ là tỷ số của một chỉ số NAV chia cho một chỉ số NAV. Cách giải thích kinh tế của tỷ lệ là hiệu suất của một danh mục đầu tư dài-ngắn, trong đó chúng ta đi ‘dài’ trên chỉ số tử số / danh mục đầu tư và ‘ngắn’ trên chỉ số mẫu số / danh mục đầu tư. Vì vậy, nếu tỷ lệ NAV tăng lên, chỉ số tử số tốt hơn chỉ số mẫu số (điểm chuẩn trong trường hợp này) và khi nó giảm xuống, chỉ số tử số hoạt động kém hơn mẫu số. Như bạn có thể thấy các chỉ số mới nhất hoạt động tốt hơn các chỉ số cũ với một biên độ đáng kể, đặc biệt là trong các thử nghiệm ngược lại. Ngoài ra, thật thú vị khi thấy rằng các chỉ số mới được đưa ra sau một hoạt động tồi tệ kéo dài của các chỉ số tiền nhiệm của nó. Không cần một nhóm các nhà phân tích pháp y và nhà báo điều tra để gộp 2 + 3 =5 lại với nhau. Khi các chỉ số được khởi chạy và chúng hoạt động, điều gì đã xảy ra với chúng? Đó là kết quả của việc khai thác dữ liệu. Các thử nghiệm không mạnh mẽ bị cản trở bởi khai thác dữ liệu sớm hay muộn sẽ tiết lộ màu sắc thực của chúng. Thực tế là yếu tố giá trị học thuật đã hoạt động kém hiệu quả trong hơn một thập kỷ. Không có số lượng khai thác dữ liệu nào có thể thay đổi thực tế đó. Dù chúng ta nhìn nhận giá trị theo cách nào, thì không có cách nào thoát khỏi nó. Tuy nhiên, một màn trình diễn tuyệt vời trong quá khứ mới là thứ bán chạy. Một chàng trai phải ăn, và để ăn anh ta phải bán, vì vậy ..!

Sự phát triển NAV của Chỉ số Giá trị MSCI với chú thích

Người ta có thể tự hỏi làm thế nào chúng ta chắc chắn rằng có khai thác dữ liệu? Tại sao chúng ta không thể cung cấp cho họ lợi ích của sự nghi ngờ? Chà, nó được mở trong các tài liệu phương pháp luận của họ. Sau đây là đoạn trích về cách MSCI chọn một số biến và trọng số của chúng trong việc xây dựng các nhân tố của nó. Họ ngang nhiên thừa nhận rằng họ đã cân nhắc các biến đã cho thấy lợi nhuận / biến động tốt hơn trong các thử nghiệm. Đó là định nghĩa trong sách giáo khoa về khai thác dữ liệu và họ công khai nói rằng - họ khai thác dữ liệu. Nó có thể chỉ có nghĩa là một trong hai điều - 1. Họ thậm chí không biết họ đang khai thác dữ liệu. 2. Đơn giản là họ không quan tâm. Tôi không biết lý do nào trong hai lý do này nguy hiểm hơn lý do kia.

Đây là ảnh chụp màn hình từ trang 8 của tài liệu Phương pháp MSCI FaCS

Ảnh chụp màn hình từ trang 8 của tài liệu Phương pháp MSCI FaCS

Văn bản được tái tạo dưới đây cho rõ ràng:

Độc giả sẽ hỏi, đây là dữ liệu của Hoa Kỳ, các chỉ số Hoa Kỳ, nhà cung cấp của Hoa Kỳ - Tôi chỉ đơn giản là đầu tư vào quỹ tương hỗ ở Ấn Độ tại sao tôi phải quan tâm? Nếu vấn đề là điều này phổ biến một cách rõ ràng trong các chỉ số, có hồ sơ theo dõi kiểm tra trở lại, phương pháp xây dựng, ngày khởi chạy và hồ sơ theo dõi trực tiếp được công khai, hãy tưởng tượng quy mô và độ lớn của các quỹ hoạt động yêu thích của bạn mà bạn không có quyền truy cập vào bất kỳ thứ gì. Không có sự minh bạch. Các chỉ số dựa trên các quy tắc và có hệ thống trong khi các quỹ tương hỗ hoạt động là hoàn toàn tùy ý. Tôi không thể hiểu được quy mô mà khai thác dữ liệu sẽ phổ biến trong ngành quỹ tương hỗ. Cảm ơn Chúa, SEBI đã đưa ra các quy tắc để hạn chế số lượng quỹ trong mỗi danh mục.

Điều này không có nghĩa là chúng ta không bao giờ nên kiểm tra lại bất cứ điều gì hoặc không bao giờ nhìn lại hiệu suất kiểm tra lại. Dĩ nhiên là không. Dữ liệu trong quá khứ là thông tin duy nhất có sẵn để chúng tôi đưa ra quyết định. Chúng ta nên chấm với một chút muối. Như ông Pattu nói, “Việc chọn quả anh đào tốt nhất trong quá khứ là sai lầm. Rủi ro xấu nhất trong quá khứ hái cherry là sự thận trọng ”. Nó khá là nhiều. Tóm tắt một dòng về khai thác dữ liệu là gì và không. Đó là cách chúng tôi với tư cách là nhà đầu tư nên xử lý các kiểm tra ngược hoặc dữ liệu quá khứ nói chung - để hiểu rủi ro. Đối với ngành công nghiệp - không có hy vọng.


Quỹ chỉ số
  1. Thông tin quỹ
  2.   
  3. Quỹ đầu tư công
  4.   
  5. Quỹ đầu tư tư nhân
  6.   
  7. Quỹ phòng hộ
  8.   
  9. Quỹ đầu tư
  10.   
  11. Quỹ chỉ số