Ứng dụng các mô hình học máy trong dự báo tổn thất do vỡ nợ

Phạm Thị Thái Hà, Nguyễn Minh Nhật

Hiện nay, sự phát triển của dữ liệu lớn và công nghệ phân tích dữ liệu cung cấp một nguồn lực quý giá để khai thác thông tin, giúp cải thiện các mô hình dự báo, học máy, với khả năng xử lý và học hỏi từ lượng lớn dữ liệu, là công cụ lý tưởng để phát triển các mô hình dự báo tổn thất do vỡ nợ hiệu quả hơn. Mặc dù, học máy mang lại nhiều lợi ích trong việc dự báo tổn thất này, nó vẫn tồn tại một số hạn chế nhất định. Trong bài nghiên cứu này, nhóm tác giả khảo lược các nghiên cứu và làm rõ tính hiệu quả của các mô hình học máy trong dự báo tổn thất do vỡ nợ, đồng thời phân tích ưu và nhược điểm của các mô hình học máy, từ đó đưa ra một số kiến nghị trong việc áp dụng các mô hình học máy trong dự báo tổn thất do vỡ nợ.

Đặt vấn đề

Quản lý rủi ro tín dụng là nhiệm vụ hàng đầu để các các tổ chức tín dụng hỗ trợ ra quyết định cấp tín dụng. Dự báo tổn thất do vỡ nợ (LGD) và rủi ro tài chính của danh mục đầu tư là một phần không thể thiếu trong việc đánh giá yêu cầu vốn để đối phó với tổn thất tín dụng trong điều kiện kinh tế khó khăn (Calabrese và Zanin, 2022). Các mô hình dự báo LGD đáng tin cậy góp phần quan trọng trong việc kiểm soát tổn thất giảm thiểu tổn thất vỡ nợ và tối đa hóa lợi ích từ hoạt động tín dụng của ngân hàng.

Hiện nay, với sự phát triển của dữ liệu lớn và công nghệ phân tích dữ liệu cung cấp một nguồn lực quý giá để khai thác thông tin, giúp cải thiện các mô hình dự báo. Học máy, với khả năng xử lý và học hỏi từ lượng lớn dữ liệu, là công cụ lý tưởng để phát triển các mô hình dự báo LGD hiệu quả hơn. Mặc dù, học máy mang lại nhiều lợi ích trong việc dự báo LGD, nó vẫn tồn tại một số hạn chế quan trọng. Đầu tiên, các mô hình học máy cần lượng dữ liệu lớn và chất lượng cao để huấn luyện, điều này có thể hạn chế hiệu quả của chúng trong các môi trường thiếu dữ liệu. Thứ hai, mô hình học máy có thể khó giải thích, vì các quyết định dự báo của nó thường là "hộp đen", làm giảm khả năng hiểu biết và tin cậy từ phía các nhà quản lý rủi ro và người ra quyết định. Cuối cùng, việc lập trình và duy trì các mô hình học máy yêu cầu chuyên môn kỹ thuật cao và tốn kém, điều này có thể là một rào cản đối với việc áp dụng rộng rãi trong các tổ chức có nguồn lực hạn chế.

Vì vậy, những nghiên cứu sâu hơn về sự hiệu quả của các phương pháp học máy trong việc dự báo LGD là vô cùng cấp thiết. Trong bài nghiên cứu này, nhóm tác giả sẽ tập trung khảo lược các nghiên cứu và làm rõ tính hiệu quả của các mô hình học máy trong dự báo LGD. Bên cạnh đó, nhóm tác giả cũng tiến hành phân tích ưu và nhược điểm của các mô hình học máy, từ đó đề xuất một số kiến nghị trong việc áp dụng các mô hình học máy trong dự báo LGD.

Tầm quan trọng của dự báo tổn thất do vỡ nợ

LGD là một yếu tố quan trọng quyết định rủi ro tín dụng. LGD là tỷ trọng phần vốn bị mất đi so với tổng dư nợ tại thời điểm khách hàng không trả được nợ. Ngoài khoản vay bị tổn thất, LGD còn bao gồm cả các mất mát khác phát sinh khi khách hàng không trả được nợ như khoản chi phí lãi mà khách hàng không thanh toán, các chi phí phát sinh thêm trong quá trình xử lý khoản vay như chi phí liên quan đến việc xử lý tài sản thế chấp, các chi phí liên quan đến hồ sơ, dịch vụ pháp lý.

Khi vỡ nợ xảy ra, mối quan tâm trước mắt của các ngân hàng là có thể thu hồi được bao nhiêu trong số dư nợ bị vỡ nợ. Nếu nó được thu hồi hoàn toàn thì sẽ không phát sinh tổn thất tín dụng. Tuy nhiên, trên thực tế thì tổn thất tín dụng là không thể tránh khỏi (Bandyopadhyay, 2022). Các tổ chức tài chính được yêu cầu đảm bảo an toàn vốn để giảm thiểu rủi ro kinh doanh của các ngân hàng (BCBS, 2006, Kim, Cho, và Ryu, 2020). Các tập đoàn có thể chuẩn đoán tình trạng hiện tại của mình dựa trên các mô hình dự đoán và thiết lập chiến lược của mình. Các nhà điều hành có thể điều hành hoạt động kinh doanh của mình ổn định hơn bằng cách quản lý các chỉ số chính ảnh hưởng đến rủi ro vỡ nợ của công ty. Basel II đã giới thiệu cách tiếp cận dựa trên xếp hạng nội bộ, cho phép các tổ chức đưa ra ước tính của riêng về tỷ lệ LGD và chỉ ra rằng dự báo LGD là không thể thiếu khi tính toán vốn kinh tế, cũng như tính toán giá khoản vay được điều chỉnh theo rủi ro, tính toán vốn kinh tế và định giá các tài sản (Jankowitsch, Pullirsch, và Veža, 2008), có những nghiên cứu nhằm mục đích đánh giá sự phân bổ LGD cho mô hình danh mục đầu tư tín dụng (Renault và Scaillet, 2004, Calabrese và Zenga, 2010). Do đó, việc xây dựng mô hình dự báo tổn thất vỡ nợ đạt được hiệu quả tốt nhất là vô cùng quan trọng.

Khảo lược các mô hình đo lường tổn thất do vỡ nợ

Tính đến vài thập kỷ trước, rất nhiều nghiên cứu về chủ đề phá sản, vỡ nợ của các chủ thể kinh tế trong lĩnh vực ngân hàng với mục tiêu chủ yếu tập trung vào việc dự đoán xác suất vỡ nợ (PD). Tuy nhiên, trong những năm gần đây, sự chú ý đáng kể đã chuyển hướng sang nghiên cứu mô hình hóa LGD (Jobst, Kellner, và Rösch, 2020) khi mô hình hóa ước tính đồng thời PD cả LGD nhằm giải thích mối tương quan có thể có của cả hai. Kết quả cho thấy cả hai thông số rủi ro đều có mối tương quan thuận chiều. Lucas (2006) đã đề xuất mô hình hai giai đoạn để mô hình hóa các LGD liên quan đến thế chấp. Trước hết, tác giả chia quá trình tính toán theo tài sản có bị thu hồi hay không, sau đó tính toán tổn thất trong trường hợp bị thu hồi. Gürtler, M., và Hibbeln (2011) đã tìm thấy sự khác biệt đáng kể giữa đặc điểm của các khoản vay được thu hồi và xóa nợ, giải thích những khác biệt này bằng cách chia các khoản nợ xấu thành hai loại, thu hồi và xóa nợ, thông qua hồi quy logistic, sau đó tiến hành hồi quy riêng cho từng trường hợp.

Zhang và Thomas (2012) vận dụng mô hình hồi quy tuyến tính kết hợp với kỹ thuật phân tích sống còn để xây dựng mô hình ước tính về tỷ lệ phục hồi. Kết quả nghiên cứu cho thấy, hồi quy tuyến tính xử lý dữ liệu bị kiểm duyệt kém hiệu quả hơn phương pháp phân tích tỷ lệ sống còn. Calabrese và Zenga (2010) đề xuất mô hình hồi quy beta để dự đoán tỷ lệ thu hồi các khoản vay. Jacobs và Karagozoglu (2011) áp dụng mô hình tuyến tính tổng quát liên kết beta.

Ngày nay, với sự tiến bộ của khoa học công nghệ ứng dụng trí tuệ nhân tạo, cụ thể ứng dụng các phương pháp học máy thực hiện công việc một cách khéo léo bằng cách sử dụng các thuật toán để xử lý, phân tích dữ liệu một cách nhanh chóng và đem lại hiệu suất cao mà không đòi hỏi cao về yêu cầu dữ liệu. Yao, Crook, và Andreeva (2017) kết hợp máy vector hỗ trợ bình phương nhỏ nhất vào khung mô hình hai giai đoạn dự đoán tỷ lệ phục hồi, Velka (2020) ước tính LGD bằng các mô hình cây quyết định, rừng ngẫu nhiên, mô hình tăng cường.

Ưu điểm và nhược điểm của mô hình học máy trong dự báo tổn thất do vỡ nợ

Bảng 1: Khảo lược mô hình dự báo tổn thất vỡ nợ bằng mô hình truyền thống

Tác giả

Mô hình nghiên cứu

Kết quả

Gupton, Stein, và Bren (2002) nghiên cứu dự báo tổn thất vỡ nợ bằng mô hình LossCalc, mô hình của Moody.

Mô hình thống kê LossCalc đưa ra ước tính về LGD cho các vụ vỡ nợ xảy ra ngay lập tức và cho các vụ vỡ nợ xảy ra trong một năm.

Bằng cả thước đo MSE và thước đo tương quan, LossCalc thực hiện tốt dự đoán. Hạn chế là lỗi mô hình khi tổn thất nghiêm trọng hơn ước tính.

Zhang và Thomas (2012) so sánh mô hình hồi quy tuyến tính và phân tích tỷ lệ sống còn (SA) sử dụng các phương pháp phân phối đơn và hỗn hợp trong mô hình hóa LGD.

Mô hình hồi quy tuyến tính, phân tích sống còn, hồi quy mối nguy theo tỷ lệ Cox và mô hình Finite mixture phân phối hỗn hợp.

Hồi quy tuyến tính có hệ số R2 cao hơn, cho thấy hiệu suất tốt hơn mô hình phân tích sinh tồn. Kết quả của các mô hình hỗn hợp không cho thấy sự cải tiến.

Gürtler và Hibbeln (2013) cải tiến dự báo tổn thất do vỡ nợ đối với các khoản vay trong ngân hàng.

Mô hình hồi quy tuyến tính trực tiếp và mô hình tiếp cận hai bước sau khi cải thiện sai lệch về lấy mẫu và phân loại đặc điểm khoản vay bị vỡ nợ để ước tính LGD.

Phương pháp hồi quy trực tiếp cho kết quả dự đoán kém hiệu quả hơn so với mô hình tiếp cận hai bước.

Yashkir, Olga and Yashkir (2013) đưa ra mô hình tổn thất vỡ nợ phân tích so sánh

Mô hình OLS, mô hình Tobit, Tobit ba lớp, Hồi quy Beta phồng, Hồi quy Gamma được kiểm duyệt.

Hiệu suất của mô hình OLS và hồi quy beta cho kết quả tốt hơn.

Bandyopadhya (2022) nghiên cứu tổn thất do vỡ nợ tại các ngân hàng Ấn Độ

Mô hình hồi quy Tobit đa biến xác định các yếu tố ảnh hưởng và dự báo LGD.

Kết quả hồi quy Tobit phù hợp với dữ liệu và có ý nghĩa thống kê.

Nguồn: Nhóm Tác giả tổng hợp

Bảng 2: Phân loại mô hình học máy

STT

Mô hình

Ý nghĩa

1

Học máy có giám sát (Supervised Learning)

Học máy có giám sát nhằm mục tiêu phát triển khả năng khái quát hóa, tức là năng lực dự đoán kết quả phù hợp cho các đặc điểm quan sát mới mà tương tự như những gì đã xuất hiện trong tập huấn luyện. Trong học máy có giám sát, có hai loại vấn đề chính được đề cập: hồi quy và phân loại. Hồi quy liên quan đến việc dự đoán một giá trị liên tục, trong khi phân loại tập trung vào việc gán nhãn cho dữ liệu dựa trên một tập hợp các lớp được xác định trước, ví dụ như dự đoán nhãn “đúng” hoặc “sai” (Velka, 2020).

2

Học không giám sát (Unsupervised Learning)

Học không giám sát là quá trình mà các mô hình tự mày mò và khám phá kiến thức từ dữ liệu mà không cần sự hướng dẫn trực tiếp từ con người. Do đó, phương pháp này được coi là tự động hơn so với học có giám sát, mặc dù các mục tiêu của nó không được định hình một cách rõ ràng. Các ứng dụng của học không giám sát bao gồm nhiều lĩnh vực như phân cụm dữ liệu, phân tích đặc điểm tên gọi, phát hiện bất thường, trực quan hóa và giảm kích thước dữ liệu, cũng như khám phá các quy tắc kết hợp trong dữ liệu (Velka, 2020).

3

Học bán giám sát (Semi-Supervised Learning)

Học bán giám sát kết hợp cả dữ liệu đã được gán nhãn và chưa được gán nhãn để xây dựng một mô hình phân loại dữ liệu hiệu quả hơn. Trong môi trường này, dữ liệu có nhãn thường khá khan hiếm, trong khi dữ liệu không nhãn lại phong phú và dễ tiếp cận. Mục đích của phương pháp này là tận dụng lượng dữ liệu không nhãn lớn để cải thiện độ chính xác và khả năng khái quát hóa của mô hình, từ đó nâng cao hiệu quả dự đoán cho các lớp dữ liệu trong các tập kiểm tra tương lai, vượt trội so với các mô hình chỉ dựa trên dữ liệu có nhãn (Mohammed và cộng sự, 2016).

4

Học tăng cường (Reinforcement Learning)

Học tăng cường là một phương pháp học máy nâng cao, nơi mô hình phát triển khả năng đưa ra quyết định thông qua việc liên tục đánh giá hiệu quả của các hành động dựa trên hệ thống thưởng phạt. Trong quá trình này, hệ thống tập trung vào việc khám phá và áp dụng chiến lược tối ưu để tối đa hóa số lượng phần thưởng mà nó có thể nhận được. Học tăng cường tích hợp cả kỹ thuật của học có giám sát và không giám sát, như phân loại và phân cụm, để phát triển và điều chỉnh các chính sách của mình (Mohammed và cộng sự, 2016).

Nguồn: Nhóm Tác giả tổng hợp

Bảng 3: Khảo lược mô hình dự báo tổn thất vỡ nợ bằng mô hình học máy

Tác giả

Mô hình nghiên cứu

Kết quả

Florez-Lopez (2007) mô hình hóa các yếu tố quyết định đến xếp hạng của các công ty bảo hiểm thực nghiệm bằng mô hình học máy và mô hình thống kê

Mô hình ba bước: quy trình lựa chọn đặc tính (feature selection) kết hợp các phương pháp thống kê (MDA, logit), cây quyết định (Decision tree)

Kết quả chính xác nhất trong các mô hình đó là cây quyết định Cart Gini, thuật toán CART-Gini oblique phân chia dữ liệu thành các lớp tốt hơn.

Qi và Zhao (2011) so sánh các mô hình tổn thất vỡ nợ, sự kiện các doanh nghiệp phá sản tại Mỹ nguồn dữ liệu của Moody’s.

Phương pháp hồi quy tham số: bình phương tối thiểu (OLS), hồi quy tỷ lệ, hồi quy Gauss. Phương pháp hồi quy phi tham số: cây hồi quy và mạng lưới thần kinh (Neural Network)

Phương pháp mạng thần kinh, cây hồi quy cung cấp dự đoán chính xác hơn so với phương pháp tham số. Khi giảm cỡ mẫu, cây hồi quy không gặp vấn đề quá khớp (overfitting).

Bellotti và Crook (2012) sử dụng kết hợp các biến số kinh tế vĩ mô để dự báo tính tỷ trọng tổn thất vỡ nợ cho thẻ tín dụng.

Mô hình Tobit, mô hình cây quyết định, chuyển đổi logit phân đoạn và Beta.

Các mô hình Tobit và cây quyết định là mô hình tốt cho LGD lưỡng kim (bimodal LGD). Kết hợp các biến số kinh tế vĩ mô thì OLS hoạt động tốt hơn.

Tobback, Martens, Van Gestel, và Baesens (2014) mô hình hóa dự báo tổn thất vỡ nợ nhìn từ tác động của đặc điểm khoản vay và trạng thái kinh tế vĩ mô

Mô hình hồi quy vectơ hỗ trợ phi tuyến tính (SVR), cây hồi quy và so sánh với hiệu suất của mô hình hồi quy tuyến tính bình phương tối thiểu.

Hiệu quả tốt nhất là mô hình hai giai đoạn kết hợp hồi quy tuyến tính với SVR. Dự báo ngoài mẫu được thực hiện tốt nhất bằng cách sử dụng cây hồi quy

Hartmann-Wendels, Miller, và Töws (2014) nghiên cứu tổn thất tín dụng của hợp đồng thuê: Ước tính tham số và phi tham số

Mô hình hỗn hợp hữu hạn (FMMs), mô hình cây hồi quy.

Mô hình cây hồi quy cung cấp các ước tính khá chính xác cả trong mẫu và ngoài mẫu, hiệu suất tốt đối với các tập dữ liệu lớn.

Yao và cộng sự (2017) cải tiến phương pháp mô hình hóa hai giai đoạn cho tỷ trọng tổn thất với máy vectơ hỗ trợ– Support Vector Machine

Mô hình kết hợp kỹ thuật máy vector hỗ trợ bình phương nhỏ nhất vào khung mô hình hai giai đoạn. So sánh với mô hình hồi quy OLS, hồi quy phản ứng phân đoạn và phương pháp hồi quy beta phồng.

Mô hình hồi quy vectơ hỗ trợ thể hiện hiệu suất dự đoán chính xác hơn các mô hình tuyến tính, SVM có lợi thế trên một mẫu dữ liệu ngoài thời gian (out-of-time sample).

Nazemi, Fatemi Pour, Heidenreich và Fabozzi, (2017) mô hình hóa tổn thất vỡ nợ trái phiếu doanh nghiệp bằng phương pháp tổng hợp quyết định mờ (FDFA)

Mô hình luật mờ sử dụng thuật toán tiến hóa vi phân (DEA) để chọn lọc các kết quả đầu bằng cách hợp nhất kỹ thuật hồi quy vectơ hỗ trợ (SVR) và cây quyết định trong mô hình luật mờ.

Kết quả của kỹ thuật hồi quy vectơ hỗ trợ (SVR) và cây quyết định trong mô hình luật mờ làm tăng độ chính xác dự đoán LGD, có tính ứng dụng mạnh mẽ.

Velka (2020) sử dụng phương pháp học máy để dự báo tổn thất vỡ nợ (LGD)

Mô hình cây quyết đinh (Decission tree), rừng ngẫu nhiên (Random Forest), mô hình tăng cường (Boosting Machine).

Mô hình tăng cường dự đoán kém hiệu quả so với cây quyết định, mô hình rừng ngẫu nhiên, khi áp dụng với tập dữ liệu huấn luyện không cân bằng hiệu suất cũng kém hơn.

Nguồn: Nhóm tác giả tổng hợp

Bảng 4: Ưu điểm và nhược điểm của mô hình học máy so với các mô hình truyền thống

Ưu điểm

Nhược điểm

- Khả năng xử lý dữ liệu phức tạp: Mô hình học máy có thể xử lý dữ liệu phi tuyến, không đồng nhất và đa chiều một cách hiệu quả hơn các mô hình truyền thống như hồi quy tuyến tính (Qi và Zhao, 2011); (Loterman, 2013). Mô hình học máy không yêu cầu các giả định nghiêm ngặt về phân phối dữ liệu, điều này làm cho chúng trở nên linh hoạt và phù hợp hơn với các tình huống thực tế phức tạp (Yao và cộng sự, 2017).

- Tăng cường độ chính xác: Các mô hình như mạng lưới thần kinh và rừng ngẫu nhiên thường cung cấp độ chính xác cao hơn trong dự báo so với các mô hình truyền thống (J. A. Bastos, 2010); (Bellotti và Crook, 2012); (Tobback và cộng sự, 2014), nhờ khả năng mô hình hóa mối quan hệ phi tuyến và tương tác giữa các biến (Florez-Lopez, 2007); (Hartmann-Wendels và cộng sự, 2014); (Tanoue, Kawada, và Yamashita, 2017).

- Giảm độ thiên lệch (bias) và sự biến động (variance): Mô hình như rừng ngẫu nhiên giúp giảm thiên vị và variance bằng cách xây dựng nhiều cây quyết định và lấy trung bình kết quả, giúp cải thiện độ tin cậy và ổn định của dự báo (Velka, 2020).

- Đòi hỏi lượng dữ liệu lớn: Để phát huy hiệu quả, các mô hình học máy thường cần lượng dữ liệu lớn để huấn luyện (Hartmann-Wendels và cộng sự, 2014). Điều này có thể là một hạn chế trong các tình huống mà dữ liệu có sẵn là hạn chế hoặc chất lượng dữ liệu không đạt yêu cầu (Nazemi và cộng sự, 2017).

- Khó giải thích: Các mô hình như mạng lưới thần kinh có thể rất khó hiểu và giải thích các dự báo (Qi và Zhao, 2011). Điều này làm giảm khả năng kiểm soát và tin tưởng của người dùng vào mô hình, bởi vì không rõ mô hình dựa trên cơ sở nào để đưa ra các quyết định (J. a. Bastos, 2010); (Falavigna, 2012).

- Chi phí tính toán cao: Việc xây dựng và huấn luyện các mô hình học máy, đặc biệt là với các bộ dữ liệu lớn và phức tạp, có thể đòi hỏi nhiều tài nguyên tính toán và thời gian, làm tăng chi phí vận hành (Nazemi và cộng sự, 2017) .

Nguồn: Nhóm tác giả tổng hợp

Học máy là một lĩnh vực của trí tuệ nhân tạo, cho phép máy học mà không cần lập trình cụ thể. Học máy được phân loại thành bốn mô hình được tác giả tổng hợp như Bảng 2.

Từ những nghiên cứu về mô hình dự báo LGD bằng mô hình truyền thống và mô hình dự báo LGD bằng mô hình học máy, có thể chỉ ra những ưu và nhược điểm của mô hình học máy so với các mô hình truyền thống như Bảng 4.

Như vậy, từ Bảng 4 cho thấy, các mô hình học máy cung cấp một phương pháp mạnh mẽ và linh hoạt để dự báo LGD, vượt trội hơn hẳn các mô hình truyền thống về mặt độ chính xác và khả năng xử lý dữ liệu phức tạp. Tuy nhiên, chúng cũng đặt ra những thách thức về chi phí, dữ liệu cần thiết, và khả năng giải thích. Việc lựa chọn giữa mô hình học máy và mô hình truyền thống phụ thuộc vào mục tiêu cụ thể của dự án, tính sẵn có của dữ liệu, và nhu cầu về minh bạch và giải thích của mô hình.

Kết luận và kiến nghị

Việc áp dụng mô hình học máy trong dự báo LGD đã cho thấy nhiều lợi ích đáng kể, tuy nhiên cũng không thiếu những thách thức cần được giải quyết. Trong kết luận này, nhóm tác giả sẽ đánh giá tổng thể hiệu quả của các mô hình học máy đã được sử dụng và đề xuất một số biện pháp để cải thiện và tối ưu hóa việc ứng dụng chúng. Các kiến nghị này nhằm mục đích giúp các tổ chức tài chính có thể khai thác triệt để lợi ích của công nghệ học máy, đồng thời giảm thiểu rủi ro và tăng cường độ tin cậy của các dự báo.

Một là, khi áp dụng mô hình học máy trong dự báo LGD, điều quan trọng đầu tiên cần chú ý là chọn lựa và chuẩn bị dữ liệu phù hợp. Dữ liệu cần được làm sạch kỹ lưỡng, loại bỏ các nhiễu và điền các giá trị thiếu để đảm bảo tính chính xác của mô hình. Việc sử dụng dữ liệu không chính xác hoặc không đại diện có thể dẫn đến các dự báo sai lệch, làm giảm hiệu quả của quá trình ra quyết định.

Hai là, trong việc phát triển mô hình học máy, việc lựa chọn thuật toán phù hợp là yếu tố then chốt để tối ưu hóa hiệu quả dự báo. Cần xem xét các đặc điểm của bộ dữ liệu cũng như mục tiêu của mô hình để chọn thuật toán học máy phù hợp nhất, từ đó cải thiện độ chính xác và khả năng tổng quát hóa của mô hình. Lựa chọn thuật toán không phù hợp có thể dẫn đến hiện tượng overfitting hoặc underfitting, ảnh hưởng đến kết quả dự báo.

Một khía cạnh khác cần được chú ý là khả năng giải thích của mô hình học máy. Mặc dù, các mô hình học sâu có thể cung cấp độ chính xác cao, nhưng chúng thường khó hiểu và giải thích kết quả cho người dùng cuối. Việc sử dụng các mô hình có khả năng giải thích cao hơn, như cây quyết định, có thể giúp các nhà quản lý hiểu rõ hơn về cách thức hoạt động của mô hình và cơ sở của các dự báo, từ đó tăng cường lòng tin và sự chấp nhận.

Đồng thời, cần đảm bảo tính minh bạch và đạo đức trong quá trình sử dụng học máy để dự báo LGD. Các mô hình phải được kiểm tra kỹ lưỡng về mặt đạo đức và pháp lý, đảm bảo không vi phạm quyền riêng tư và không mang tính kỳ thị. Việc thiết lập các chính sách và quy trình rõ ràng để xử lý dữ liệu một cách an toàn và công bằng là cần thiết, tránh gây ra những hậu quả không mong muốn cho cả người dùng và tổ chức.

Ba là, việc triển khai mô hình học máy trong thực tế cần được theo dõi và cập nhật thường xuyên để phản ánh các thay đổi trong môi trường kinh tế và thị trường. Mô hình phải được đánh giá định kỳ để điều chỉnh các tham số và cải tiến kỹ thuật, đảm bảo chúng vẫn phù hợp và hiệu quả trong mọi điều kiện. Sự linh hoạt và khả năng thích ứng liên tục là chìa khóa để duy trì tính chính xác và độ tin cậy của các dự báo.

Tài liệu tham khảo:

  1. Acharya, V. V, Bharath, S. T., và Srinivasan, A. (2007), Does industry-wide distress affect defaulted firms? Evidence from creditor recoveries. Journal of Financial Economics, 85(3), 787–821. https://doi.org/https://doi.org/10.1016/j.jfineco.2006.05.011;
  2. Bandyopadhyay, A. (2022), Loan level loss given default (LGD) study of Indian banks. IIMB Management Review. https://doi.org/10.1016/j.iimb.2022.06.003;
  3. Bastos, J. A. (2010), Forecasting bank loans loss-given-default. Journal of Banking và Finance, 34(10), 2510–2517. https://doi.org/https://doi.org/10.1016/j.jbankfin.2010.04.011;
  4. Bellotti, T., và Crook, J. (2012), Loss given default models incorporating macroeconomic variables for credit cards. International Journal of Forecasting. https://doi.org/10.1016/j.ijforecast.2010.08.005;
  5. Florez-Lopez, R. (2007), Modelling of insurers’ rating determinants. An application of machine learning techniques and statistical models. European Journal of Operational Research. https://doi.org/10.1016/j.ejor.2006.09.103;
  6. Gürtler, M., và Hibbeln, M. (2011), Pitfalls in Modeling Loss Given Default of Bank Loans. Technical report, Working Paper. Technische Universität Braunschweig;
  7. Hartmann-Wendels, T., Miller, P., và Töws, E. (2014), Loss given default for leasing: Parametric and nonparametric estimations. Journal of Banking và Finance, 40, 364–375. https://doi.org/https://doi.org/10.1016/j.jbankfin.2013.12.006;
  8. Jankowitsch, R., Pullirsch, R., và Veža, T. (2008). The delivery option in credit default swaps. Journal of Banking và Finance, 32(7), 1269–1285. https://doi.org/https://doi.org/10.1016/j.jbankfin.2007.10.012;
  9. Jobst, R., Kellner, R., và Rösch, D. (2020), Bayesian loss given default estimation for European sovereign bonds. International Journal of Forecasting, 36(3), 1073–1091. https://doi.org/https://doi.org/10.1016/j.ijforecast.2019.11.004;
  10. Kim, H., Cho, H., và Ryu, D. (2020), Corporate default predictions using machine learning: Literature review. Sustainability (Switzerland). https://doi.org/10.3390/SU12166325;
  11. Nazemi, A., Fatemi Pour, F., Heidenreich, K., và Fabozzi, F. J. (2017), Fuzzy decision fusion approach for loss-given-default modeling. European Journal of Operational Research. https://doi.org/10.1016/j.ejor.2017.04.008;
  12. Qi, M., và Zhao, X. (2011), Comparison of modeling methods for Loss Given Default. Journal of Banking and Finance. https://doi.org/10.1016/j.jbankfin.2011.03.011;
  13. Tanoue, Y., Kawada, A., và Yamashita, S. (2017), Forecasting loss given default of bank loans with multi-stage model. International Journal of Forecasting. https://doi.org/10.1016/j.ijforecast.2016.11.005;
  14. Tobback, E., Martens, D., Van Gestel, T., và Baesens, B. (2014), Forecasting Loss Given Default models: Impact of account characteristics and the macroeconomic state. Journal of the Operational Research Society, 65. https://doi.org/10.1057/jors.2013.158;
  15. Velka, E. (2020), Loss Given Default Estimation with Machine Learning Ensemble Methods. Retrieved from https://www.diva-portal.org/smash/record.jsf?pid=diva2%3A1464145vàdswid=-5414;
  16. Yao, X., Crook, J., và Andreeva, G. (2017). Enhancing two-stage modelling methodology for loss given default with support vector machines. European Journal of Operational Research. https://doi.org/10.1016/j.ejor.2017.05.017
  17. Zhang, J., và Thomas, L. C. (2012). Comparisons of linear regression and survival analysis using single and mixture distributions approaches in modelling LGD. International Journal of Forecasting. https://doi.org/10.1016/j.ijforecast.2010.06.002.
Bài đăng trên Tạp chí Tài chính kỳ 1 tháng 7/2024