Information Retrieval (IR) là lĩnh vực của Khoa học Máy tính chuyên nghiên cứu các phương pháp tìm kiếm, truy xuất và sắp xếp thông tin có liên quan từ các tập dữ liệu lớn, đặc biệt là văn bản, hình ảnh hoặc đa phương tiện. Hệ thống IR thường được sử dụng trong công cụ tìm kiếm (như Google, Bing), hệ thống đề xuất, tìm kiếm tài liệu học thuật, và trong nhiều ứng dụng phân tích dữ liệu lớn.
Truy hồi thông tin không chỉ dừng lại ở việc “tìm kiếm” mà còn liên quan đến xếp hạng, đo lường mức độ phù hợp, và tối ưu trải nghiệm người dùng.
Các thành phần chính trong Information Retrieval
- Document Indexing: TF-IDF, inverted index để tạo cấu trúc dữ liệu có thể tìm kiếm.
- Query Processing: Stemming, stop-word removal, xử lý ngôn ngữ tự nhiên.
- Retrieval Models: Boolean Model, Vector Space Model, BM25, Neural IR (BERT, ColBERT, SPLADE).
- Ranking Algorithms: Cosine Similarity, BM25, học sâu (deep learning models).
- Evaluation Metrics: Precision, Recall, F1-score, MAP, NDCG.
Ứng dụng Information Retrieval
- Công cụ tìm kiếm web (Google, Bing)
- Tìm kiếm nội bộ doanh nghiệp (Enterprise Search)
- Thư viện số (Digital Libraries)
- Hệ thống hỏi đáp (QA Systems)
- Tìm kiếm bằng giọng nói, Chatbot
- Tìm kiếm sản phẩm trong E-commerce
- Phân tích văn bản y sinh (Bioinformatics IR)
Các công nghệ & công cụ phổ biến
- ElasticSearch, Apache Solr, Whoosh
- Lucene, FAISS (Facebook AI Similarity Search)
- BM25, TF-IDF, BERT-based Retrieval
- Milvus, Weaviate, Vespa cho Vector Search