Trang chủ>  Blog >  Kiến thức chuyên môn >  12 CÂU HỎI PHỎNG VẤN KHÓ NHẤT DÀNH CHO DATA SCIENTIST PHẦN 2

12 CÂU HỎI PHỎNG VẤN KHÓ NHẤT DÀNH CHO DATA SCIENTIST PHẦN 2


Tổng hợp 12 câu hỏi phỏng vấn vị trí Data Scientist tưởng đơn giản nhưng lại vô cùng phức tạp để trả lời chính xác.

  436 lượt xem

Nội dung bài viết

Tổng hợp 12 câu hỏi phỏng vấn vị trí Data Scientist tưởng đơn giản nhưng lại vô cùng phức tạp để trả lời chính xác. 

Câu hỏi phỏng vấn về phân tích dữ liệu

6) Chuỗi Markov là gì?

Chuỗi Markov là quá trình chuyển đổi từ trạng thái này sang trạng thái khác bằng phương pháp xác suất. Nó xác định xác suất chuyển sang trạng thái tương lai dựa trên trạng thái hiện tại và thời gian trôi qua. Chuỗi Markov được sử dụng trong lý thuyết thông tin, công cụ tìm kiếm và nhận dạng giọng nói. Bạn có thể tham khảo thêm thông tin tại trang web  của Brilliant Math .

7) Các giá trị ngoại lệ được xử lý như thế nào?

Giải pháp đơn giản là loại bỏ các ngoại lệ vì chúng ảnh hưởng đến phân tích dữ liệu tổng thể. Nhưng trước khi bạn làm điều đó, hãy đảm bảo rằng tập dữ liệu của bạn lớn và các giá trị bạn đang xóa là không có giá trị. Những dữ liệu lỗi này có nghĩa là nó đã được thêm vào do nhầm lẫn. 

Ngoài ra, bạn có thể xử lý thông qua những bước sau: 

  • Chuẩn hóa dữ liệu
  • Áp dụng MinMaxScaler hoặc StandardScaler
  • Sử dụng các thuật toán không bị ảnh hưởng bởi các ngoại lệ, chẳng hạn như random forests

3. Câu hỏi phỏng vấn về Machine Learning

8) TF-IDF là gì?

 TF-IDF (Term Frequency Inverse Document Frequency of records) được sử dụng để tính mức độ liên quan của một từ trong một chuỗi hoặc ngữ liệu của văn bản. Trong quá trình lập chỉ mục văn bản, nó đánh giá giá trị của từng thuật ngữ trong tài liệu hoặc kho văn bản. Nó thường được sử dụng để vector hóa văn bản, trong đó một dòng hoặc câu được chuyển đổi thành các giá trị số và được sử dụng cho các tác vụ NLP (Xử lý ngôn ngữ tự nhiên). 

9) Sự khác biệt giữa error and residual là gì?

Error là sự khác biệt giữa giá trị quan sát được và giá trị lý thuyết của nó. Thông thường, đó là giá trị không quan sát được tạo bởi DGP (Data Generating Process)

Residual là sự khác biệt giữa giá trị quan sát được và giá trị dự đoán được tạo ra từ một mô hình. 

10) Phương pháp gradient descent luôn luôn hội tụ về các điểm giống nhau, đúng không?

Không phải lúc nào cũng vậy. Phương pháp này dễ bị mắc kẹt tại các điểm cực tiểu hoặc điểm tối ưu cục bộ. Nếu bạn có nhiều điểm tối ưu cục bộ, sự hội tụ của nó phụ thuộc vào dữ liệu và điều kiện ban đầu. Thật khó để đạt đến cực tiểu toàn cầu. 

 

11) Phương pháp Sliding Window cho ime Series Forecasting là gì?

Phương pháp Sliding Window còn được gọi là lag method, trong đó các bước thời gian trước được sử dụng làm đầu vào và bước thời gian tiếp theo được sử dụng làm đầu ra. Các bước trước đó phụ thuộc vào window width, là số bước trước đó. Phương pháp Sliding Window khá nổi tiếng để dự báo đơn biến. Nó chuyển đổi một tập dữ liệu chuỗi thời gian thành một bài toán học có giám sát. 

Ví dụ: nếu chuỗi là [45,96,105,108,130,140,160,190,220,250,300,400] và window widthba . Output sẽ giống như hình bên dưới đây: 

 

12) Làm thế nào để bạn tránh overfitting cho mô hình? 

Việc overfitting xảy ra khi mô hình của bạn hoạt động tốt trên tập dữ liệu đào tạo và xác thực nhưng lại không thành công ở tập dữ liệu thử nghiệm không nhìn thấy được. 

Chúng ta có thể tránh nó bằng cách:

  • Giữ mô hình đơn giản
  • Tránh đào tạo cho Epocs dài hơn
  • kỹ thuật tính năng
  • Sử dụng các kỹ thuật cross-validation
  • Sử dụng các kỹ thuật regularization
  • Đánh giá mô hình bằng Shap

 



 

Chương trình đào tạo: Phân tích dữ liệu, Khoa học dữ liệu, Kĩ sư dữ liệu, Lập trình ứng dụng.
Chất lượng nhất - Uy tín nhất - Nhiều học viên tin tưởng nhất
Hơn 8000 học viên ưu tú đã tốt nghiệp
Đăng ký tư vấn khóa học

*Vui lòng nhập số điện thoại của bạn

*Vui lòng nhập họ tên của bạn

*Vui lòng chọn địa điểm học

*Vui lòng chọn giới tính

*Vui lòng chọn 1 trường


Các bài viết liên quan


Hành Trình Đào Tạo Doanh Nghiệp 365 Ngày Cùng MCI: Tổng Kết và Chia Sẻ

Trải qua một năm đầy thách thức và học hỏi, 365 ngày đầy ý nghĩa và khát vọng của MCI Việt Nam, nơi mà chúng tôi không chỉ đào tạo, mà còn đồng hành cùng các doanh nghiệp Việt, đặc biệt là trong lĩnh vực quan trọng - Phân tích Dữ liệu.

LEETCODE VS HACKERRANK: ĐÂU LÀ NỀN TẢNG HỌC TẬP HỮU ÍCH DÀNH CHO NEWBIE DATA SCIENTIST?

LeetCode và HackerRank: Đâu là nền tảng học tập hữu ích dành cho Data Science?

07 ỨNG DỤNG CỦA DATA SCIENCE TRONG QUẢN LÝ CHUỖI CUNG ỨNG

Theo khảo sát của DHL, 73% công ty tin rằng Data Science sẽ cải thiện và phát triển hoạt động chuỗi cung ứng của họ. Điều này đã chứng minh tiềm năng phát triển mạnh mẽ của ngành khoa học dữ liệu trong việc tối ưu hóa chuỗi cung ứng.

Các bài viết liên quan