03 CÁCH HỮU DỤNG XỬ LÝ TỆP CSV BẰNG PYTHON
Đối với những người mới bắt đầu với ngôn ngữ lập trình Python, CSV là một trong những tệp văn bản đơn giản thường lưu trữ dữ liệu của Data Scientist. Vậy làm thế nào xử lý tệp CSV nhanh chóng? Cùng tìm hiểu trong những chia sẻ dưới đây.
Nội dung bài viết
Đối với những người mới bắt đầu với ngôn ngữ lập trình Python, CSV là một trong những tệp văn bản đơn giản thường lưu trữ dữ liệu của Data Scientist. Vậy làm thế nào xử lý tệp CSV nhanh chóng? Cùng tìm hiểu trong những chia sẻ dưới đây.
1. Tệp CSV là gì?
CSV là viết tắt của Comma Separated Value - là những giá trị được phân tách bằng dấu phẩy và là tệp văn bản thuần túy chứa dữ liệu. Nó được biết đến như một trong những định dạng lưu trữ dữ liệu đơn giản nhất và được Data Scientist và Data Engineer thường xuyên sử dụng.
Đây là một cấu trúc ví dụ:
2. Cách xử lý tệp CSV
2.1 Sử dụng thư viện Pandas
Pandas là một thư viện Python mã nguồn mở được xây dựng dựa trên Numpy.
Công thức là:
import pandas as pd
2.2 Sử dụng công thức read_csv() để đọc tệp
read_csv() thực hiện theo câu lệnh bạn đưa ra, nó “đọc” tệp csv của bạn vào DataFrame theo câu lệnh sau:
df = pd.read_csv("electric_cars.csv")
df.head(5)
Ví dụ:
2.3 Sử dụng csv.reader
Python có một mô-đun tích hợp gọi là csv có thể được sử dụng để đọc tệp. Dưới đây là một số bước nhanh chóng và dễ dàng:
Nhập câu lệnh:
import csv
Mở tệp CSV của bạn:
with open('electric_cars.csv', 'r') as infile:
r = csv.reader(infile)
for one_line in r:
print(one_line)
Bạn có thể tham khảo ở ví dụ dưới đây:
2.4 Split method
Bên cạnh những công thức vừa nêu trên, bạn có thể có thể dễ dàng tải các tệp CSV thông qua phương thức split. Phương thức .split trên các chuỗi trả về một danh sách các chuỗi.
Công thức:
for one_line in open('electric_cars.csv'):
print(one_line.split(','))
Tuy nhiên, nhìn vào hình ảnh ví dụ bên dưới và thay vì có dấu phẩy làm dấu phân cách, bạn muốn có một tab làm dấu phân cách, bạn có thể viết công thức như sau
with open('format1.csv', 'w') as outfile:
for one_line in open('electric_cars.csv'):
outfile.write(('\t'.join(one_line.strip().split(',')) + '\n'))
Ví dụ:
Kết luận
Có nhiều cách để bạn có thể xử lý tệp CSV bằng Python. Bạn có thể xử lý bằng cách này hoặc bằng cách khác miễn sao kết quả cuối cùng có thể phục vụ cho công việc của mình. Bên cạnh đó, học thêm nhiều kiến thức mới sẽ luôn là điều tốt nếu bạn muốn làm việc trong lĩnh vực Khoa học dữ liệu.
Các khóa học
- Data Engineer Track Specialized
- Combo Data Engineering Professional Hot
- Advanced AWS Cloud Data Engineer Specialized
- AWS Data Engineer for Beginners Specialized
- Combo Python Level 1 & Level 2 Bestseller
- Business Intelligence Track Hot
- Data Science Track Bestseller
- Data Analyst Professional (Data Analyst with Python Track) Bestseller
- RPA UiPath Nâng Cao: Chiến Thuật Automation Cho Chuyên Gia Specialized
- RPA UiPath cho Người Mới Bắt Đầu: Thành Thạo Automation Chỉ Trong 1 Ngày Specialized
- Business Analyst Fast Track Bestseller
- Combo Business Analyst Level 1 & Level 2 Bestseller
- Business Analyst for Beginners Bestseller
Đăng ký tư vấn khóa học
*Vui lòng nhập số điện thoại của bạn
*Vui lòng nhập họ tên của bạn
*Vui lòng chọn giới tính
*Vui lòng chọn 1 trường