Trang chủ>  Blog >  Kiến thức chuyên môn >  03 CÁCH HỮU DỤNG XỬ LÝ TỆP CSV BẰNG PYTHON

03 CÁCH HỮU DỤNG XỬ LÝ TỆP CSV BẰNG PYTHON


Đối với những người mới bắt đầu với ngôn ngữ lập trình Python, CSV là một trong những tệp văn bản đơn giản thường lưu trữ dữ liệu của Data Scientist. Vậy làm thế nào xử lý tệp CSV nhanh chóng? Cùng tìm hiểu trong những chia sẻ dưới đây.

  1,735 lượt xem

Nội dung bài viết

Đối với những người mới bắt đầu với ngôn ngữ lập trình Python, CSV là một trong những tệp văn bản đơn giản thường lưu trữ dữ liệu của Data Scientist. Vậy làm thế nào xử lý tệp CSV nhanh chóng? Cùng tìm hiểu trong những chia sẻ dưới đây.  

1. Tệp CSV là gì?

CSV là viết tắt của Comma Separated Value - là những giá trị được phân tách bằng dấu phẩy và là tệp văn bản thuần túy chứa dữ liệu. Nó được biết đến như một trong những định dạng lưu trữ dữ liệu đơn giản nhất và được Data Scientist và Data Engineer thường xuyên sử dụng. 

Đây là một cấu trúc ví dụ:

 

2. Cách xử lý tệp CSV 

2.1 Sử dụng thư viện Pandas 

Pandas là một thư viện Python mã nguồn mở được xây dựng dựa trên Numpy.

Công thức là:

import pandas as pd

 

2.2 Sử dụng công thức read_csv() để đọc tệp 

read_csv() thực hiện theo câu lệnh bạn đưa ra, nó “đọc” tệp csv của bạn vào DataFrame theo câu lệnh sau:

df = pd.read_csv("electric_cars.csv")

df.head(5)

Ví dụ:

 

 

2.3 Sử dụng csv.reader

 

Python có một mô-đun tích hợp gọi là csv có thể được sử dụng để đọc tệp. Dưới đây là một số bước nhanh chóng và dễ dàng:

Nhập câu lệnh:

import csv

Mở tệp CSV của bạn:

with open('electric_cars.csv', 'r') as infile:

    r = csv.reader(infile)

for one_line in r:

    print(one_line)

 

Bạn có thể tham khảo ở ví dụ dưới đây:

 

2.4 Split method

 

 Bên cạnh những công thức vừa nêu trên, bạn có thể có thể dễ dàng tải các tệp CSV thông qua phương thức split. Phương thức .split trên các chuỗi trả về một danh sách các chuỗi. 

Công thức:

for one_line in open('electric_cars.csv'):

    print(one_line.split(','))

 

Tuy nhiên, nhìn vào hình ảnh ví dụ bên dưới và thay vì có dấu phẩy làm dấu phân cách, bạn muốn có một tab làm dấu phân cách, bạn có thể viết công thức như sau

with open('format1.csv', 'w') as outfile:

    for one_line in open('electric_cars.csv'):

        outfile.write(('\t'.join(one_line.strip().split(',')) + '\n'))

 

Ví dụ:

 

 Kết luận 

Có nhiều cách để bạn có thể xử lý tệp CSV bằng Python. Bạn có thể xử lý bằng cách này hoặc bằng cách khác miễn sao kết quả cuối cùng có thể phục vụ cho công việc của mình. Bên cạnh đó, học thêm nhiều kiến thức mới sẽ luôn là điều tốt nếu bạn muốn làm việc trong lĩnh vực Khoa học dữ liệu.

Chương trình đào tạo: Phân tích dữ liệu, Khoa học dữ liệu, Kĩ sư dữ liệu, Lập trình ứng dụng.
Chất lượng nhất - Uy tín nhất - Nhiều học viên tin tưởng nhất
Hơn 8000 học viên ưu tú đã tốt nghiệp
Các khóa học

Đăng ký tư vấn khóa học

*Vui lòng nhập số điện thoại của bạn

*Vui lòng nhập họ tên của bạn

*Vui lòng chọn địa điểm học

*Vui lòng chọn giới tính

*Vui lòng chọn 1 trường


Các bài viết liên quan


10+ Cách học Python hiệu quả tốt nhất cho người mới bắt đầu

Khám phá 10+ cách học Python hiệu quả nhất cho người mới bắt đầu với hướng dẫn chi tiết, phương pháp nhanh chóng, và bí quyết thực hành tốt nhất từ các chuyên gia lập trình

Các cách học Python hiệu quả dành cho người mới bắt đầu

Khám phá các cách học Python hiệu quả dành cho người mới bắt đầu để nhanh chóng nắm vững kỹ năng lập trình và phát triển bản thân với Python

Python dành cho ai? Lộ trình từ mới bắt đầu đến chuyên gia

Học Python từ cơ bản đến chuyên gia. Khám phá đối tượng phù hợp và lộ trình học tập hiệu quả để phát triển sự nghiệp lập trình của bạn.

Các bài viết liên quan