THANHNAM SOFTWARE - Rút trích nội dung từ một link website bất kỳ trong ASP.NET

KIẾN THỨC LẬP TRÌNH

.NET, C++...
Sharepoint
Thiết kế web
Marketing Online
...

Về chúng tôi

THANHNAM SOFTWARE bao gồm đội ngũ các chuyên gia trong lĩnh vực công nghệ thông tin.
Làm việc chuyên nghiệp, có nhiều kinh nghiệm triển khai các dự án trong và ngoài nước:
→ Tư vấn-triển khai giải pháp EOFFICE, ERP
→ Xây dựng phần mềm
→ Thiết kế wesite
→ Marketing online...
Chúng tôi luôn vì sự hài lòng của khách hàng, mang tới cho quý khách hàng những dịch vụ và sẩn phẩm chất lượng nhất!

Rút trích nội dung từ một link website bất kỳ trong ASP.NET

Bạn thiết kế một trang site tin tức đòi hỏi công việc cập nhật tin tức tự động một cách thường xuyên? Nhưng bạn không có đủ nhân lực và thời gian để làm công việc này một cách thủ công? WEBXAULA sẽ hướng dẫn các bạn cách lấy nội dung một website một cách tự động.

Để lấy được nội dung website thông qua một URL bất kì. Việc đầu tiên ta phải lấy về được toàn bộ html của link đó, sau đó phân tích chuỗi html đó, dựa vào các id hoặc name của div, table, span, v.v.... mà ta sẽ lấy được nội dung cần lấy. Để làm được việc này các bạn cần có một chút kiến thức về RegularExpressions.

Do mỗi website có cấu trúc khác nhau nên cách trích lọc và phân tích html cũng khác nhau. Ở đây tôi sẽ ví dụ cho các bạn lấy nội dung tin tức từ website vnexpress.net. Cụ thể tôi sẽ lấy nội dung của link sau: http://vnexpress.net/gl/xa-hoi/2012/08/phu-nu-chet-loa-the-trong-khach-san/

Đầu tiên, các bạn add thêm 4 thư viện sau:

using System.Text.RegularExpressions;

using System.Text;

using System.Net;

using System.IO;

Hàm lấy html của link bất kì:

public string GetWebContent(string strLink)

{

string strContent = "";

try

{

WebRequest objWebRequest = WebRequest.Create(strLink);

objWebRequest.Credentials = CredentialCache.DefaultCredentials;

WebResponse objWebResponse = objWebRequest.GetResponse();

Stream receiveStream = objWebResponse.GetResponseStream();

StreamReader readStream = new StreamReader(receiveStream, System.Text.Encoding.UTF8);

strContent = readStream.ReadToEnd();

objWebResponse.Close();

readStream.Close();

}

catch (Exception ex)

{

return ex.Message;

}

return strContent;

}

Bây giờ công việc tiếp theo là lấy ra từng thành phần mà bạn muốn lấy.

Phân tích lấy phần tiêu đề: Các bạn viết hàm sau:

public string LayTieuDe(string Content)

{

string pattern = "<H1 class=Title>[^<]+";

Regex Title = new Regex(pattern);

Match m = Title.Match(Content);

if (m.Success)

return m.Value.Substring(16, m.Value.Length - 16);

return "";

}

Phân tích lời phần mô tả: Hàm được viết tương tự như sau:

public string LayMoTa(string Content)

{

string pattern = "<H2 class=Lead>[^<]+";

Regex Title = new Regex(pattern);

Match m = Title.Match(Content);

if (m.Success)

return m.Value.Substring(15, m.Value.Length - 15);

return "";

}

Phân tích lấy phần nội dung. Các bạn tạo hàm sau:

public string LayNoiDung(string Content)

{

string pattern = "<P class=Normal>[^~]+";

Regex Title = new Regex(pattern);

Match m = Title.Match(Content);

if (m.Success)

return m.Value.Substring(16, m.Value.Length - 16).Replace("/Files", "http://vnexpress.net/Files").Replace("/gl","http://vnexpress.net/gl");

return "";

}

Khi nào cần sử dụng thì bạn chỉ cần gọi các hàm này ra. VD:

lblThongBao.Text = LayTieuDe(GetWebContent("http://vnexpress.net/gl/xa-hoi/2012/08/phu-nu-chet-loa-the-trong-khach-san/"))

+ "<br/><br/>"

+ LayMoTa(GetWebContent("http://vnexpress.net/gl/xa-hoi/2012/08/phu-nu-chet-loa-the-trong-khach-san/"))

+ "<br/><br/>"

+ LayNoiDung(GetWebContent("http://vnexpress.net/gl/xa-hoi/2012/08/phu-nu-chet-loa-the-trong-khach-san/"))

+ "";

Đây là bước đầu căn bản để lấy nội dung một link bất kỳ, các bạn có thể dựa vào để phát triển thêm lấy các phần nâng cao hơn. Chúc các bạn thành công

BÀI VIẾT LIÊN QUAN

→ Tự động fix chiều cao cho iframe

→ Hướng dẫn tạo sitemap cho website

→ Hỏi đáp tên miền

→ Những điều cần tránh khi thiết kế website

→ Thiết lập chế độ Anonymous - không cần đăng nhập trong sharepoint

→ Ẩn dòng Created & Modified trong form hiển thị của sharepoint

Lĩnh vực hoạt động

Thiết kế web
Viết phần mềm
GOOGLE - FACEBOOK ADS
Marketing Online

Về chúng tôi

Giới thiệu
Diễn đàn
Liên hệ

Kiến thức IT

Tin tức
.NET, C++...
Sharepoint

Hỗ trợ online

Hot line: 024 66 80 96 40 Email: ceo@namsang.vn

Kỹ thuật 09 34 64 10 88 ceo@namsang.vn	Kinh doanh 09 36 15 29 84 dthanh@giadinhit.net

Đang online : 91 Lượt truy cập : 333,886

Gửi bạn bè

CÔNG TY TNHH THƯƠNG MẠI VÀ GIẢI PHÁP CÔNG NGHỆ THÀNH NAM
Địa chỉ: Số 22, ngõ 90/1 - Yên Hòa - Cầu Giấy - Hà Nội
Giấy phép kinh doanh số 01 05 95 78 15 Tài khoản ngân hàng 045 10 00 23 77 28, NH TMCP Ngoại Thương Việt Nam-CN Thành Công

KIẾN THỨC LẬP TRÌNH

Về chúng tôi

Rút trích nội dung từ một link website bất kỳ trong ASP.NET

BÀI VIẾT LIÊN QUAN

Kỹ thuật

Kinh doanh