5 điều bạn cần biết trước khi thu thập dữ liệu từ Facebook

Facebook là 1 trong những mạng Social được mọi người Public thông tin cá nhân rộng rãi hiện nay. Nếu bạn đã tạo tài khoản và đăng thông tin cá nhân, hình ảnh lên trên Internet thì không có cách nào để bảo mật hoàn toàn thông tin cá nhân. Các chuyên gia phân tích dữ liệu sẽ cần hàng ngàn thông tin thực trên Internet, nên Facebook cũng là 1 trong số những nơi cung cấp thông tin cho họ.

1. Trên thực tế, Facebook không cho phép bất kỳ trình quét nào, theo file robots.txt của nó.

Khi lên kế hoạch chỉnh sửa một trang web, bạn phải luôn kiểm tra file robots.txt của trang web đó trước. Robots.txt  là một file được các trang web sử dụng để cho “bot” biết liệu trang web có nên được loại bỏ hoặc thu thập thông tin và lập chỉ mục hay không. Bạn có thể truy cập file bằng cách thêm “/robots.txt” vào cuối liên kết đến trang web mục tiêu của bạn. 

Nhập  https://www.facebook.com/robots.txt  vào trình duyệt của bạn và kiểm tra file robot của Facebook. Hai dòng này có thể được tìm thấy ở cuối file:

Các dòng nói rằng Facebook cấm tất cả các công cụ thu thập tự động. Có nghĩa là, không có phần nào của trang web nên được truy cập bởi trình thu thập thông tin tự động.

Tại sao chúng ta cần tôn trọng robots.txt?

Các trang web sử dụng file rô bốt để chỉ định một bộ quy tắc về cách bạn hoặc bot sẽ tương tác với chúng. Khi một trang web chặn tất cả quyền truy cập vào trình thu thập thông tin, điều tốt nhất nên làm là để trang web đó yên. Theo dõi file robot là để tránh thu thập dữ liệu phi đạo đức cũng như bất kỳ phân nhánh hợp pháp nào .

2. Về mặt kỹ thuật, cách hợp pháp duy nhất để thu thập dữ liệu từ Facebook bằng trình thu thập thông tin là xin phép trước bằng văn bản

Facebook cảnh báo ngay từ đầu file robot của họ: “Việc thu thập thông tin Facebook bị cấm trừ khi bạn có sự cho phép rõ ràng bằng văn bản.” 

quyền thu thập facebook

Kiểm tra liên kết trên dòng thứ hai, bạn có thể tìm thấy Điều khoản thu thập dữ liệu tự động của Facebook  , được sửa đổi lần cuối vào ngày 15 tháng 4 năm 2010.

Giống như bất kỳ điều khoản và điều kiện nào khác trên thế giới, Điều khoản thu thập dữ liệu tự động của Facebook dài (với kích thước phông chữ nhỏ bất thường) và đầy đủ các điều khoản pháp lý mà ít người có thể hiểu đầy đủ.

Các thuật ngữ này trông rất quen thuộc, như chúng ta sẽ thấy mỗi khi chúng ta cài đặt một ứng dụng mới trên điện thoại di động của mình hoặc đăng ký một trang web. 

  • “Bằng cách xin phép … bạn đồng ý tuân theo …”
  • “Bạn đồng ý rằng bạn sẽ không…”
  • “Bạn đồng ý rằng bất kỳ vi phạm nào đối với các điều khoản này có thể dẫn đến…”

Tuy nhiên, họ có thể không ngây thơ như nhau.

Là gã khổng lồ về truyền thông xã hội, Facebook có tiền, thời gian và một đội ngũ pháp lý tận tâm. Nếu bạn tiếp tục loại bỏ Facebook bằng cách bỏ qua Điều khoản thu thập dữ liệu tự động của họ, điều đó không sao, nhưng chỉ cần được cảnh báo rằng họ đã được nhắc bạn ít nhất phải có “sự cho phép bằng văn bản”. Đôi khi chúng có thể khá hung hăng đối với việc thu thập dữ liệu bất hợp pháp. 

3. Nhưng chắc chắn bạn vẫn có thể lấy dữ liệu từ Facebook khi cần

Nếu bạn đã thực hiện thu thập thông tin mà không tôn trọng robots.txt, điều đó không có nghĩa là bạn sẽ gặp rắc rối pháp lý vì bạn đã vi phạm các quy tắc.

Dữ liệu được thu thập từ phương tiện truyền thông xã hội chắc chắn là tập dữ liệu lớn nhất và năng động nhất về hành vi của con người và các sự kiện trong thế giới thực. Trong hơn một thập kỷ, các nhà nghiên cứu và chuyên gia kinh doanh trên khắp thế giới đã thu thập thông tin từ Facebook bằng cách sử dụng công cụ thu thập, tạo ra các mẫu đại diện để hiểu các cá nhân, nhóm và xã hội, cũng như khám phá các cơ hội hoàn toàn mới ẩn trong dữ liệu.

Đối với người dùng, họ sẽ đồng ý rằng việc sử dụng dữ liệu xã hội không phải lúc nào cũng là điều xấu. Ví dụ: việc sử dụng dữ liệu xã hội để cá nhân hóa hoạt động marketing đã giúp giữ cho Internet không bị gián đoạn và làm cho các quảng cáo và nội dung mà chúng ta thấy có liên quan hơn.

Các công cụ bạn có thể sử dụng để lấy dữ liệu Facebook

Để đối phó với sự phản đối kịch liệt của công chúng sau vụ bê bối Cambridge Analytica, Facebook đã thực hiện các  hạn chế truy cập đáng kể đối với các API của mình  vào tháng 4 năm ngoái.

Giao diện lập trình ứng dụng (API) là giao diện phần mềm được thiết kế để sử dụng bởi các chương trình máy tính, cho phép mọi người truy xuất dữ liệu quy mô lớn bằng các quy trình tự động. Ngày nay, nhiều công ty cung cấp API công khai như một phương tiện để người dùng, nhà nghiên cứu và nhà phát triển ứng dụng bên thứ ba truy cập vào cơ sở hạ tầng của họ.

Việc khóa API và hạn chế truy cập dữ liệu triệt để của Facebook như một nỗ lực để bảo vệ thông tin người dùng của nó là  khá đáng tranh cãi . Nhưng kết quả là bây giờ mọi người chỉ còn lại một sự lựa chọn.

Nếu không có API, giờ đây chúng tôi chỉ có thể lấy dữ liệu Facebook thông qua các giao diện dành cho người dùng, tức là các trang web. Đây chính xác là lúc  các công cụ tìm kiếm web  phát huy tác dụng. Chúng tôi đã viết một blog về một số công cụ tự động lấy thông tin trên mạng xã hội tốt nhất.

4. Tuy nhiên, sau khi GDPR có hiệu lực, sẽ có nhiều cơ hội bị kiện hơn nếu bạn đang cố gắng thu thập dữ liệu cá nhân

Quy  định chung về bảo vệ dữ liệu của Liên minh Châu Âu , hay còn gọi là GDPR, có hiệu lực vào ngày 25 tháng 5 năm 2018. Đây được cho là thay đổi quan trọng nhất trong quy định về quyền riêng tư của dữ liệu trong 20 năm, nhằm buộc phải thay đổi sâu rộng mọi thứ từ công nghệ cho quảng cáo, và thuốc cho ngân hàng.

Các công ty hoặc tổ chức nắm giữ và xử lý lượng lớn dữ liệu người tiêu dùng, chẳng hạn như các công ty công nghệ như Facebook, bị ảnh hưởng nhiều nhất theo GDPR. Trước đó, tất cả các công ty này phải thực thi các quy tắc để bảo vệ dữ liệu người dùng. Bây giờ theo GDPR, họ cần đảm bảo rằng họ hoàn toàn tuân thủ luật pháp.

Tin tốt là…

GDPR chỉ áp dụng cho dữ liệu cá nhân.

Ở đây “dữ liệu cá nhân” đề cập đến dữ liệu có thể được sử dụng để xác định trực tiếp hoặc gián tiếp một cá nhân cụ thể. Loại thông tin này được gọi là Thông tin nhận dạng cá nhân (PII), bao gồm tên của một người, địa chỉ thực, địa chỉ email, số điện thoại, địa chỉ IP, ngày sinh, thông tin việc làm và thậm chí cả video / ghi âm.

Nếu bạn không thu thập dữ liệu cá nhân, thì GDPR sẽ không áp dụng.

Nói tóm lại, trừ khi bạn có sự đồng ý rõ ràng của người đó, việc chỉnh sửa dữ liệu cá nhân của cư dân Liên minh Châu Âu theo GDPR hiện là bất hợp pháp. 

5. Và bạn có thể thử các nguồn thay thế của Facebook cho dự án thu thập của mình

Như đã đề cập ở trên, mặc dù Facebook cấm tất cả các trình thu thập thông tin tự động, nhưng về mặt kỹ thuật, việc thu thập dữ liệu từ trang web vẫn khả thi về mặt kỹ thuật. Vấn đề là –

Nó là rủi ro.

Ngoài các phân nhánh pháp lý, bạn có thể thấy rằng việc truy xuất dữ liệu mong muốn một cách thường xuyên có thể khó khăn hơn vì Facebook chặn các IP đáng ngờ và thậm chí có thể triển khai các cơ chế chặn khó hơn trong tương lai, điều này có thể khiến dữ liệu bị loại bỏ hoàn toàn khỏi trang web Không thể nào.

Do đó, bạn nên tìm kiếm các nguồn đáng tin cậy hơn cho dữ liệu truyền thông xã hội để có được thông tin kinh doanh và hiểu biết sâu sắc về thị trường mục tiêu của bạn.

4 nguồn dữ liệu thay thế cho Facebook

Twitter

Với khoảng 500 triệu tweet được tạo ra mỗi ngày, Twitter là một biển thông tin có thể được sử dụng như một nguồn tuyệt vời để theo dõi thương hiệu và đo lường tình cảm của khách hàng. Không giống như Facebook, Twitter cho phép mọi người truy xuất dữ liệu trên quy mô lớn thông qua  các API của Twitter .

Reddit

Có nhiều người dùng như Twitter, Reddit là một trong những nguồn UGC (Nội dung do người dùng tạo) lớn nhất trên thế giới. Reddit cũng cung cấp  các API công khai  có thể được sử dụng cho nhiều mục đích khác nhau như thu thập dữ liệu, bot nhận xét tự động hoặc thậm chí để hỗ trợ kiểm duyệt subreddit.

VKontakte (VK)

VK  là một nền tảng truyền thông xã hội của Nga hướng tới người Nga và những người dùng Đông Âu khác. Cho đến nay, nó tự hào có  hơn 90 triệu người truy cập mỗi tháng và 9 tỷ lượt xem trang mỗi ngày . Là một công ty của Nga, VK tuân thủ luật pháp của Nga và nếu bạn kiểm tra file robot của nó, bạn sẽ thấy nó khá thân thiện với các trình thu thập thông tin.

Instagram

Thuộc sở hữu của Facebook, Instagram tập trung nhiều hơn vào việc chia sẻ nội dung trực quan, đặc biệt là video và hình ảnh. Nền tảng này được nhiều thương hiệu sử dụng để nhân bản hóa nội dung của họ nhằm kết nối khách hàng tốt hơn và nâng cao nhận thức về thương hiệu. Tuy nhiên, cùng với việc khóa dữ liệu của Facebook vào năm ngoái, Instagram cũng đã thực hiện các hạn chế triệt để  đối với quyền truy cập dữ liệu , điều này khiến trang web trở nên kém tin cậy hơn nhiều so với trước đây. 

Xem thêm về:

Chia sẻ suy nghĩ, quan điểm của bạn

Leave a reply

Nếu bạn cần Báo giá đăng ký lên BigTOP thì hãy tìm trên Google

bằng từ khóa “Đăng bài trên BigTOP

Hotline : 0935923672

BigTOP
Logo