Các nghiên cứu ước tính và chạy các từ phổ biến nhất trong tiếng Anh kiểm tra các văn bản viết bằng tiếng Anh. Có lẽ việc phân tích toàn diện nhất như là một trong đó đã được tiến hành chống lại Oxford English Corpus (OEC), một bộ sưu tập rất lớn các văn bản từ khắp nơi trên thế giới được viết bằng ngôn ngữ tiếng Anh. Một corpus văn bản là một bộ sưu tập lớn các công trình bằng văn bản được tổ chức theo một cách mà làm cho phân tích như vậy dễ dàng hơn.
Tổng cộng, các văn bản trong tiếng Anh Oxford Corpus chứa hơn 2 tỷ từ. Các OEC bao gồm một loạt các mẫu văn bản, chẳng hạn như tác phẩm văn học, tiểu thuyết, tạp chí khoa học, báo, tạp chí, tranh luận nghị viện Hansard của, blog, chat logs, và email.
Một corpus tiếng Anh đã được sử dụng để nghiên cứu tần số từ là Brown Corpus, được biên soạn bởi các nhà nghiên cứu tại Đại học Brown trong những năm 1960. Các nhà nghiên cứu công bố phân tích của họ về Brown Corpus vào năm 1967. Phát hiện của họ là tương tự, nhưng không giống nhau, các kết quả của việc phân tích OEC.
Theo Sách liệt kê các Reading của Sư Phụ, 25 từ đầu tiên trong OEC tạo nên khoảng một phần ba của tất cả các tài liệu in bằng tiếng Anh, và 100 từ đầu tiên chiếm khoảng một nửa trong số tất cả các văn bản tiếng Anh. Theo một nghiên cứu được trích dẫn bởi Robert McCrum trong The Story of English, tất cả các trăm đầu tiên của các từ phổ biến nhất trong tiếng Anh là của Anglo-Saxon xuất xứ.
Một số danh sách các từ thông thường phân biệt giữa hình thức văn bản, trong khi những người khác xếp hạng tất cả các hình thức của một từ như một lexeme duy nhất (hình thức của từ vì nó sẽ xuất hiện trong một cuốn từ điển). Ví dụ, lexeme được (như trong được) bao gồm tất cả các cách chia động từ của nó (nghĩa là, là, là, là, vv), và co thắt trong những cách chia động từ. Cũng lưu ý rằng những 100 bổ đề hàng đầu được liệt kê dưới đây chiếm 50% của tất cả các từ trong tiếng Anh Oxford Corpus.
Fiirst release