web文本數據清洗流程及案例 (案例代碼)
發表時間:2023-08-30 來源:明輝站整理相關軟件相關文章人氣:
[摘要]本篇文章給大家帶來的內容是關于web文本數據清洗流程及實例 (實例代碼),有一定的參考價值,有需要的朋友可以參考一下,希望對你有所幫助。今天,超過80%的數據是非結構化的。文本數據預處理是數據分析前的必經之路。大多數可用的文本數據本質上是高度非結構化和嘈雜的,需要更好的見解或建立更好的算法來處理數...
本篇文章給大家帶來的內容是關于web文本數據清洗流程及實例 (實例代碼),有一定的參考價值,有需要的朋友可以參考一下,希望對你有所幫助。
今天,超過80%的數據是非結構化的。文本數據預處理是數據分析前的必經之路。大多數可用的文本數據本質上是高度非結構化和嘈雜的,需要更好的見解或建立更好的算法來處理數據。
我們知道,社交媒體數據是高度非結構化的,因其非正式的交流,存在包括拼寫錯誤、語法不好、俚語的使用、諸如URL、停用詞、表達式等不必要內容。
一個典型的商業問題,假設你感興趣的是:這是iPhone在粉絲中更受歡迎的特點。下面你已經提取了與iPhone相關的消費者意見的一條推特:
下面對這條推特做文本預處理:
1、去掉HTML 字符:
從Web獲得的數據通常包含許多HTML實體,如lt;& gt;& &;它嵌入到原始數據中。因此,必須擺脫這些實體。一種方法是通過使用特定的正則表達式直接刪除它們。另一種方法是使用適當的包和模塊(例如Python的HTMLPARSER),它可以將這些實體轉換成標準的HTML標記。例如:& lt;轉換為“<”,轉換為“&”。

2、解碼數據:
這是將信息從復雜符號轉換為簡單易懂字符的過程。文本數據可能會受到不同形式的解碼,如“拉丁語”、“UTF8”等。因此,為了更好地分析,有必要保持完整的數據以標準的編碼格式。UTF-8編碼被廣泛接受并推薦使用。

3、撇號查找:為了避免文本中的任何詞義消歧,建議在文章中保持適當的結構,并遵守上下文無關文法的規則。當使用撇號時,消歧的機會增加。
For example “it’s is a contraction for it is or it has”.
所有撇號都應該轉換成標準詞典。可以使用所有可能的關鍵字的查找表來消除歧義。

4、停用詞的去除:當數據分析需要在字級上進行數據驅動時,應刪除通常出現的單詞(停用詞)。通過創建的一個長長的停止詞列表,或者可以使用預定義的語言特定的庫。
5、刪除標點符號:所有的標點符號應根據優先級來處理。例如:“,”,“,”,“?”“重要標點應該保留,而其他標點需要刪除。
6、刪除表達式:文本數據(通常是語音轉錄)可能包含人類的表達,如[笑],[哭],[觀眾暫停]。這些表達式通常與語音內容無關,因此需要刪除。在這種情況下,簡單正則表達式可能是有用的。
7、分裂的附加詞:人在社交論壇中的生成文本數據,本質上是完全非正式的。大多數推文伴隨著多個附加詞,例如RayyDay. PrimeCythOrth.等,這些實體可以用簡單的規則和正則表達式分裂成它們的正常形式.
8、俚語查找:同樣,社交媒體包括大多數俚語詞匯。這些詞應該轉換成標準詞來制作自由文本。像LUV這樣的詞將被轉換成愛,Helo到Hello。撇號查找的類似方法可以用來將俚語轉換成標準詞。網上有大量的信息源,它提供了所有可能的俚語的列表,可以用它們作為查找字典來進行轉換。
9、規范詞:有時詞的格式不正確。例如:“I looooveee you” 應為 “I love you”。簡單的規則和正則表達式可以幫助解決這些情況。
10、刪除URL:應刪除文本數據中的URL和超鏈接,如評論、評論和推文。
以上就是對web文本數據清洗流程及實例 (實例代碼)的全部介紹,如果您想了解更多有關HTML視頻教程,請關注PHP中文網。
以上就是web文本數據清洗流程及實例 (實例代碼)的詳細內容,更多請關注php中文網其它相關文章!
網站建設是一個廣義的術語,涵蓋了許多不同的技能和學科中所使用的生產和維護的網站。